Neural Vocoder (Updated)
"Пишется за день, тренируется столько же", или нет?
Created on December 19|Last edited on December 19
Comment
Что я пробовал
Пробовал разные шедулеры и конфиги, ограничивать градиенты и прочее. К сожалению, модель для полноценного обучения требует гораздо больше ресурсов и времени чем было доступно. Поэтому получилось обучить 8k модель с робовойсом. Гайдлайны см в ридми. Долго пытался выгрузить аудио на гитхаб, в итоге всё выглядело убого и я решил-таки перенести это в вандб. Если что, все аудио я выгрузил на гитхаб.
Лучший результат - это голубая кривая, которая не успела дообучиться тк и на кегле и на датасфере учиться слишком долго. Тем не менее можно послушать длинные кусочки (здесь почему-то вставились не все, у меня в Вандб можно послушать гораздо лучше и больше). Надеюсь ссылка на ран кликабельна - поэтому рекомендую зайти в train_big_grad2 и послушать семплы с теста.
How to reproduce
Надо обучить модель надо проранить кегловский ноутбук указав желаемый конфиг и свой ключ для вандб. Ноутбук доступен в репозитория (kaggle.ipynb).
Internal analysis (2 samples)
Первые два аудио из LJSpeech и их синтезированные из текста версии.
Видим что частотный спектр у оригинальных спектрограм гораздо шире, присутствуют гармоники и прочие взаимодействия частот. Однако в целом можно сказать, что обобщать мы +- научились - интонация не копируется точь-в-точь, поскольку прогоняем по тексту. Легко понять, что аудио синтезированное, но слова очень просто разобрать - буквально каждое слово слышно отчётливо несмотря на робовойс. По вейвформе я бы не понял, что аудио сгенерированное - разве что в нём больше шума, что можно видеть на вавке. Но шума мало, поэтому отчётливо видны слова на вавке, понять по ней сгенерированность нельзя - уже успех.
External analysis (2 samples)
Theremin:
Теперь Шостакович:
Вновь по спекам видим, что набор частот сильно отличается, как отличаются и их магнитуды. Вновь я бы не определил сгенерированный аудио по вавкам. По спекам тут тоже тяжелее сказать, кто подделка. Выводы в целом сохраняются, мы хорошо синтезируем отчётливые слова.
Full System (all 5 samples)
Чистые вавки
По целому пайплайну слышим, что аудио синтезируют как надо - у них ожидаемо отличается длина, поскольку говорят по сути разные спикеры (ещё бы, мы же не можем ожидать что по тексту мы угадаем голос). В более длинных аудио в конце у нас появляются проблемы, но слова слышны всё равно отчётливо! Больше трейна дало бы лучше резы, но у меня не было А100, тк в Сбер�� ресурсы выделяют жмоты и скуфы.
Training charts
Короткие Семплы на трейне
Add a comment