ДЗ-4. Отчет

Created on December 4|Last edited on December 4
Comment
﻿
Описание ХайФай гана:Реализация хайфай гана максимально приближена к статье - генератор и MPD из статьи хайфай гана, MSD  из статьи мелгана. У меня по итогу получилось следующее число параметров: генератор - 13926017, MPD - 17455365, MSD - 29610627. 
Описание обучения:Конфигурации для обучения тоже брал из оригинальной статьи (попробовал только делать клипинг градиента до 25 но ниже я покажу что это не играет разницы и результаты у эксперимента где градиент клипался до 750 такие же получились). обучалось 30 эпох (это где то около 12 часов вышло).  батч_сайз размера 3, для обучения обрезал вавки до 12031 семплов (т.е. где то чуть больше чем полсекунды получается) (я брал случайное окно размера 12031 из вавки), потом по усеченному аудио строил мел спектрограму по конфигу из условия дз. В статье скедулер применялся каждую эпоху а не каждую итерацию, поэтому я в шаблоне этот момент переписал, чтобы scheduler.step() делался раз в эпоху. Конфигурации у оптимайзера и скедулера следующие (более детальные конфигурации для рана в репозитории лежат):
    "optimizer_generator": {
        "type": "AdamW",
        "args": {
            "lr": 2e-4,
            "weight_decay": 1e-2,
            "betas": [0.8, 0.9]
        }
    },
    "optimizer_discriminator": {
        "type": "AdamW",
        "args": {
            "lr": 2e-4,
            "weight_decay": 1e-2,
            "betas": [0.8, 0.9]
        }
    },
    "lr_scheduler_generator": {
        "type": "ExponentialLR",
        "args": {
            "gamma": 0.999
        }
    },
    "lr_scheduler_discriminator": {
        "type": "ExponentialLR",
        "args": {
            "gamma": 0.999
        }
    } 
для ускорения процесса обучения я не держал датасета для валидации, поэтому смотрел только на метрики для обучения, в конце каждой эпохи инференсил мелспеки для трех текстов которые нам надо озвучивать. Графики ниже
﻿
﻿
﻿
теперь сгенерированное аудио:
﻿
Run set43
﻿
генерация получилась распознаваемой, только есть небольшой эффект робовойса, хотя интонация диктора не теряется. теперь покажу эксперимент где я клипал градиент в 750 (но там обычно норма ниже выходила) и разницы на слух нет:
﻿
Run set43
﻿
﻿
﻿
Run set43
﻿
еще я попробовал дообучать свой эксперимент с первого эксперимента (driven-field-41), и посмотреть что будет с качеством генерации аудио если пообучать еще 10 часов, но там как ниже будет слышно качество не стало лучше.
﻿
Run set43
﻿
﻿
﻿
Run set43
﻿
поэтому в качестве итогового рана я представляю driven-field-41 и его веса модели, взятые с 30 эпохи.
﻿
Add a comment