1 minute read

Швидкий, зручний та якісний нейромережевий синтез українського мовлення тепер в Balacoon. Інтеграція бібліотеки синтезу ще ніколи не була такою простою: Python пакети без залежностей для real-time генерації на CPU, Docker контейнер здатний обробляти десятки паралельних запитів на GPU, найшвидший on-device синтезатор, який дозволяє real-time синтез навіть на RaspberryPi. І це все тепер безкоштовно доступне для української мови під MIT ліцензією.

Приклад:

Сгенеруйте більше прикладів в нашому онлайн демо.

Реліз

Дякуємо спільноті синтезу українського мовлення за створення, популяризацію і підтримку відкритих датасетів. На їх основі, ми побудували 2 моделі:

  • JETS - стандартна мульти-спікер модель з частотою дискретизації 24kHz. Підтримує усі наявні голоси: Лада, Тетяна і Микита. Росповсюджується в двох варіантах:
    • uk_ltm_jets_cpu.addon - для синтезу на CPU за допомогою Python пакету balacoon_tts.
    • uk_ltm_jets_gpu.addon - для сервісу в Docker контейнері з використанням GPU.
  • Light - полегшена модель з частотою дискретизації 16kHz для надшвидкої генерації. Підтримує голос Тетяни. Розповсюджується тільки варіант для CPU: uk_tetiana_light_cpu.addon.

Для аналізу тексту, усі моделі використовують espeak з додатковим словником наголосів.

Чого бракує

Було б добре оновити підхід до аналізу тексту, а саме:

  • побудувати правила для нормалізації тексту за допомогою Finite-State-Transducers. Balacoon підтримує цю технологію і має реалізацію для англійської мови. Такий підхід легше пітримувати і розширювати, додаючи нові правила.
  • Визначення наголосів потребує рішення з контекстуалізованою генерацію вимови[1],[2]. Цей підхід нажаль ще не підтримується в Balacoon але ми сподіваємося додати загальне рішення, яке б було корисним для усіх мов з омографами. Як тимчасове рішення, користувачі можуть вказувати бажані наголоси за допомогою “акутів”.

Також планується додати підтримку багатомовного синтезу. Зараз проблема генерації латиниці вирішується простими правилами. Але сучасним рішенням було б створення системи синтезу з підтримкою багатьох мов. Balacoon працює з уніфікованим набором фонем, що має спростити такий перехід.

Підтримка та відгуки

Долучайтеся до нашого slack каналу. Обов’язково пишіть як ви використовуєте Balacoon, що працює добре, а що не дуже.

Посилання

[1] SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation

[2] Homograph disambiguation with contextual word embeddings for TTS systems

Updated: