Українська мова в Balacoon
Швидкий, зручний та якісний нейромережевий синтез українського мовлення тепер в Balacoon. Інтеграція бібліотеки синтезу ще ніколи не була такою простою: Python пакети без залежностей для real-time генерації на CPU, Docker контейнер здатний обробляти десятки паралельних запитів на GPU, найшвидший on-device синтезатор, який дозволяє real-time синтез навіть на RaspberryPi. І це все тепер безкоштовно доступне для української мови під MIT ліцензією.
Сгенеруйте більше прикладів в нашому онлайн демо.
Реліз
Дякуємо спільноті синтезу українського мовлення за створення, популяризацію і підтримку відкритих датасетів. На їх основі, ми побудували 2 моделі:
- JETS - стандартна мульти-спікер модель з частотою дискретизації 24kHz.
Підтримує усі наявні голоси: Лада, Тетяна і Микита. Росповсюджується
в двох варіантах:
uk_ltm_jets_cpu.addon
- для синтезу на CPU за допомогою Python пакетуbalacoon_tts
.uk_ltm_jets_gpu.addon
- для сервісу в Docker контейнері з використанням GPU.
- Light - полегшена модель з частотою дискретизації 16kHz для надшвидкої генерації.
Підтримує голос Тетяни. Розповсюджується тільки варіант для CPU:
uk_tetiana_light_cpu.addon
.
Для аналізу тексту, усі моделі використовують espeak з додатковим словником наголосів.
Чого бракує
Було б добре оновити підхід до аналізу тексту, а саме:
- побудувати правила для нормалізації тексту за допомогою Finite-State-Transducers. Balacoon підтримує цю технологію і має реалізацію для англійської мови. Такий підхід легше пітримувати і розширювати, додаючи нові правила.
- Визначення наголосів потребує рішення з контекстуалізованою генерацію вимови[1],[2]. Цей підхід нажаль ще не підтримується в Balacoon але ми сподіваємося додати загальне рішення, яке б було корисним для усіх мов з омографами. Як тимчасове рішення, користувачі можуть вказувати бажані наголоси за допомогою “акутів”.
Також планується додати підтримку багатомовного синтезу. Зараз проблема генерації латиниці вирішується простими правилами. Але сучасним рішенням було б створення системи синтезу з підтримкою багатьох мов. Balacoon працює з уніфікованим набором фонем, що має спростити такий перехід.
Підтримка та відгуки
Долучайтеся до нашого slack каналу. Обов’язково пишіть як ви використовуєте Balacoon, що працює добре, а що не дуже.
Посилання
[1] SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation
[2] Homograph disambiguation with contextual word embeddings for TTS systems