Найти
10.07.2023 / 18:524РусŁacБел

Говорить по-белорусски. Сделан важный шаг в искусственном синтезе белорусской речи

На сайте проекта «Беларускі N-корпус», где над созданием Национального корпуса белорусского языка работает сектор компьютерной лингвистики Института языкознания имени Якуба Коласа НАН Беларуси, появился первый синтезатор белорусской речи.

Новая возможность расширить горизонты распространения белорусского языка. 

Специалисты отмечают, что давно искали возможность создать синтезатор и теперь свои первые результаты в этом направлении сделали доступными для всех в разделе «Фанетычны канвертар і сінтэз маўлення» на сайте «Беларускага N-корпуса». 

Синтезатор сделан по следам белорусскоязычной модели для озвучивания текста «Беларускі тэкст-у-маўленне» и использует те самые записи для обучения, которые были собраны проектом donar.by. На сайте проекта donar.by можно как записать («пожертвовать») свой голос, так и проверить уже сделанные записи. Одобренные записи попадают в набор данных Common Voice, который распространяется под свободной лицензией и призван помогать разработчикам создавать устройства для распознавания речи. Именно этой возможностью и воспользовались ученые из Академии наук.

Демонстрация синтеза белорусского языка.

Сейчас на сайте «Беларускага N-корпуса» можно сделать фонетическую транскрипцию любого белорусского текста по правилам Международного фонетического алфавита (IPA), или так называемой «школьной транскрипции», широко распространеной в отечественном языкознании. Для большинства слов конвертор способен самостоятельно подобрать и поставить ударения для корректной синтезации речи, для более редких слов, например, собственных названий, есть возможность поставить ударение самостоятельно. В нынешней тестовой версии максимальный размер текста для озвучки ограничен 2000 символов.

Пример обработки конвертером текста «Наша Ніва першая беларуская газета з карцінкамі»

Пока что синтезированная речь звучит достаточно искусственно, механически, но при этом вполне корректно. Синтезаторы других крупных языков, известные уже не первый год, изначально все грешили на некорректное прочтение слов и ошибочные ударения — этот опыт, видимо, был учтен. Белорусские специалисты обещают продолжать работу дальше и призывают присоединяться всех, кто готов к сотрудничеству.

«Сейчас мы имеем опыт в обучении синтезу речи и готовы продолжать работу дальше. Для этого нам нужно привести в порядок фонетический конвертор, записать в хорошем качестве дикторов с хорошими голосами и правильной фонетикой, подготовить эти записи для обучения синтезатору речи», — отмечают разработчики.

В соцсетях эту новость восприняли чрезвычайно положительно, белорусы сразу прикинули, что развитие этой технологии позволит, например, белорусизировать голосовых помощников, автоматизировать создание субтитров на YouTube и распознавать белорусскоязычные голосовые сообщения в мессенджерах, чего сейчас нет.

Ф. Раубич

Хочешь поделиться важной информацией
анонимно и конфиденциально?

Клас
64
Панылы сорам
1
Ха-ха
1
Ого
1
Сумна
0
Абуральна
2
0
Беларусінчык/ответить/
10.07.2023
ДЗЯКУЙ!!!
0
донарка ў donar.by/ответить/
11.07.2023
як прыемна бачыць такія навіны, ведаючы, што і вы ўклаліся ў гэтую добрую справу! выдатная праца, N-корпус, прывітаньні ўсім донарам і донаркам donar.by / Common Voice Belarus!
11.07.2023
Дзякуй за артыкул. Я вельмі доўга такое шукаў
Показать все комментарии
Чтобы оставить комментарий, пожалуйста, включите JavaScript в настройках вашего браузера
Чтобы воспользоваться календарем, пожалуйста, включите JavaScript в настройках вашего браузера
ПНВТСРЧТПТСБВС
12345
6789101112
13141516171819
20212223242526
2728293031