Знайсці
10.07.2023 / 18:234РусŁacБел

Гаварыць па-беларуску. Зроблены важны крок у штучным сінтэзе беларускага маўлення

На сайце праекта «Беларускі N-корпус», дзе над стварэннем Нацыянальнага корпуса беларускай мовы працуе сектар камп'ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі, з’явіўся першы сінтэзатар беларускага маўлення.

Новая магчымасць пашырыць гарызонты распаўсюджвання беларускай мовы. 

Спецыялісты адзначаюць, што даўно шукалі магчымасць стварыць сінтэзатар і цяпер свае першыя вынікі ў гэтым кірунку зрабілі даступнымі для ўсіх у раздзеле «Фанетычны канвертар і сінтэз маўлення» на сайце «Беларускага N-корпуса». 

Сінтэзатар зроблены па слядах беларускамоўнай мадэлі для агучвання тэксту «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя самыя запісы для навучання, якія былі сабраныя праектам donar.by. На сайце праекта donar.by можна як запісаць («ахвяраваць») свой голас, так і праверыць ужо зробленыя запісы. Ухваленыя запісы трапляюць у набор даных Common Voice, які распаўсюджваецца пад свабоднай ліцэнзіяй і закліканы дапамагаць распрацоўшчыкам ствараць прылады для распазнавання маўлення. Менавіта гэтай магчымасцю і скарысталіся навукоўцы з Акадэміі навук.

Дэманстрацыя сінтэзу беларускай мовы.

Цяпер на сайце «Беларускага N-корпуса» можна зрабіць фанетычную транскрыпцыю любога беларускага тэксту паводле правілаў Міжнароднага фанетычнага алфавіта (IPA), або так званай «школьнай транскрыпцыі», якая шырока распаўсюджана ў айчынным мовазнаўстве. Для большасці слоў канвертар здольны самастойна падабраць і паставіць націскі для карэктнай сінтэзацыі маўлення, для больш рэдкіх словаў, напрыклад, уласных назваў, ёсць магчымасць паставіць націск самастойна. У цяперашняй тэставай версіі максімальны памер тэксту для агучвання абмежаваны 2000 знакаў.

Прыклад апрацоўкі канвертарам тэксту «Наша Ніва» — першая беларуская газета з карцінкамі»

Пакуль што сінтэзаванае маўленне гучыць досыць штучна, механічна, але пры гэтым цалкам карэктна. Сінтэзатары іншых буйных моў, якія вядомыя ўжо не першы год, ад пачатку ўсе грашылі на некарэктнае прачытанне слоў і памылковыя націскі — гэты досвед, відаць, быў улічаны. Беларускія спецыялісты абяцаюць працягваць працу далей і заклікаюць далучацца ўсіх, хто гатовы да супрацоўніцтва.

«Цяпер мы маем досвед у навучанні сінтэзу маўлення і гатовыя працягваць працу далей. Для гэтага нам трэба давесці да ладу фанетычны канвертар, запісаць у добрай якасці дыктараў з добрымі галасамі і правільнай фанетыкай, падрыхтаваць гэтыя запісы для навучання сінтэзатару маўлення», — адзначаюць распрацоўшчыкі.

У сацсетках гэтую навіну ўспрынялі надзвычай станоўча, беларусы адразу прыкінулі, што развіццё гэтай тэхналогіі дазволіць, напрыклад, беларусізаваць галасавых памочнікаў, аўтаматызаваць стварэнне субцітраў на YouTube і распазнаваць беларускамоўныя галасавыя паведамленні ў месенджарах, чаго цяпер пазбаўлены.

Ф. Раўбіч

Хочаш падзяліцца важнай інфармацыяй
ананімна і канфідэнцыйна?

Клас
64
Панылы сорам
1
Ха-ха
1
Ого
1
Сумна
0
Абуральна
2
0
Беларусінчык/адказаць/
10.07.2023
ДЗЯКУЙ!!!
0
донарка ў donar.by/адказаць/
11.07.2023
як прыемна бачыць такія навіны, ведаючы, што і вы ўклаліся ў гэтую добрую справу! выдатная праца, N-корпус, прывітаньні ўсім донарам і донаркам donar.by / Common Voice Belarus!
11.07.2023
Дзякуй за артыкул. Я вельмі доўга такое шукаў
Паказаць усе каментары
Каб пакінуць каментар, калі ласка, актывуйце JavaScript у наладах свайго браўзера
Каб скарыстацца календаром, калі ласка, актывуйце JavaScript у наладах свайго браўзера
ПНАЎСРЧЦПТСБНД
12345
6789101112
13141516171819
20212223242526
2728293031