Знайсці
23.01.2024 / 09:562РусŁacБел

Урэзаны і адцэнзураваны. Корпус беларускай мовы аднавіў сваю працу 

Праз паўгода бяздзеяння часткова аднавіў працу Беларускі N-корпус. Афіцыйнай прычынай спынення працы называліся тэхнічныя праблемы, але выглядае, што праект стаў ахвярай палітычнай цэнзуры.

Фота: «Наша Ніва»

Беларускі N-корпус нечакана спыніў сваю працу ў ліпені 2023 года. На адпаведнай старонцы было размешчана паведамленне пра тое, што ў распрацоўшчыкаў «узніклі праблемы з корпусам»:

«На жаль, атрымалася так, што мы не можам яго падтрымліваць далей з розных прычын. Рухавік корпуса застаецца пад вольнай ліцэнзіяй. Астатнія праекты будуць працягвацца як і раней».

Больш дакладных тлумачэнняў не было ні на самім сайце, ні ў сацсетках, захоўвалі публічнае маўчанне і мовазнаўцы-стваральнікі Корпуса.

Як стала пасля вядома, афіцыйнай прычынай была названая «недастатковая магутнасць сервераў». Але, відаць, адной гэтай прычынай спыненне працы не абмяжоўваецца.

Корпус складаўся з некалькіх падкорпусаў: асноўнага, неразабраных тэкстаў, газет і сайтаў, беларускіх Вікіпедый абодвух правапісаў. Такім чынам Корпус уключаў велізарную колькасць сучасных тэкстаў на беларускай мове, у тым ліку публікацыі беларускамоўных СМІ, прадукцыя большасці з якіх была прызнаная рэжымам Лукашэнкі «экстрэмісцкімі» матэрыяламі. Менавіта падкорпус газет і сайтаў першым знік з выдачы яшчэ да поўнага адключэння Корпуса. 

Няспыннае пашырэнне «забароненай» прадукцыі працягвала значна скарачаць кола сучасных тэкстаў на беларускай мове, якія можа выкарыстоўваць у Корпусе, а канвеернасць прызнання ўсяго «экстрэмісцкім», рабіла немагчымым пастаяннае адсочванне і ўнясенне адпаведных зменаў у велізарную базу. 

Крамольную для рэжыму па сэнсе і падачы інфармацыю маглі змяшчаць і тэксты без «экстрэмісцкага» статусу. Цэнзураванне зместу тэкстаў не з’яўляецца задачай Корпуса і супярэчыць яго сутнасці, фізічна і тэхнічна немагчыма выявіць небяспечныя фрагменты ў мільярдзе словаўжыванняў. 

У такім разе спыненне працы Корпуса з меркаванняў уласнай бяспекі выглядае цалкам лагічным.

Статыстыка Корпуса беларускай мовы ў пачатку 2023 года і ў пачатку 2024 года. 

Праца Корпуса была адноўлена 19 студзеня, але ў моцна скарочаным выглядзе. Калі ў пачатку 2023 года агулам корпус налічаў каля 1 млрд слоў, то сёння засталося толькі 124 млн, або 12%. 

З аднаго боку, гэта добра кладзецца ў афіцыйную версію пра магутнасці сервераў. Але ў адноўленым Корпусе не проста скараціліся, а цалкам зніклі цэлыя падкорпусы: Корпус неапрацаваных тэкстаў (907 млн слоў), які ўключаў тэксты з сайтаў kamunikat.org (465 млн слоў) і knihi.com (432 млн слоў), канкарданс беларускай мовы XIX ст., які ўключаў практычна ўсе захаваныя творы мастацкай літаратуры, напісаныя ў названы перыяд на беларускай мове (287 тыс. слоў), і корпус абедзвюх беларускіх Вікіпедый (124 млн слоў).

Дунін-Марцінкевіч, Сыракомля і Багушэвіч, у чыіх творах шукаюць экстрэмізм прарасійскія актывісты. Фота: Wikimedia Commons

Гэтыя змены лёгка патлумачыць: Вікіпедыя застаецца свабодным і непадцэнзурным рэсурсам, канкарданс XIX ст. змяшчае антырасійскія творы Дуніна-Марцінкевіча, Багушэвіча, Каратынскага і іншых дзеячаў, якія або прызнаныя экстрэмісцкімі, або з’яўляюцца аб’ектам нападкаў прарасійскіх блогераў, а сайт kamunikat.org заблакаваны па рашэнні Міністэрства інфармацыі.

Небагаты выбар ідэалагічна правільных дзяржаўных вэб-рэсурсаў, на якіх ёсць хоць нешта па-беларуску

Адроджаны корпус вэб-рэсурсаў сёння ўключае толькі сайты дзяржаўных «БелТА», газеты «Звязда», Белтэлерадыёкампаніі і афіцыйны сайт Лукашэнкі, цалкам ігнаруючы велізарны і разнастайны масіў тэкстаў, які дзесяцігоддзямі ствараўся незалежнымі медыя. Агулам атрымалася 106 млн слоў — кропля на месцы колішняга мора.

Магчыма, корпус яшчэ будзе дапоўнены іншымі матэрыяламі, але многія туды ўжо не вернуцца праз ідэалогію сённяшняга беларускага рэжыму. 

«Наша Нiва» — бастыён беларушчыны

ПАДТРЫМАЦЬ

Чытайце таксама:

Каго з беларускіх літаратараў Бондарава адменіць у 2024 годзе

«Фактычна мы павінны падзякаваць за гэтыя знаходкі». Расійскі імперскі гісторык апублікаваў невядомыя лісты Кастуся Каліноўскага, якія яго вобразу ніяк не шкодзяць

Прызналі «экстрэмісцкім» двухтомны збор твораў Дуніна-Марцінкевіча. Ён выйшаў у дзяржаўным выдавецтве

Ф. Раўбіч

Хочаш падзяліцца важнай інфармацыяй
ананімна і канфідэнцыйна?

Клас
0
Панылы сорам
7
Ха-ха
1
Ого
0
Сумна
11
Абуральна
32
6
Ганьба/адказаць/
23.01.2024
Усё больш выглядае на тое, што беларусам наканавана знікнуць як нацыі. Усплёск 20-га мог быць прыгожай кропкай. Нацыя аказалася няздатнай на ўзброены супраціў фашысцкаму прадажнаму рэжыму, пасіўная большасць някепска ўладкавалася пры ім, меньшасць патроху адаптуецца за мяжой, ва ўнутранай эміграцыі ці сядзіць. Ніякага рэальнага змагання не адбываецца - пікеты ля амбасад і канцэрты - важныя як дадатак, але бессэнсоўныя самі па сабе.
2
Gorliwy Litwin/адказаць/
23.01.2024
Вельмі шкада. я толькі пачаў ім карыстацца актыўна, за некалькі месяцаў да адключэння . Праблема нова-беларускай мовы ў тым што яна ад пачатку існуе толькі ў нішы, выдзеленай для яе расійскай імперыяй, як і ўсе іншыя башкірскія ды якуцкія. На ўзроўні аленеводаў і хлебаробаў. той хто прымае такія правілы гульні, таго могуць узяць у абойму, пісаць пра леніна, сталіна, пуціна, надоі і купальле-русальле. А нічога што супраць рускай цывілізацыі, асабліва што панскае, лацінскае, польска-літоўскае - каб ня смелі пікнуць
Каб пакінуць каментар, калі ласка, актывуйце JavaScript у наладах свайго браўзера
Каб скарыстацца календаром, калі ласка, актывуйце JavaScript у наладах свайго браўзера
ПНАЎСРЧЦПТСБНД
12345
6789101112
13141516171819
20212223242526
2728293031