Lietuvoje baigtas kurti Didysis lietuvių kalbos garsynas LIEPA-3. Vilniaus universiteto (VU) ir kitų įstaigų mokslininkai surinko ir anotavo 10 tūkst. valandų lietuvių kalbos įrašų, kurie sudaro daugiau nei vienerius metus nenutrūkstamos šnekos. Tai didžiausias iki šiol lietuvių kalbos šnekos duomenų rinkinys, skirtas dirbtinio intelekto technologijoms.
Kam reikia tokio garsyno?
Šiuolaikinės dirbtinio intelekto sistemos – nuo balso asistentų iki automatinių subtitrų ar pokalbių robotų – veikia tik tada, kai turi didelius kiekius kokybiškų šnekos duomenų. Didžiosios pasaulio kalbos tokių duomenų turi labai daug, o lietuvių kalbai didelės apimties viešai prieinamų šnekos išteklių iki šiol trūko. „Nors technologijos kasmet sparčiai tobulėja, lietuvių kalba jose vis dar dažnai neveikia arba veikia prasčiau, negu norėtųsi. Priežastis paprasta – dirbtiniam intelektui vis dar trūksta lietuviškų balsų pavyzdžių, iš kurių jis galėtų mokytis suprasti gyvą, autentišką kalbą – tokią, kokia ji vartojama kasdien“, – pasakoja LIEPA-3 vadovė, VU Matematikos ir informatikos fakulteto profesorė Gražina Korvel. LIEPA-3 sukurtas būtent tam, kad lietuvių kalba turėtų didelės apimties šnekos duomenų pagrindą, reikalingą šiuolaikinėms dirbtinio intelekto technologijoms. Be VU, Didįjį lietuvių kalbos garsyną taip pat kūrė Vytauto Didžiojo universiteto (VDU) ir Lietuvių kalbos instituto (LKI) mokslininkai.
Įrašyta reali lietuviška šneka
LIEPA-3 išsiskiria ne tik apimtimi, bet ir įvairove. Į garsyną įtraukti spontaninės, skaitytinės ir tarminės šnekos pavyzdžiai, surinkti iš įvairių šaltinių: radijo laidų, telefoninių pokalbių, viešai prieinamų įrašų ir specialiai garsynui įskaitytų tekstų. „Didelė spontaninės šnekos garsyno dalis nebūtų buvusi įmanoma be žiniasklaidos partnerių bendradarbiavimo, – teigia projekto LIEPA-3 VU dalies vadovas, projekto ekspertas, VU MIF lektorius Gediminas Navickas. – Esame dėkingi LRT, Žinių radijui ir Lietuvos nacionalinei Martyno Mažvydo bibliotekai už suteiktą galimybę panaudoti jų garso archyvų įrašus. Ši partnerystė leido sukaupti vertingą lietuvių kalbos šnekos medžiagą ir svariai prisidėjo prie lietuvių kalbos technologinių išteklių stiprinimo.“ Dirbtinio intelekto algoritmų mokymui labai svarbi renkamų mokymo duomenų įvairovė ir reprezentatyvumas. „Renkant sakytinės šnekos garsyno dalį, fonetinė įvairovė buvo užtikrinama pasitelkiant kompiuterinius algoritmus taip, kad jie parinktų kuo įvairesnį skaitomą tekstą“, – sako projekto ekspertas, VDU profesorius dr. Gailius Raškinis. Tam, kad garsyne atsispindėtų reali šiuolaikinė lietuvių kalba – diktorių balsų ir kalbėjimo stilių įvairovė, regioninės tarties bruožai, amžius, kalbėjimo tempas, įvairūs įrašymo įrenginiai ir akustinės aplinkos, – buvo būtinas daugelio aktyvių visuomenės narių įsitraukimas. Taip pat reikėjo rasti būdų, kaip šiuos aktyvius narius pasiekti ir sudaryti jiems sąlygas prisijungti prie projekto veiklų. „Esame dėkingi UAB „Gooliver“ ir UAB „Lucid Agreements“ bei jų verslo partneriams už įdėtas pastangas renkant skaitytinės šnekos įrašus visose Lietuvos savivaldybėse ir užtikrinant įrašų reprezentatyvumą visais išvardintais aspektais. LIEPA-3 skaitytinės šnekos garsyno daliai balso įrašų pavyzdžius pateikė daugiau nei 7000 Lietuvos gyventojų“, – sako projekto VDU dalies vadovė prof. Daiva Vitkutė-Adžgauskienė.
Atskira garsyno dalis skirta lietuvių kalbos tarmėms
Lietuvių kalbos požiūriu Lietuva labai įvairi ir marga. „Nesunku pastebėti, kad vienaip vietiniai žmonės kalba, pavyzdžiui, Alytaus, kitaip – Utenos, Telšių ar Mažeikių apylinkėse, – sako LKI projekto dalies vadovė prof. Danguolė Mikulėnienė. – Todėl projekto LIEPA-3 garsyną buvo svarbu papildyti ir tarmėms būdingais garsais.“ Profesorės teigimu, sistemiškai bei tolygiai iš viso ploto surinkta ir anotuota tarminė medžiaga (100 val. garso įrašų) fiksuoja XXI a. trečiojo dešimtmečio vietinių lietuvių kalbos atmainų situaciją, tarsi iš paukščio skrydžio parodo tradicinėms tarmėms būdingų ypatybių paplitimą ir jų kaitos tendencijas. „Šie garso įrašai leidžia kalbininkams ne tik pastebėti naujųjų tarminių (ar tik tarmiškųjų) vietinių regionų lietuvių kalbos darinių formavimąsi, lietuvių kalbos diasporos, bet ir numatyti galimas ilgalaikės raidos perspektyvas, – sako mokslininkė. – Tarminės šnekamosios kalbos garsais išplėsta lietuvių kalbos amplitude galės pasinaudoti visi, kuriems rūpi lietuvių kalbos tvarumas.“
Vien garso įrašų neužtenka
Kad dirbtinis intelektas „mokytųsi“ kalbos, reikia anotuotų garso įrašų, t. y. parašytų tekstu ir susietų su konkrečiais frazių pradžios bei pabaigos laiko momentais. Visi LIEPA-3 garsyno įrašai buvo anotuoti frazių lygmeniu. Dalis garsyno (500 valandų) papildomai anotuota leksinių vienetų ir fonemų lygmeniu. Tai leidžia garsynąnaudoti pažangių lietuvių šnekos atpažinimo technologijų kūrimui ir mokymui.
Bendradarbiavimas tarp informatikų ir filologų
Svarbiausi projekto LIEPA-3 privalumai greta pasiektų rezultatų – sukurto Didžiojo lietuvių kalbos garsyno – yra du: prasmingas, produktyvus ir kolegiškas bendradarbiavimas tarp informatikų ir filologų ir tarpdalykiškumo kūrimas bei plėtra. Pasak VU Filologijos fakulteto profesoriaus Vytauto Kardelio, projekto metu vykdyti darbai ir pasiekti rezultatai rodo, kad didelio garsyno reikia ne tik šnekos technologijoms: „Jis labai svarbus ir norint suprasti, kokia yra šiuolaikinė, dabartinė lietuvių kalba. Svarbu ne vien didelė medžiagos apimtis. Kur kas svarbiau, kad informatikai ir filologai vykdydami projektą suprato, kaip galima vienos ir kitos srities žinias sujungti ir pritaikyti ne tik šnekos technologijoms, bet ir lingvistiniams tyrimams.“ Prof. V. Kardelio teigimu, tarpdalykinis požiūris į kalbą gali duoti įdomių ir vertingų rezultatų. „Tai ne vien tik įrankiai, kuriuos kolegos informatikai gali sukurti kalbos analizei, bet ir įsisenėjusių lingvistinių hipotezių verifikacija, ir naujų teorinių prieigų kūrimas. Toks bendradarbiavimas ir tarpdalykiškumo plėtojimas, manau, yra vienas iš svarbiausių kelių, kuriuo turėtų sukti lingvistika“, – sako profesorius.
Garsynas viešai ir nemokamai prieinamas visiems
LIEPA-3 garsynas jau publikuotas ir yra laisvai prieinamas pagal atvirąją licenciją. Tai reiškia, kad garsyno duomenis gali naudoti mokslininkai, universitetai, įmonės ir technologijų kūrėjai, kuriantys lietuvių kalbos dirbtinio intelekto sprendimus. Garsynas paskelbtas CLARIN-LT atviroje kalbos išteklių saugykloje ir Lietuvos atvirų duomenų portale data.gov.lt. Pasak projekto vadovės prof. G. Korvel, LIEPA-3 garsyną reikėtų vertinti ne kaip baigtinį produktą, o kaip ilgalaikę investiciją į lietuvių kalbos ateitį skaitmeninėje erdvėje. „LIEPA-3 yra ne galutinis produktas, o pamatas, ant kurio bus statomi lietuvių kalbos dirbtinio intelekto sprendimai“, – teigia ji. Didysis lietuvių kalbos garsynas bus svarbus ir moksliniams tyrimams. Jis pasitarnaus ne tik kalbos, dirbtinio intelekto bei skaitmeninių technologijų srityse, bet ir padės tirti, kaip lietuvių kalba vartojama skirtinguose regionuose ir skirtingų kartų. Atvirai prieinamas garsynas sudarys galimybes tiek tyrėjams, tiek verslo bendruomenei kurti naujus sprendimus, prisidės prie to, kad lietuvių kalba išliktų aktyviai vartojama šiuolaikinėse technologijose ir inovacijų ekosistemoje.
