Lietuvių kalbos išteklių informacinė sistema „E. kalba“ – visuomenei atviri žodynai ir kartotekos

Jolita URBANAVIČIENĖ

Kas yra „E. kalba“?

„E. kalba“ – tai visuomenei atvira lietuvių kalbos išteklių informacinė sistema, randama adresu https://ekalba.lt/. Sistema pradėta kurti 2012–2015 m., kai Lietuvių kalbos institutas kartu su partneriais – Lietuvių literatūros ir tautosakos institutu, Vilniaus universitetu ir tuomečiu Lietuvos edukologijos universitetu – vykdė projektą „IRT sprendimų bei turinio, padedančių išsaugoti lietuvių kalbą viešojoje erdvėje, kūrimas bei galimybių jais naudotis sudarymas“[1]. Projekto metu buvo sukurta Lietuvių kalbos išteklių informacinė sistema (LKIIS), kurią sudarė 11 suskaitmenintų vienakalbių ir dvikalbių žodynų, 5 kartotekos, elektroninės šių išteklių duomenų bazės ir jų valdymo įrankiai. LKIIS‘u visuomenė galėjo naudotis nuo 2015 m.

Pasibaigus pirmajam projektui iškart pradėta ruoštis LKIIS‘o modernizavimui, kad kalbiniai ištekliai tarpusavyje būtų geriau integruoti, susieti prasminiais ryšiais, geriau atitiktų vartotojų poreikius, be to, buvo siekiama į LKIIS‘o struktūrą įtraukti dar daugiau reprezentatyvių lietuvių kalbos išteklių. Tad 2018–2021 m. vykdyta LKIIS‘o plėtra[2] vyko dviem kryptimis: kiekybiškai, t. y. integruojant naujus išteklius, ir kokybiškai, t. y. plečiant sistemos funkcionalumus. 2021 m. visuomenei pristatyta modernizuota lietuvių kalbos išteklių informacinė sistema „E. kalba“, kuri papildyta (žr. 1 pav.):

  • trimis žodynais: įkeltas „Lietuvių kalbos žodynas“, „Bendrinės lietuvių kalbos žodynas“ bei jo antraštynas ir „Lietuvių kalbos naujažodžių duomenynas“;
  • viena kartoteka: įkelta Kazimiero Būgos etimologinio žodyno kartoteka;
  • septyniomis elektroninėmis paslaugomis: sukurtas „Žodžių prasmių tinklas“ (susideda iš e. paslaugų „Paieška Žodžių prasmių tinkle“, „E. sąvokos“, kurias sudaro „Ekonomikos sąvokų ontologijos“, „Kompiuterinės technikos ir jos dalių sąvokų ontologijos“ ir „Žmogaus anatomijos sąvokų ontologijos“), „E. rinkodara“ (susideda iš e. paslaugų „E. pavadinimas“, „Naudotojų užklausų analizė“ ir „Nuomonių analizė“) bei „E. patarimai“ (susideda iš e. paslaugų „Žodžių darybos vedlys“ ir „Kalbos patarimai“).

1 pav. Lietuvių kalbos išteklių informacinė sistema „E. kalba“ (https://ekalba.lt/)

Kokius žodynus galima rasti lietuvių kalbos išteklių informacinėje sistemoje „E. kalba“?

Sistemoje „E. kalba“ vartotojai gali naudotis devyniais vienakalbiais lietuvių kalbos žodynais: „Lietuvių kalbos žodynu“, „Bendrinės lietuvių kalbos žodynu“, „Dabartinės lietuvių kalbos žodynu“, „Sinonimų žodynu“, „Antonimų žodynu“, „Frazeologijos žodynu“, „Palyginimų žodynu“, „Sisteminiu lietuvių kalbos žodynu“. Taip pat į sistemą integruota dešimt dvikalbių žodynų: „Lietuvių–anglų kalbų žodynas“, „Lietuvių–latvių kalbų žodynas“, „Lietuvių–vokiečių kalbų žodynas“, „Lietuvių–lenkų kalbų žodynas“ bei analogiški atvirkštiniai žodynai, taip pat klasikinių kalbų žodynai: „Lietuvių–lotynų kalbų žodynas“ ir „Lietuvių–senosios graikų kalbų žodynas“ (žr. 1 pav.).

Kuriant „E. kalbą“ į sistemą įtraukti trys itin svarbūs žodynai, kurie iki šiol internete buvo randami tik atskirose svetainėse:

  • „Bendrinės lietuvių kalbos žodynas“ (https://ekalba.lt/bendrines-lietuviu-kalbos-zodynas/) – rengiamas norminamasis dabartinės bendrinės lietuvių kalbos žodynas, kuris dalimis nuolat skelbiamas internete, prieš tai jį apsvarsčius Valstybinėje lietuvių kalbos komisijoje. Šiuo metu jau yra paskelbti visi B, C, Č, D, E, Ę, Ė, F, G, H, J, O, R, Z, Ž raidėmis prasidedančių žodžių straipsniai ir visas antraštynas. Šiame žodyne galima rasti leksikografiškai aprašytus norminius naujas realijas pavadinančius žodžius, pvz.: fesbukas, gglas, jutùbas ir kt. Žodyne pateikiamos antraštinių žodžių reikšmės, rašyba, kirčiavimas, gramatinės formos, autentiški vartosenos pavyzdžiai. Šiame žodyne, kitaip nei „Dabartinės lietuvių kalbos žodyne“ ar „Lietuvių kalbos žodyne“, yra aprašyti keliažodžiai realijų pavadinimai ar terminai, pvz.: baltàsis kraũjo kūnẽlis, briuselnis kopstas, debesų kompiutèrija, vaikų daržẽlis ir pan. Vartotojų patogumui į žodyną įtraukta nemažai tikrinių žodžių – Lietuvos ir pasaulio vietovardžių, religinių, kultūros ar visuomenės gyvenimo vardų, pvz: Gángas, Japònijos jra, Rasõs šveñtė, Raudonàsis Krỹžius, Žálgiris, Žempatis ir kt.
  • „Lietuvių kalbos žodynas“ (https://ekalba.lt/lietuviu-kalbos-zodynas/) – akademinis dvidešimties tomų lietuvių kalbos tezauras, apimantis lietuvių kalbos leksiką nuo lietuviškos raštijos pradžios (XVI a.) iki XX a. pabaigos. Žodynas rengtas 100 metų (1902–2002) remiantis milžiniška (4,5 mln. kortelių) kartoteka. Jame pateikta apie 236 tūkstančius leksikografinių straipsnių, juose aprašyta 0,5 mln. antraštinių ir paantraštinių žodžių, o pačiame žodyno tekste pavartota apie 11 mln. žodžių. Bendrinės lietuvių kalbos, tarmių bei senųjų raštų žodžiai gausiai iliustruojami autentiškais sakiniais iš daugiau kaip 1000 sakytinių ir rašytinių šaltinių – iš tautosakos, tarmių, grožinės bei mokslinės literatūros, periodinės spaudos. Žodyne pateikiama informacija apie žodžių semantiką, kilmę, istoriją, darybinius ryšius, kirčiavimo variantus, gramatines formas, vartoseną, stiliaus ypatumus, geografiją (paplitimą tarmėse). Tarmių leksika pagal fonetinius dėsnius transponuota į bendrinę kalbą.
  • „Lietuvių kalbos naujažodžių duomenynas“ (https://ekalba.lt/naujazodziai/) lietuvių kalbos išteklių informacinėje sistemoje „E. kalba“ pristatomas taip: „Ši duomenų sankaupa rodo, kaip kinta ir atsinaujina lietuvių kalbos leksika. Čia pateikiami kalbos faktai nebūtinai yra taisyklingi ir ne visi teiktini bendrinei kalbai“. „Naujažodžių duomenynas“ atspindi naujausius lietuvių kalbos leksikos pokyčius, jame kaupiami nuo XX a. pabaigos lietuvių kalbą papildę nauji žodžiai (skoliniai ir naujadarai), žodžių junginiai, santrumpos, naujos žodžių reikšmės. Naujažodžiai renkami iš interneto žiniasklaidos, socialinių tinklų, lietuvių ir verstinės grožinės literatūros bei kitų šaltinių. Duomenyne pateikiama informacija apie naujažodžių kilmę, vartojimą, norminimą, nurodomi jų šaltiniai, dedamos nuotraukos. Pvz., įvedus žodį asmenukė pateikiama ne tik apibrėžtis („autoportretinė nuotrauka, dažniausiai daroma išmaniuoju telefonu ar interneto kamera ir dedama į socialinius tinklus“), bet ir norminiai bei nenorminiai žodžio variantai (asmeninukė [norminis (šalutinis)]; asmenutė [norminis (šalutinis)]; savipliauškis [norminis (šalutinis)]; selfis [nenorminis]; taufis; telfis), pateikiami giminiški naujažodžiai (asmeninukė; asmenlazdė; asmensargis; asmenukininkas, -ė; asmenukintis; asmenuklazdė; asmenutė) bei sąsajos su kitais žodžiais (asmenlazdė; droninukė; gyvūnukė; grupinukė; nusiselfinti; pasiselfinti; savipliauška; selfimanas, -ė; wefie), taigi pateikiama visa ieškomo naujažodžio aplinka, darybiniai ir semantiniai ryšiai. Šiuo metu „Naujažodžių duomenyne“ pateikta daugiau kaip 7500 įrašų.

Kokias žodynų kartotekas galima rasti „E. kalboje“?

Būtina pastebėti, kad „Lietuvių kalbos žodynas“ yra baigtinis XVI–XX a. lietuvių kalbos leksikos šaltinis. Naujais kalbos faktais jis nebepildomas ir neatnaujinamas. Tačiau Lietuvių kalbos institute saugomos keturios su „Lietuvių kalbos žodynu“ susijusios kartotekos, kurių duomenys gali papildyti LKŽ straipsnius ir kurios „E. kalbos“ dėka randamos vienoje sistemoje. Šios kartotekos skiriasi savo apimtimi, medžiagos pobūdžiu, duomenų struktūra ir jų pateikimo principais:

  1. LKŽ Pagrindinė kartoteka: tai vienintelė baigtinė LKŽ kartoteka, kaupta 1902–2002 m. Ja naudotasi rengiant „Lietuvių kalbos žodyno“ I–XX tomus (1942–2002). Iš viso kartotekoje yra apie 4,5 mln. popierinių kortelių. Šiuo metu „E. kalboje“ (https://ekalba.lt/lkz-pagrindine-kartoteka/) skelbiami dalies A ir G raidžių kortelių vaizdai ir jų metaduomenys, o likusi kartotekos dalis dar laukia skaitmeninimo.
  2. LKŽ Papildymų kartoteka: ją sudaro leksikos duomenys, surinkti po atitinkamų LKŽ tomų publikavimo, t. y. ši medžiaga nėra panaudota rašant „Lietuvių kalbos žodyną“. Didžioji šios kartotekos, kurią sudaro apie 0,7 mln. popierinių kortelių, dalis yra nuskenuota ir randama sistemoje „E. kalba“ (išskyrus O, Š ir Ž raides) adresu https://ekalba.lt/lkz-papildymu-kartoteka/.
  3. LKŽ Tarmių kartoteka: tai vienintelė skaitmeninė kartoteka, neturinti popierinių kortelių pavidalo – surinkti tarmių duomenys iš karto keliami į vidinį portalą, o iš ten, po leksikografo patikros, perkeliami į viešos prieigos išorinį portalą, randamą adresu https://ekalba.lt/lkz-tarmiu-kartoteka/. Nuolat pildomoje LKŽ Tarmių kartotekoje šiuo metu sukaupta apie 6,9 tūkst. leksikos vienetų vien iš sakytinės kalbos (tarmių).
  4. Kazimiero Būgos etimologinio žodyno kartoteka, surinkta K. Būgos apie 1916–1920 m. planuotam rengti etimologiniam žodynui. Kartoteką sudaro 19543 vienetai kortelių, kurios yra suskaitmenintos ir pateiktos su perrašu, santrumpų paaiškinimais bei aktyvia paieška (https://ekalba.lt/BugosEtimologinioZodynoKartoteka/).

Tai, kad „Lietuvių kalbos žodynas“ ir su juo susijusios kartotekos randami vienoje sistemoje, mažina skaitmeninių lietuvių kalbos išteklių fragmentaciją ir sprendžia Lietuvių kalbos institute saugomų išteklių tarpusavio integralumo problemą: vartotojai gali paprastai ir greitai susirasti reikiamo žodžio LKŽ straipsnį bei jį papildyti kartotekų medžiaga. Pvz., LKŽ žodžio abėce („abėcėlė, skaitymas“) straipsnį papildo LKŽ Papildymų kartotekoje saugomas kitas kirčiavimo variantas ãbėcė (1 kirčiuotė) bei LKŽ Tarmių kartotekoje užfiksuotas naujas frazeologizmas kai̇̃p abėcė̃ („labai gerai, lengvai (ppr. apie mokymąsi)“). Tokiu moderniu būdu „E. kalbos“ sistemoje išspręstas „Lietuvių kalbos žodyno“ papildymų rengimo klausimas, lietuvių leksikografų keltas XXI a. pradžioje (Naktinienė, Černiauskas 2000: 68-69).

Paieškos galimybės „E. kalbos“ žodynuose ir kartotekose

„E. kalboje“ realizuota greitoji ir detalioji paieška tiek visoje sistemoje bendrai, tiek atskiruose ištekliuose. Greitoji paieška galima visuose 33 sistemos ištekliuose arba, paspaudus mygtuką „Rinktis išteklius“, galima paiešką susiaurinti iki vieno ar kelių aktualių šaltinių. Ieškoti galima į paieškos laukelį įrašius visą žodį arba tik jo dalį – tuomet reikia naudoti žvaigždutę (*) arba klaustuką (?). Žvaigždutė fragmento pradžioje, viduryje arba pabaigoje reiškia, kad toje vietoje galima bet kokia arba jokia raidžių seka, pvz.: įvedus „*iena“ sistema išfiltruos žodžius antiena, blakstiena, dobiliena, iena, naujiena…, įvedus „dain*“ – daina, dainė, dainininkas, dainius, dainuoti ir t. t. Klaustukas naudojamas, kai jo vietoje gali būti praleista bet kokia viena raidė, pvz.: surinkus „ko??s“ randami žodžiai kojos, korys, kotas, kovas…, surinkus „??žioti“ – aižioti, apžioti, ėdžioti, išžioti, vežioti ir kt. Kuriant paieškas buvo atsižvelgta į lietuvių kalbos vartotojų, gyvenančių užsienyje, poreikius bei numatyta galimybė raides su lietuviškais ar kitų kalbų diakritikais surinkti naudojant „E. kalboje“ įdiegtas klaviatūras, esančias šalia paieškos laukelių.

Detalioji paieška buvo kuriama atsižvelgiant į kiekvieno ištekliaus duomenų savitumą, todėl skirtinguose žodynuose ir kartotekose realizuoti skirtingi paieškos kriterijai. Paspaudus mygtuką „Detalioji paieška“ galima kompleksinė paieška pagal kelis kriterijus. LKŽ Tarmių kartotekoje galima ieškoti žodžių pagal gramatines pažymas, kirčiuotę, kilmę, užrašymo vietą, metus ir užrašytoją, pvz.: galima surasti Adùtiškio apylinkėse (Švenčionių r.) užrašytus slavizmus. Taip pat įmanoma paieška pagal antraštinio žodžio kilmę, t. y. galima išfiltruoti kartotekoje saugomus slavų, germanų, baltarusių, lenkų, rusų ir kt. kalbų žodžius ar hibridus. Galima pasirinkti ieškoti pagal užrašytoją, laikotarpį, pvz.: LKŽ Papildymų kartotekoje galima surasti profesoriaus Alekso Girdenio  Tirkšlių apylinkėse (Mažeikių r.) 1970-1980 m. laikotarpiu užrašytus žodžius.

Kai kuriuose detaliosios paieškos laukeliuose įdiegtas daugybinis žymėjimas (multiple selection), t. y. vartotojas vienu metu gali atlikti paiešką pagal kelis kriterijus, pvz.: „Lietuvių kalbos žodyno“ paieškos laukelyje „Gramatinė pažyma“ galima vienu metu vykdyti paiešką pagal kalbos dalį, giminę, skaičių…, laukelyje „Stilistinė pažyma“ – pagal kelis stilistinius atspalvius (pvz., juokaujamą ar ironišką), laukelyje „Tarmybė“ – ieškoti žodžių iš karto keliose patarmėse (pvz.: rytų, pietų ir vakarų aukštaičių plote).

Detalioji paieška taip pat galima pagal reikšmės aiškinime pavartotus žodžius, pvz.: langelyje „Reikšmės aiškinimas“ įrašius žodį „pastatas“ sistema išfiltruoja visus žodžius, savo definicijose turinčius žodį „pastatas“: angaras, bazilika, butas, depas, jauja, korpusas ir t. t. Tokią paiešką galima dar labiau susiaurinti ir ieškoti tam tikro tipo pastato, nes sistema siūlo rinktis, pvz.: „labai aukštas pastatas“, „ūkio pastatas“, „laikinas gyvenamas pastatas“, „lentinis pastatas kam sukrauti“ ir t. t. Tokios „E. kalbos“ galimybės itin pravers leksikografams, siekiantiems sistemiškai apibūdinti tam tikrą žodžių grupę, ar tyrėjams, renkantiems empirinius duomenis.

Duomenų peržiūra, atsisiuntimas ir dalinimasis

Kuriant svetainę „E. kalba“ siekta ją padaryti kuo intuityvesnę, patogesnę naudoti, atitinkančią tiek Lietuvoje, tiek už jos ribų esančių vartotojų lūkesčius. Visi „E. kalboje“ esantys lietuvių kalbos ištekliai pritaikyti naudoti tiek kompiuteriuose, tiek ir mobiliuosiuose įrenginiuose – išmaniuosiuose telefonuose, planšetiniuose kompiuteriuose. Yra sukurta galimybė popierinių kartotekų korteles padidinti (paspaudus lupos ikonėlę) per visą įrenginio ekraną, kad būtų patogu perskaityti, o skaitmeninių kortelių duomenis galima kopijuoti. Kad nebūtų iškraipytas fonetine transkripcija surinktas tekstas, būtina naudoti lietuvišką šriftą Palemonas, jį „E. kalboje“ galima rasti adresu https://ekalba.lt/EKALBA%20Palemonas.

„Lietuvių kalbos žodyne“, kuris yra parašytas lizdiniu būdu (t. y. nepriešdėlinių veiksmažodžių straipsniuose pateikiami priešdėliniai veiksmažodžiai, būdvardžių straipsniuose – iš jų padaryti prieveiksmiai ir t. t.), vartotojų patogumui ieškomi paantraštiniai žodžiai ir jų postraipsniai yra paryškinti, kad būtų nesunkiai randami ilgame žodyno straipsnyje. Primintina, kad vieno LKŽ straipsnio apimtis svyruoja nuo vienos eilutės iki keliasdešimties ar beveik 100 puslapių, be to, straipsnyje gali būti keliasdešimt priesaginių vedinių (pvz.: veiksmažodis nešti turi 33 priešdėlinius veiksmažodžius: antnešti, apnešti, atnešti, danešti, įnešti, išnešti, nunešti, paatnešti, paišnešti, panešti, panunešti, papaatsinešti, paparsinešti, parnešti, pasunešti, pernešti, piesinešti, pranešti, prinešti, raznešti, sunešti, užnešti), tad ieškomos teksto dalies paryškinimas palengvina ir pagreitina naudojimąsi LKŽ duomenimis.

Rašant „Lietuvių kalbos žodyną“ buvo panaudota medžiaga iš daugiau kaip 1 tūkst. vietovių ir šaltinių, kurie žodyno tekste turi savo santrumpas, pvz.: Dv – Dievẽniškės, Mž – Mažvydas, Vlk – Valkiniñkai ir t. t. Santrumpomis taip pat žymimos gramatinės ir stilistinės pažymos, pvz.: adv. – prieveiksmis, sm. – vyriškosios giminės daiktavardis, dem. – mažybinis ir kt. Kad santrumpų ir specifinių ženklų gausa netrukdytų skaityti žodyno, kiekvieną santrumpą galima išskleisti užvedus ant jos kompiuterio pelę. Tokiu būdu paaiškinami ir skirtingais šriftais išskirti atskiri teksto segmentai, pvz.: „antraštinis žodis“, „nuoroda į kitą žodį“, „homonimo numeris“, „žodžio reikšmės numeris“ ir kt.

Vartotojų patogumui žodynų ir kartotekų duomenis iš „E. kalbos“ galima atsisiųsti *.pdf, *.xml, formatais, taip pat yra numatyta galimybė jais dalintis socialiniame tinkle Facebook.

Šiame straipsnyje apžvelgėme lietuvių kalbos išteklių informacinėje sistemoje „E. kalba“ esančius žodynus ir jų kartotekas bei pristatėme vartotojams aktualius sistemos funkcionalumus. „E. kalboje“ esama ir daugiau naudingų dalykų, pvz.: yra prieinamos įvairios duomenų bazės – Pavardžių duomenų bazė, Lietuvos vietovardžių geoinormacinė duomenų bazė ir kt. Nuo 2021 m. šioje sistemoje pateikiamos unikalios elektroninės paslaugos – paieška Žodžių prasmių tinkle, E. sąvokos, E. pavadinimas, Naudotojų užklausų analizė, Nuomonių analizė, Žodžių darybos vedlys ir Kalbos patarimai. Tačiau tai – jau kito straipsnio tema. Apibendrinant galima pasakyti, kad kurdamas sistemą „E. kalba“ Lietuvių kalbos institutas padarė tiek kiekybinį (papildė lietuvių kalbos išteklių informacinę sistemą naujais žodynais, kartotekomis bei el. paslaugomis), tiek kokybinį (padidino lietuvių kalbos išteklių prieinamumą, patogumą ir tarpusavio integralumą) proveržį. Tačiau ateityje laukia nemenkesni iššūkiai, integruojant naujus išteklius ir kuriant inovatyvius el. produktus bei paslaugas, kurių nuolatos reikia lietuvių kalbos vartotojams.

 

Literatūra ir sutrumpinimai

Naktinienė G., Černiauskas V. 2000: Leksikografinės duomenų bazės kūrimas: patirtis ir perspektyvos. Tarmės: tekstų ir žodynų rengimo problemos. Šiauliai: Šiaulių universitetas, 66-77.

LKIIS – Lietuvių kalbos išteklių informacinė sistema

LKŽ – Lietuvių kalbos žodynas

 

El. šaltiniai

https://ekalba.lt/

https://ekalba.lt/bendrines-lietuviu-kalbos-zodynas/

https://ekalba.lt/lietuviu-kalbos-zodynas/

https://ekalba.lt/naujazodziai/naujienos

https://ekalba.lt/lkz-pagrindine-kartoteka/

https://ekalba.lt/lkz-papildymu-kartoteka/

https://ekalba.lt/lkz-tarmiu-kartoteka/

https://ekalba.lt/BugosEtimologinioZodynoKartoteka/

https://ekalba.lt/EKALBA%20Palemonas

 

Straipsnių ciklas „Lietuvių kalbos naujovės ir įdomybės“. Straipsnį rėmė Valstybinė lietuvių kalbos komisija.

Jei norėtumėte publikuoti visą straipsnį ar jo dalį, prašom nurodyti informacijos šaltinį ir autorius.

 

[1] Projektas finansuotas pagal Ekonomikos augimo veiksmų programos 3 prioriteto „Informacinė visuomenė visiems“ įgyvendinimo priemonę Nr. VP2-3.1-IVPK-12-K „Lietuvių kalba informacinėje visuomenėje“ (kodas NR. VP2-3.1-IVPK-12-K-01-005).

[2] Projektas „Lietuvių kalbos išteklių informacinės sistemos plėtra (E. kalba)“ (Nr. 02.3.1-CVPA-V-527-01-0006), finansuotas iš Europos Sąjungos struktūrinių fondų lėšų.

image_pdfimage_print

Susiję straipsniai