Hizkuntza eredu
Hizkuntza-eredu bat hitzen sekuentzien gaineko probabilitate-banaketa bat da. m luzerako hitzen edozein sekuentzia emanda, hizkuntza-eredu batek probabilitate bat esleitzen dio sekuentzia osoari: Hizkuntza ereduetako probabilitateak kalkulatzeko hizkuntza bateko edo askotako testu corpusak erabiltzen dira, ikasketa edo trebakuntza deitzen den urratsean. Hizkuntzak baliozko esaldi ugari adierazteko erabil daitezkeenez hizkuntzaren modelizazioak arazo bati egin behar dio aurre: ikasketa-datuetan aurkitzen ez diren hizkuntza-sekuentzia baliozkoei probabilitate ez-nuluak esleitzea. Arazo hori gainditzeko hurbilpen desberdinak erabili dira, hala nola Markoven suposizioa aplikatzea edo neurona-sare errekurrenteak edo transformer modukoak.
Hizkuntza ereduak erabilgarriak dira hizkuntzalaritza konputazionalean problema askotarako; hizketaren ezagutza, itzulpen automatikoa[1], etiketatze morfosintaktikoa eta analisi sintaktikoa,[2] karaktereen ezagutza optikoa,[3] informazioa berreskuratzea eta beste hainbat.
Eredu motak
Teknika desberdinak erabiltzen dira. Hona hemen horietako batzuk konplexutasunaren arabera (sinpleetatik hasita):
- unigramak
- n-gramak
- esponentziala (entropia)
- neurona-sareak
Euskarazko hizkuntza ereduak
Euskararako entrenatu ziren hiru eredu neuronal zeuden 2022an publikoki atzigarri: [4][5]
- fastext embedding-ak,
- BERT hizkuntza eredua,
- FLAIR hizkuntza eredua. BERT hizkuntza eredua Hugging Face-eko liburutegiarekin erabili daiteke zuzenean[6]
Alde nabarmena dago euskararen eta Europako gainerako hizkuntzen artean 2022an, ikerketaren heldutasunari eta hizkuntza-baliabideen inguruko prestakuntza-egoerari dagokienez. MC4 dataset eleaniztunak, adibidez, 10,401 Gb eskaintzen ditu ingeleserako, 1,613 Gb gaztelaniarako (6 aldiz gutxiago), eta 5 Gb bakarrik euskararako (2.000 aldiz gutxiago). Era berean, BERT hizkuntza-ereduaren ingeleserako jatorrizko bertsioa Google Books-en corpus bat erabiliz entrenatu zen. Corpus horrek 155.000 milioi hitz ditu Estatu Batuetako ingelesez eta 34.000 milioi hitz Britainia handiko ingelesez. Horrek esan nahi du corpus ingelesa bere euskal baliokidea (384 milioi hitz) baino ia 500 aldiz handiagoa zela 2020an. Hizkuntzen arteko alde hori hizketarako baliabideetan ere argi ikusten da. Common Voice enpresak, adibidez, 2015 baliozkotutako hizketa-ordu ematen ditu ingeleserako, 377 gaztelaniarako, eta 91 bakarrik euskararako.[7]
Goiko adibide gutxi horietan ikusten den hizkuntzen arteko alde nabariak hizkuntza teknologian dagoen eten digital endemikoa azpimarratzen du. Hala ere, euskara bezalako baliabide gutxiko hizkuntzentzat puntu positiboa da aurrez prestatutako hizkuntza-eredu elebakarrek eta eleaniztunek nahiko emaitza onak ematen dituztela Hizkuntzaren Prozesamenduko ataza desberdinetan, baita entrenamendurako corpus askoz txikiagoak erabilita ere.[7]
Erreferentziak
- Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.
- Kuhn, Roland, and Renato De Mori. "A cache-based natural language model for speech recognition." IEEE transactions on pattern analysis and machine intelligence 12.6 (1990): 570-583.
- Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman. "Grammar induction with neural language models: An unusual replication." arXiv preprint arXiv:1808.10000 (2018).
- «Euskarazko hizkuntza ereduak | Ixa taldea» ixa.si.ehu.es (Noiz kontsultatua: 2023-01-08).
- «Index of /text-representation-models/basque» ixa2.si.ehu.eus (Noiz kontsultatua: 2023-01-08).
- «ixa-ehu/berteus-base-cased · Hugging Face» huggingface.co (Noiz kontsultatua: 2023-01-08).
- European Language Equality project. (2022). D1.4 Report on the Basque Language. , 1-2 or..