Komputa lingvoscienco (aŭ komputila lingvistiko) provas uzi komputilojn por esplori kaj manipuli voĉan aŭ skribitan parolon.
Klasoj de programoj
Oni distingas inter analizaj programoj unuflanke, sintezaj aŭ generaj programoj aliflanke.
En analizo, voĉa aŭ skribita teksto eniĝas, kaj la programo provas formaligi la ricevatajn informojn. Ekzemple ĝi aŭtomate eltiras resumon el iom longa teksto. Aŭ se la enigo estas demando, la programo serĉas tra datumbazo tekstojn, kiuj provizas respondon eĉ en alia vortumo. Aŭ aŭtomate eltrovitaj estas statistikoj pri la vortprovizo, sinonimoj, ktp.
En sintezo, la programoj eligas frazojn aŭ tekstojn komputitajn laŭ provizitaj informoj. Ekzemple el indikoj pri varmo, seko, vento kaj koncernaj loknomoj, programo redaktas tekstojn de veterprognozo. Se plie la tekstojn eldiras arta voĉo, estas bezonataj la rimedoj de parolsintezo.
Iuj programoj uzas kaj analizadon, kaj sintezadon. En aŭtomata aŭ duonaŭtomata tradukado, oni sinsekve analizas la fontlingvan tekston kaj sintezas la cellingvan tekston.
Aplikoj
Multaj aplikoj de lingvokomputiko estas unulingvaj – krom traduko kompreneble. Ili ankaŭ povas esti dulingvaj: ekzemple indeksado en iu lingvo de dokumentoj en alia lingvo.
Analizaj aplikoj
- aŭtomata lingvorekono – respondas la demandon en kiu lingvo estas ĉi tiu teksto?
- helpo al korektado – kontrolas ortografie aŭ gramatike tekstojn
- aŭtomata indeksado – respondas la demandon kiuj estas en ĉi tiu teksto la signifaj temvortoj (ŝlosilvortoj)?
- aŭtomata klasado de tekstoj – mezuras la intersimilon de tekstoj por ilin disklasi
- informserĉo – trovas tekstojn laŭ donita temo, eĉ kun malsimilaj vortumoj...
Sintezaj aplikoj
- aŭtomata elparolo de teksto – voĉe diras tekstojn kun taŭgaj akcentado kaj melodio, eĉ malgraŭ eventuale malsimpla ortografio
- aŭtomata noticado – redaktas laŭ bazaj informoj.
Miksaj aplikoj
- helpo al redakto – proponas pli bonajn vortumojn, ekzemple en fremda, far la redaktanto ne tre bone regata lingvo
- aŭtomata resumado – elektas signifajn frazojn de teksto, eventuale novredaktas ilin
- aŭtomata dialogo – kondukas ekzemple tra problemdiagnozo, demandante la uzanton pri la problemo kaj respondante el sia scibazo
- aŭtomata traduko – provas redoni tekston en alia lingvo.
Procedoj kaj iloj
Lingvokomputistoj uzas formaligitajn specojn de gramatikoj kaj vortaroj, nome komputaj gramatikoj kaj komputaj vortaroj. Ĉi tiujn ili ofte miksas kun aliaj rimedoj, precipe statistikaj kaj memoraj.
Statistiko povas ĝeneraligi el provizitaj ekzemploj. Ekzemple por la tasko identigi lingvon, unu konata algoritmo estas preni la oftecon de triliteraĵoj el tekstoj de konataj lingvoj kaj kompari kun triliteraĵoj de la proponata teksto.
Memorbazo estas artifiko efika ekzemple en traduko de fakaj tekstoj, en kiuj samaj esprimoj ofte aperas, kiaj estas juraj tekstoj. Memorsistemo registras originalajn tekstopecojn kaj la respondajn homfaritajn tradukojn, kaj reproponas la tradukojn kiam la samaj aŭ tre similaj fontotekstoj aperas.
Ekzemploj kaj utilaj nocioj
Programlingvoj por lingvistiko
Universitatoj kaj kompanioj laborantaj pri lingvokomputiko ofte kreas proprajn programlingvojn laŭ siaj bezonoj. El la publike konataj programlingvoj iuj pli facile uziĝas en lingvokomputiko:
- Perl taŭgas por provaj programoj unuflanke per siaj potencaj literĵokeroj (regulaj esprimoj), aliflanke per pluraj krom-pakaĵoj dediĉitaj al lingvanalizo
- Prolog, bazita sur formala logiko, taŭgas por prikomputi lingvojn, sed ankaŭ por aŭtomata rezonado.
Komputaj vortaroj
- genelex estas iom malsimpla vortarmodelo, kiun planis kaj uzis pluraj kompanioj en la 1980aj-1990aj jaroj
Komputaj gramatikoj
Tekstaroj
Ekde la 1990-aj jaroj la uzo de tekstaroj (korpusoj) populariĝis en lingvistiko.
Literaturo
- Frank, Helmar/Lánsky, M. (1992) "Eine rechnerunterstützte Wortbildungsgrammatik auf der Grundlage der Ideen von Komensky, Zamenhof und de Saussure". En: Grkg/Humankybernetik 33/1, 5-19.
- Ouyang Wendao (1985): "Enkonduko de 5-dimensia modelo de ĉin-lingva informo kaj algoritmaj studoj pri vort-identigo, fraz-analizo kaj semantika prezentado". En: Koutny Ilona (Red.): Perkomputila Tekstoprilaboro. Budapest: Scienca Eldona Centro, 145-152.
- Schubert, Klaus (1989): "A Dependency Syntax of Esperanto". En: Maxwell, Dan/Schubert, Klaus (Red.): Metataxis in Practice. Dependency Syntax for Multilingual Machine Translation. Dordrecht/Providence: Foris, 207-232.
- (1992): "Esperanto as an Intermediate Language for Machine Translation". En: Newton, John (Red.): Computers in Translation. London/New York: Routledge, 78-95
- Sherwood, Bruce (1985): "Sintezo de Esperanto kaj de diversaj naturaj lingvoj." En: Koutny Ilona (Red.): Perkomputila Tekstoprilaboro. Budapest: Scienca Eldona Centro. 49-56.
- Sgall, Petr (1988): "On some Results of the Conference". En: Maxwell, Dan/Schubert, Klaus/Witkam, Toon (Red.): New Directions in Machine Translation. Dordrecht/Providence: Foris, 243-249.
- Witkam, A.P.M. (1985): "Distribuita Lingvo-Tradukado". En: Koutny, Ilona (Red.): Perkomputila Tekstoprilaboro . Budapest: Scienca Eldona Centro. 207-228.
- Batori, I.S./Lenders, W. et al. (eds.), 1989. Computational Linguistics. An international handbook of computer oriented language research and applications. Berlin, New York: de Gruyter (= Handbücher zur Sprach- und Kommunikationswissenschaft. vol. 4)
- Schmitz, Ulrich, 1992. Computerlinguistik. Eine Einführung. Opladen: Westdeutscher Verlag.
Vidu ankaŭ
Eksteraj ligiloj
- Papillon estas vortarmodelo kun rete atingebla plurlingva apliko: http://www.papillon-dictionary.org Arkivigite je 2008-07-04 per la retarkivo Wayback Machine (plurlingva)
- la tekstaro de esperanto: http://www.ikso.net/~bertilo/tekstaro (eo)
- tradukilo: http://ttt.kafejo.com/lingvoj/auxlangs/eo/tradukilo (eo)
- Roland Hausser: Lectures on "Foundations of Computational Linguistics" Arkivigite je 2005-03-06 per la retarkivo Wayback Machine (en)
- Liu Haitao: Informadika aspekto de interlingvistiko Arkivigite je 2005-02-24 per la retarkivo Wayback Machine (eo)
- Virtuelles Handbuch Informationswissenschaft Arkivigite je 2005-03-11 per la retarkivo Wayback Machine (de)
- Esperantilo - GPL lingvistika programo subtenanta gramatikan korektadon, sintaksan analizon kaj maŝinan tradukadon de esperanto al pola kaj germana lingvoj. (eo)