Kielentunnistus

Kieliteknologiassa kielentunnistus tarkoittaa tekstin tai puheen kielen automaattista tunnistamista näytteen perusteella. Myös puhujan tai kirjoittajan murteen, yhteiskunnallisen aseman tai äidinkielen päättelemisen voidaan katsoa kuuluvan kielentunnistukseen. Kielentunnistusta on käytetty esimerkiksi tekstinkäsittely- ja tiedonhakuohjelmissa sekä puheentunnistussovelluksissa.

Kirjoitetun kielen tunnistaminen

Kirjoitetun kielen tunnistaminen voi perustua esimerkiksi näytetekstin sisältämien n-grammien (osamerkkijonojen) frekvenssien laskemiseen. Kielentunnistusohjelmaan on etukäteen syötetty tunnistettavien kielten tyypilliset n-grammijakaumat, joihin näytteen jakaumaa verrataan. Menetelmää voidaan täydentää etsimällä tekstistä eri kielille tyypillisiä pikkusanoja: esimerkiksi sana och esiintyy usein ruotsinkielisissä teksteissä.

Kielentunnistusohjelmat toimivat yleensä varsin hyvin, jos näyte on riittävän pitkä. Vaikeuksia niille tuottavat läheiset sukukielet (esimerkiksi tanska ja kirjanorja) ja paljon vieraskielisiä erisnimiä sisältävät tekstit.

Aiheesta muualla

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.