Kielentunnistus
Kieliteknologiassa kielentunnistus tarkoittaa tekstin tai puheen kielen automaattista tunnistamista näytteen perusteella. Myös puhujan tai kirjoittajan murteen, yhteiskunnallisen aseman tai äidinkielen päättelemisen voidaan katsoa kuuluvan kielentunnistukseen. Kielentunnistusta on käytetty esimerkiksi tekstinkäsittely- ja tiedonhakuohjelmissa sekä puheentunnistussovelluksissa.
Kirjoitetun kielen tunnistaminen
Kirjoitetun kielen tunnistaminen voi perustua esimerkiksi näytetekstin sisältämien n-grammien (osamerkkijonojen) frekvenssien laskemiseen. Kielentunnistusohjelmaan on etukäteen syötetty tunnistettavien kielten tyypilliset n-grammijakaumat, joihin näytteen jakaumaa verrataan. Menetelmää voidaan täydentää etsimällä tekstistä eri kielille tyypillisiä pikkusanoja: esimerkiksi sana och esiintyy usein ruotsinkielisissä teksteissä.
Kielentunnistusohjelmat toimivat yleensä varsin hyvin, jos näyte on riittävän pitkä. Vaikeuksia niille tuottavat läheiset sukukielet (esimerkiksi tanska ja kirjanorja) ja paljon vieraskielisiä erisnimiä sisältävät tekstit.
Aiheesta muualla
- Kenneth R. Beesley: Language Identifier: A Computer Program for Automatic Natural-Language Identification of On-Line Text (englanniksi)