Korpus

Korpus (latinan sanasta corpus, kokoelma tai kirjaimellisesti keho) on tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä (tekstikorpus) tai puhutun kielen nauhoitteita (puhekorpus), jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.[1]

Tarkastelun kohteina voivat olla esimerkiksi seuraavanlaiset kysymykset:

kuinka usein sana esiintyy tekstissä, (frekvenssi)
missä yhteydessä se esiintyy tai mitkä sanat tai fraasit esiintyvät usein sen lähellä, (konkordanssi)[2]
mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmin toisen kielen sanan tai fraasin vastineena.

Lähteet

Antti Arppe: Korpukset ja kieli (Powerpoint) ling.helsinki.fi. Viitattu 31.12.2008.
Mikko Lounela: Konkordanssi UNIXin alkeet ja tekstikorpusten tietojenkäsittely. KIT. Viitattu 04.12.2009.

Aiheesta muualla

Kotimaiset korpukset:
- Kielipankki FIN-CLARIN -nimisen infrastruktuurikonsortion ylläpitämä palvelu, jossa runsaasti erikielisiä korpuksia (tekstejä, puhetta ym.)
- VARIENG
- KOTUKSEN korpukset
- Helsingin yliopiston monikielinen korpuspalvelin UHLCS
- Aleksis Kivi -korpus (SKS) Toim. Sakari Katajamäki, Ossi Kokko ja Elina Kela. FIN-CLARIN: Finnish Language Resource Infrastructure / CSC – Tieteen tekniikan keskus: Kielipankki 2013.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[Arppe-1] Antti Arppe: Korpukset ja kieli (Powerpoint) ling.helsinki.fi. Viitattu 31.12.2008.

[Lounela-2] Mikko Lounela: Konkordanssi UNIXin alkeet ja tekstikorpusten tietojenkäsittely. KIT. Viitattu 04.12.2009.