N-grama

N-grama bat sekuentzia baten barne dagoen eta n elementuk osatutako azpi-sekuentzia da. N-gramak lengoaia naturalen prozesamendu estatistikoan eta sekuentzia genetikoen analisian erabili ohi dira. Elementuok mota ezberdinetakoak izan daitezke: letrak edo hitzak, esate baterako.

1 neurriko n-gramei unigrama deritze; 2 neurrikoei bigrama; 3 neurrikoei trigrama; eta 4tik gorakoei n-grama edo (n-1) ordenako Markoven eredu deitzen zaie, n hori zenbakiagatik ordeztu daitekeelarik (4-grama, 5-grama,...).

Bibliografia

Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press: 1999. ISBN 0-262-13360-1.
Ted Dunning, Statistical Identification of Language. Computing Research Laboratory Memorandum (1994) MCCS-94-273.
Owen White, Ted Dunning, Granger Sutton, Mark Adams, J.Craig Venter, and Chris Fields. A quality control algorithm for dna sequencing projects. Nucleic Acids Research, 21(16):3829--3838, 1993.
Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.

Kanpo estekak

(Ingelesez) Hitzen n-grama sortzailea.
(Ingelesez) N-grama sortzailea.
(Ingelesez) N-gramatan oinarrituta, ausazko testuak sortzeko sistema

Datuak: Q94489

Artikulu hau hizkuntzalaritzari buruzko zirriborroa da. Wikipedia lagun dezakezu edukia osatuz.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.