Parolsintezo estas la permaŝina produktado de homa parolo. Parolsintezilo estas ekipaĵo aŭ programaro, kiu ebligas tion. Nuntempe, parolsinteziloj utiligas komputilan teknikon, sed mekanikaj parolsinteziloj havas historion plurcentjaran.

En pli malvasta senco, oni komprenas kiel "parolsintezo" la konvertadon de fonetika reprezento de diraĵo en aŭdeblan parolon. Por plene sukcesi, tia fonetika reprezento devas esti kompleta, kun indiko ne nur de la parolsonoj, sed ankaŭ de la intonacio.

En pli vasta senco, oni komprenas kiel "parolsintezon" eltekstan parolsintezon (angle: "text-to-speech synthesis"). Tio estas konvertado de skriba teksto al parolo, kio postulas preparan paŝon: la teksto devas unue esti konvertita en fonetikan formon. Necesas tiel konverti ankaŭ ciferojn kaj aliajn neliterajn simbolojn kaj laŭeble ĝuste indiki la intonacion.

Ekzistas diversaj metodoj de parolsintezo:

  • Kunĉeniga sintezo uzas erojn de registrita homa parolo. Oni povus ekzemple registri ĉiun el la vokaloj kaj konsonantoj de esperanto, prononcataj de unu parolanto, kaj kunĉeningi ilin laŭbezone. Tiu metodo tamen tute ne funkcias kontentige, ĉar la transiro inter sinsekvaj parolsonoj devas esti ĝusta por ke la parolo estu komprenebla. En pli sukcesaj metodoj tiaspecaj oni uzas aŭ “difonojn” aŭ pli longajn parolerojn.
    • Difona sintezo baziĝas sur registritaj versioj de ĉiuj son-sinsekvoj kiuj povas aperi en la sintezata lingvo. Ekzistas metodoj por modifi la prozodiajn ecojn de la registritaj difonoj por ke la daŭro de la parolsonoj kaj la intonacio estu ĝustaj.
    • Paroler-elekta sintezo (angle: “unit-selection synthesis”) utiligas larĝan datumbazon de registrita parolo, el kiu la plej longaj sinsekvoj, kiuj reaperas en la sintezota teksto, estas elektataj kaj kunĉenigataj.
  • Laŭregula sintezo ne uzas registritan parolon, sed la akustika signalo estas kreata per modelo de la homa parolproduktado. Tiaj sistemoj do postulas de la konstruantoj abundan kaj ekzaktan scion, kiu estas respegulata en la komprenebleco kaj natureco de la sinteza parolo. Ili baziĝas sur teorio en kiu la parolo estas konsiderata kiel rezulto de filtrado de origina sono. Ĉe plej multaj parolsonoj, la origina sono estiĝas en la laringo, kaj ĝi filtriĝas survoje trans la parolorgano. La ecoj de la filtro, inter kiuj la frekvencoj de la tiel nomataj “formantoj” estas la plej gravaj, varias laŭ la artikulacio.
    • Formanta sintezo ne simulas la artikulacion mem, sed nur la filtradon, kiun evidentigas studoj de la akustikaj ecoj de la parolo.
    • Artikulacia sintezo simulas la artikulacion mem. Artikulacia sintezo ankoraŭ ne povas konkurenci kun formanta sintezo, ĉar la akustikaj ecoj de la parolo estas pli bone konataj ol la detaloj de la artikulacio.

Kelkaj ekzemploj de eltekstigaj sistemoj estas:

  • Festivalo
  • Flite
  • MBROLA (nur elparolilo)

Bonekonataj eksteraj ekipaĵaj aparatoj estas, ekzemple:

  • Apollo
  • Double Talk PC

Oni stablis pluraj marklingvoj por konverti tekston al elparolebla versio en XML-a formato. La plej tempe proksima estas SSML, proponita de W3C (ankoraŭ en projekta stato nuntempe).

Parolsintezaj marklingvoj devas esti distingitaj de dialogaj marklingvoj, kiel VoiceXML, kiu inkluzivas krom TAP markoj etikedojn rilate al parolrekono, dialogo demarŝo kaj per-voĉa telefona diskado.

Literaturo specife pri Esperanta parolsintezo

Sherwood, Bruce A. (1978) "Fast text-to-speech algorithms for Esperanto, Spanish, Italian, Russian and English", International Journal of Man-machine studies, 10, n-ro 6, 669-692.

Sherwood, Bruce (1985): "Sintezo de Esperanto kaj de diversaj naturaj lingvoj" en Koutny Ilona (red.) Perkomputila Tekstoprilaboro. Budapest: Scienca Eldona Centro. 49-56.

Koutny Ilona (1988) "Komputila parolgenero", Fokuso, n-ro 4, 48-54.

Koutny Ilona (2001) "Speech Processing and Esperanto", Interface, Journal of Applied Linguistics 2000/1, 99-120. Ankaŭ en Klaus Schubert (red.) Planned Languages: From Concept to Reality. Brussel: Hogeschool voor Wetenschap en Kunst.

Koutny Ilona (2011) Esperanto en komputa lingvistiko – retrorigardo, ‘Computational linguistics – a retrospective’, en Nosková, Katarina & Balaz, Peter (red.) Modernaj teknologioj por Esperanto. KAEST 2010, Partizánske: E@I, 91-104.

Eksteraj ligiloj

Vidu ankaŭ

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.