Les ondes sonores son ondes mecániques llonxitudinales, aniciar pol movimientu de dalguna porción d'un mediu elásticu (sólidu, líquidu o gaseosu) con al respective de la so posición d'equilibriu, y por cuenta de les propiedaes elástiques del mediu, esta perturbación puede movese d'un llugar a otru. Esiste un gran marxe de frecuencies ente les cualos puede xenerase ondes mecániques llonxitudinales. Les ondes sonores amenorgar a les llendes de frecuencia que pueden aguiyar l'oyíu humanu pa ser percibíes nel celebru como una sensación acústica. Estes llendes de frecuencia estender d'aproximao 20 Hz a cerca 20 KHz y llámense llendes d'audición. Les ondes oyibles son producíes por cuerdes en vibración (por casu el violín y les cuerdes vocales), por columnes d'aire en vibración (l'órganu y el clarinete) y por plaques y membranes en vibración (el casu del tambor) [Resnick, Halliday. 1965].
Descripción del aparatu fonador humanu
L'aparatu fonador ye'l conxuntu d'órganos que tienen como función producir la voz humana, conformar los pulmones, que producen un fluxu d'aire; la larinxe, que contién les cuerdes vocales, la farinxe, los cuévanos oral y nasal y una serie d'elementos articulatorios como los llabios, los dientes, el alvéolo, el cielu la boca, el velu del cielu la boca y la llingua.
Nel procesu de xeneración de la voz, el soníu inicial provién de la vibración de les cuerdes vocales conocida como vibración glotal, esto ye, l'efectu sonoru xenerar pola rápida apertura y zarru de les cuerdes vocales conxuntamente col fluxu d'aire emitíu dende los pulmones. Les cuerdes vocales son dos membranes allugaes dientro de la larinxe, l'abertura ente dambes cuerdes denominar glotis. Cuando la glotis empieza a cerrase, l'aire proveniente dende los pulmones esperimenta una turbulencia, emitiéndose un ruiu d'orixe aerodinámicu.
Al cerrase más les cuerdes vocales empiecen a cimblar a manera de llingüetes, produciéndose un soníu tonal, ye dicir periódicu y que la so frecuencia varia en forma inversa al tamañu de les cuerdes. Esti soníu ye propiu del falante y ye más agudu pal casu de muyeres y neños. Escarez d'información llingüística.
Depués de travesar la glotis el soníu pasa al traviés del cuévanu supraglótica, que ye la porción del aparatu fonador que dexa modificar el soníu dientro de márxenes bien amplios. Ta conformáu principalmente por trés cuévanos, el cuévanu oral, el cuévanu llabial y el cuévanu nasal, correspondientes al gargüelu, los llabios y la ñariz respeutivamente. Estos cuévanos constitúin resonadores acústicos, que modifiquen los soníos d'alcuerdu a la forma qu'adopten, la llingua y los llabios dexen efectuar esta variación de manera voluntaria.
Carauterístiques fundamentales de la señal de voz
Forma d'onda de la señal de voz
La señal de voz ta constituyida por un conxuntu de soníos xeneraos pol aparatu fonador. Esta señal acústica pue ser tresformada por un micrófonu nuna señal llétrica. La señal de voz nel tiempu puede ser representada nun par d'exes cartesianes. Como tou los soníos, ta formáu esencialmente por curves elementales (senos y cosenos) pero les posibles combinaciones d'éstes pueden ser complexes. A manera d'exemplu, amuésase la forma d'onda de la pallabra esplorador' (Imaxe estrayida de [Peralta, Cotrina. 2002]). La representación de la señal de voz en función del tiempu ye importante yá que brinda información sobre carauterístiques importantes como la enerxía y les cruces por cero, que faciliten el so estudiu y analís.
Enerxía y cruces per cero
La función d'enerxía d'una señal representa la enerxía disipada por una resistencia de 1 ohm cuando se-y aplica un voltaxe . Nuna señal continua, la Enerxía total nel intervalu de tiempu a ta definida como:
Pal casu de les señales discretes onde ye'l númberu de muestres de la señal, la enerxía definir por:
La variación d'enerxía na señal de voz deber a la variación de la presión subglotal y de la forma del tracto vocal. La Enerxía ye útil pa estremar segmentos sordos y sonoros na señal de voz, por cuenta de que los valores d'esta carauterística aumenten nos soníos sonoros al respective de los sordos.
Les cruces por cero indiquen el númberu de vegaes qu'una señal continua toma'l valor de cero. Pa les señales discretes, un encruz por cero asocede cuando dos muestres consecutives difieren de signu, o bien una muestra toma'l valor de cero. Consecuentemente, les señales con mayor frecuencia presenten un mayor valor d'esta carauterística, el ruiu tamién xenera un gran númberu de cruces per cero.
La formulación matemática de la Densidá de cruces per cero pa señales discretes esta representa na siguiente fórmula, na cual, ye la función signu y ye'l númberu de muestres de la señal.
Amuésase les gráfiques d'enerxía y cruces per cero de la pallabra 'seis'. Como puede reparase, el valor de la enerxía varia en rellación direuta cola amplitú de la señal. La función de Densidá de Cruces per Cero algama los sos valores más altos cuando se trata de soníos tales como la 's', que son conocíos como soníos fricativos.
Realízase l'estudiu de la señal de voz nel dominiu de la frecuencia, cola cuenta de conocer les sos carauterístiques espectrales. Amuésase l'espectru d'una señal de voz correspondiente a la pallabra 'Dos'.
La frecuencia fundamental, nun tien de confundir se col pitch, brinda información sobre la velocidá a la que cimblen les cuerdes vocales al producir un soníu, que ye xeneráu pola rápida apertura y zarru de les cuerdes vocales con pequeñes soplíes d'aire, produciendo un espectru de frecuencia similar al amosáu na figura siguiente. Esti espectru podría ser llográu si asitiárase un micrófonu d'ampliu rangu direutamente nel gargüelu, enriba de les cuerdes vocales, pero debaxo de les estructures resonantes del tracto vocal. El pitch ye aquel atributu de la perceición auditiva pola cual los soníos pueden ordenar nuna escala musical,[1] la unidá na que se mide'l pitch ye la Escala del Mel. La frecuencia, intensidá y les propiedaes de uns soníu interactúan en formes bien complexes pa dar la perceición de pitch que puede ser un reflexu bien probe de la frecuencia fundamental.
L'espectru ta conformáu d'harmónicos de la frecuencia fundamental. Magar l'espectru lleva un gran componente cerca de la frecuencia pitch (aprox. 50 Hz), tien gran cantidá d'harmónicos, y asina tien componentes de frecuencia que s'estiende hasta pasáu los 5 KHz. [Flores. 1993]. Otra carauterística importante ye la envolvente espectral. Un analís fayadizu sobre esta carauterística dexa llograr información sobre los distintos tipos de soníu.
Frecuencies formantes
Los cuévanos que conformen el cuévanu supraglótica actúen como resonadores acústicos. Si realiza un analís espectral del soníu depués de travesar estos cuévanos, l'efectu de la resonancia produciría una énfasis en determinaes frecuencies del espectru llográu, a les que se-yos denominara 'formantes'. Esisten tantes formantes como resonadores tien el tracto vocal. Sicasí considérase que namái los trés primeres, acomuñaes al cuévanu oral, bucal y nasal respeutivamente y apurren l'abonda cantidá d'información pa poder estremar los distintos tipos de soníu. Na figura amuésase l'espectru de la pallabra 'unu', y denominar F1, F2 y F3 a los sos trés principales frecuencies formantes. L'amplificación de caúna d'estos trés frecuencies depende del tamañu y forma qu'adopta'l cuévanu bucal y el cuévanu oral, y si l'aire pasa o non pela ñariz.
Tipos de señales de voz
Básicamente, la Señal de Voz puede clasificase nos siguientes tipos, Sonora, Non Sonora y Plosiva [Flores. 1993].
Señal sonora
La señal sonora xenerar pola vibración de les cuerdes vocales calteniendo la glotis abierta, lo que dexa que l'aire fluya al traviés d'ella. Estes señales carauterizar por tener alta Enerxía y un conteníu frecuencial nel rangu de los 300 Hz a 4000 Hz presentando cierta periodicidad, ye dicir son de naturaleza cuasiperiódica. El tracto vocal actúa como un cuévanu resonante reforzando la enerxía en redol a determinaes frecuencies (formantes). Na figura siguiente amuésase'l comportamientu d'esti tipu de señales nel tiempu. Toa les vocales carauterizar por ser sonores pero esisten consonantes que tamién lo son, tales como, la 'b', 'd' y la 'm', ente otres.
Señal non sonora
A esta señal tamién se-y conoz como señal fricativa o sorda, y caracterízase por tener un comportamientu aleatoriu en forma de ruiu blanco. Tienen una alta densidá de Cruces per Cero y baxa Enerxía comparaes coles señales de tipu sonora. Mientres la so producción nun se xenera vibración de les cuerdes vocales, yá que, l'aire traviesa un estrechamientu, y xenera una turbulencia. Les consonantes que producen esti tipu soníos son la 's', la 'f' y la 'z' ente otres. La figura siguiente amuesa la forma d'onda d'una señal non sonora.
Señal plosiva
Esta señal xenérase cuando'l tracto vocal cerrar en dalgún puntu, lo que causa que l'aire s'atropu pa dempués salir espulsáu de secute (esplosión). Caracterícense por que la espulsión d'aire ta precedida d'un silenciu. Estos soníos xenérense por casu, cuando se pronuncia la pallabra 'campu'. La p ye una consonante de calter plosivo, y esiste un silenciu ente les sílabes 'cam' y 'po'. Otres consonantes que presenten esta carauterística son 't', y 'k', ente otres. La figura siguiente amuesa'l comportamientu d'esti tipu de señal.
Modelu del tracto
El tracto vocal pórtase como un filtru, que los sos parámetros varien nel tiempu en función de l'acción consciente que se realiza al pronunciar una pallabra. Amuésase la diagrama de bloques del modelu del tracto vocal. Considérense dos posibles entraes que van depender del tipu de señal a reproducir, sonora o non sonora. Pa señales sonores, la escitación va ser un tren d'impulsos de frecuencia controlada, ente que pa les señales non sonores la escitación va ser ruiu aleatorio. La combinación d'estes señales modela'l funcionamientu de la glotis. L'espectru de frecuencies de la Señal de Voz puede llograse a partir del productu del espectru de la escitación pola respuesta en frecuencia del filtru.
El control de ganancia G, determina la intensidá de la escitación. El tracto vocal manifiesta un númberu bien grande de resonancies, pero como s'afirmó enantes, namái se consideren trés y en dellos casos cuatro, esto ye por cuenta de que les resonancies d'alta frecuencia son atenuaes pola carauterística frecuencial del tracto que tiende a actuar como un filtru pasabajo. Esti modelu ye una simplificación del procesu de la fala. Los soníos fricativos, nun se penerar pol tracto cola mesma estensión en que lo faen les señales sonores, polo que'l modelu nun ye bien precisu pa esti tipu de señales. Amás, el modelu supón que los dos señales pueden dixebrase ensin considerar nenguna interacción ente elles, lo que nun ye del tou ciertu, una y bones la vibración de les cuerdes vocales ye afeutada poles ondes de presión dientro del tracto. Sicasí, estes considerancies pueden ser inoraes, resultando'l modelu lo suficientemente fayadizu.
Factores qu'afecten la señal de voz
Esisten munchos factores qu'afecten la correuta perceición de les señales de voz, tales como'l ruiu, l'acústica y la calidá del micrófonu. El ruiu, defínese como aquellos soníos aleatorios que de forma "oculta" tresformen y amazcaren el soníu. Yá que, ye pocu probable atopar una redolada d'audiu dixital en perfectu silenciu, ye importante conocer la cantidá de ruiu, en rellación cola señal que s'introduz nel equipu de soníu, especialmente na tarxeta de soníu. La fuercia de cualquier soníu (falar por casu), comparada con forzar permediu del ruiu, conozse como rellación señal a ruiu (SNR). A midida que aumenta la rellación SNR, ye meyor el trabayu realizáu en grabación.
Acústica de l'habitación (ecos), puede crear cambeos nel espectru de la señal de voz, por cuenta de les resonancies de l'habitación. Yá que, cualquier ambiente zarrao tendría resonancies inherentes, la so énfasis cuando interfier con una señal de fala puede crear rangos anormales de frecuencies. Por cuenta de esto, prodúcense dos cambeos básicos na acústica d'una habitación, el primeru ye causáu pol retardo nel tiempu de la torna de la señal orixinal d'una superficie reflectante, tal como una paré o una ventana. Cuando la onda ye reflexada, torna con muncho menor amplitú, y tardiega nel tiempu, ésta interactúa cola forma d'onda orixinalmente falada pa crear un nuevu espectru compuestu de la fala. El segundu, ta rellacionáu cola reflexón d'una superficie rugosa d'una paré, lo cual tiende a atenuar n'altes frecuencies, pero a reforzar nel rangu de baxes frecuencies. [Cater. 1984]. Ruiu del ambiente afecta si l'usuariu del sistema ta operando'l dispositivu en cualquier llugar que nun sía una habitación sele, esiste la posibilidá de la interferencia del ruiu coles formes d'onda. Sicasí ensin ruiu esterno, el sistema ye susceptible de captar ruiu al traviés del micrófonu, y anque suene estrañu, munches vegaes el ruiu provién dende la boca mientres la pronunciación del mensaxe.
Nel casu de los soníos plosivos, si'l micrófonu ye allugáu direutamente enfrente de la boca del falante, entós ye bien susceptible de ser bombardeado por pequeñu rabaseres d'aire causaes polos soníos plosivos. La meyor forma de tratar el problema ye d'arrodiar el micrófonu con un material esponxoso tresparente acústicu, que rápido estene la velocidá del vientu de les pronunciaciones plosivas, dexando a les vibraciones acústiques normales pasar al traviés del micrófonu. Otres fontes de ruiu esterno, tal como los ventiladores nos ordenadores, aire acondicionaos, teléfonos, y otres persones falando puede tamién causar problemes cola exactitú del sistema de reconocencia. Otra téunica p'atayar el ruiu esterno ye penerar la señal d'audio antes procesala. Por cuenta de que les frecuencies de voz que contienen información relevante tán dientro d'un rangu relativamente estrechu dende 200 a 3000 Hz, l'espectru d'audiu puede ser peneráu al traviés d'un filtru pasabanda pa refugar les señales acústiques fuera d'esi rangu de frecuencies.
La calidá del micrófonu probablemente ye, el factor que más inflúi na alquisición electrónica de señales de la fala ye'l tipu de micrófonu que se ta usando. Esisten, principalmente, cuatro tipos de micrófonos disponibles nel mercáu, que son el electreto, el dinámicu, el de cristal y el de carbón. Pa percibir fácilmente les diferencies ente estos tipos de micrófonos, les sos carauterístiques principales son comparaes na siguiente tabla.
Referencies
- ↑ "American national standard acoustical terminology" (1994). American National Standards Institute, ANSI S1.1-1994 (R1999)
- Resnick, Robert; Halliday David (1965). Física pa estudiantes de Ciencies ya Inxeniería. Parte 1. John Wiley & Sons, Inc..
- Andrés, Flores Espinoza (1993). Reconocencia de Pallabres Aisllaes en Castellanu. Inictel. Direición d'Investigación y Desenvolvimientu..
- Fernando, Peralta; Anibal Cotrina-Atencio (2002). Reconocedor y analizador de voz.. Universidá Nacional Mayor de San Marcos..
- John P., Cater (1984). Electronically Hearing: Computer Speech Recognition, 1st Edition. Howard W. Sams & Co. Inc..