Grupo de Tecnología del Habla: Historia

INDICE

Puedes agilizar tu búsqueda utilizando estos mini-links:

BREVES INTERESES DE LA INVESTIGACIÓN

El Grupo de Tecnología del Habla es parte del Departamento de Ingeniería Electrónica (DIE), que pertenece a la Universidad Politécnica de Madrid (UPM), en la Escuela Técnica Superior de Ingenieros de Telecomunicación (ETSIT).

El Grupo está dedicado a la investigación y el desarrollo en varias areas de la ciencia del habla y la tecnología, especialmente en la síntesis y el reconocimiento del habla, y en las aplicaciones tecnológicas en un entorno de oficinas, telefónico y ayudas para los minusválidos.

Nuestro Grupo está compuesto por dos subsecciones diferentes:

Subsección A:: Parte del Departamento de Ingeniería Electrónica.

Subsección B:: Parte del Departamento de la Lengua Española (DLE) en la Universidad Nacional de Educación a Distancia (UNED).

ACTIVIDADES DE CONVERSION TEXTO-A-HABLA

Breve historia:

Las actividades de texto a habla comenzaron en 1980 encabezadas por el Prof. E. Muñoz. Previamente, en 1978, un prototipo para un sistema de síntesis de dominio de tiempo con un vocabulario limitado fue aplicado a un calculador hablante español. Se publicó un artículo en EUROMICRO [MAR78]. En 1981 se mostró un primer sistema texto-a-habla trabajado en tiempo no real [SAN81].

La cooperación con Speech Plus Inc. (Sistemas previos de Habla Telesensoriales) comenzó en 1980 con el fin de implementar el convertidor de texto-a-habla de Prosa 2000 al español. En 1983, se hizo una demostración de la primera versión del sistema con resultados aceptables en tests de inteligibilidad (comprensión cercana al habla natural) [OLA84]. En 1986 la primera versión comercial fue introducida en el mercado por Speech Plus Inc. El grupo también ha contribuido en el desarrollo de la primera versión de DECTalk en español (de Digital Equipment Corporation) en 1984.

Desde 1983, nuestros objetivos han sido mejorar la prosodia del sintetizador y los utensilios para la investigación de texto-a-habla. Hemos creado unas reglas de duración de segmento específicas y trabajado sobre lo instructivo y la entonación, principalmente en análisis de la respiración del grupo y en la generación automática de los contornos del tono [PAR87][MOR89].

Desde 1989 hemos colaborado con Telefónica I+D (el proveedor de servicio telefónico español) para desarrollar un nuevo sintetizador texto-a-habla español basado en difonos [SIL90]. Hemos contribuido también en la implementación de la arquitectura del sintetizador texto-a-habla siendo producido en el proyecto ESPRIT no. 2104 "POLYGLOT". Desde 1991 participamos en el proyecto COST 233 "Prosodia del Habla sintética".

En 1992, hemos desarrollado nuestro propio sistema texto-a-habla basado en la tarjeta en-casa PC y software. Esta tarjeta también abarca otros programas para el análisis y reconocimiento del habla y ya está comercializada. Desde entonces han aparecido versiones mejoradas de la misma.

Trabajo Reciente:: A través del proyecto TIDE VAESS TP 1174 (1994-1995) hemos empezado con la generación de voces nuevas a añadir al sintetizador. Estamos trabajando también en diferentes métodos de síntesis (formants, vaweform concatenation)

ACTIVIDADES DE RECONOMIENTO DEL HABLA

Paralelamente a las actividades en texto-a-habla, se comenzó un proyecto de reconocimiento en 1978 con dos aplicaciones en mente, a) ayuda en el entrenamiento del habla para sordos [PAR80] [PAR82] [PAR83] [AGU86], y b) dígitos aislados españoles, reconocedor hablante-independiente.

En 1983 fue mostrado un primer prototipo del reconocedor de dígitos en español del hablante-independiente (Ph D. Tesis de A. Golderos, y varias ponencias publicadas [GOL83]).

Durante 1983-1984, J.M. Pardo asistió a lo largo de 13 meses al MIT RLE con el Grupo de Comunicación del Habla trabajando en el reconocimiento del habla [PAR86].

En 1985 se hizo un nuevo énfasis sobre el reconocimiento del habla con el comienzo de un proyecto de palabras-aisladas, reconocimiento independiente del hablante con 1000 palabras-vocabulario. En 1985-1988 cooperamos con SRI Internacional sobre este proyecto. Desarrollamos un sistema que reconoce 1000 palabras aisladas en español independiente del hablante [PAR89] y [PAR91].

En 1986, con la incorporación española a la CEE, unimos el proyecto Esprit 291-860 "Análisis Lingüístico de los Lenguajes Europeos" (1985-1989) donde trabajamos en un sistema de acceso léxico desde las cadenas del fonema aislado para diferentes lenguajes incluyendo el español, utilizando el conocimiento del lenguaje estadístico y heurístico [BOV87].

También hemos desarrollado nuevos sistemas para el reconocimiento de dígitos-aislados independiente del hablante con una precisión de mas del 99% [FER91].

En 1989-92 trabajamos en el proyecto ESPRIT número 2104 "POLYGLOT", donde desarrollamos un reconocedor de palabra aislada de extenso vocabulario y un reconocedor de habla continua.

Trabajo Reciente

Hemos desarrollado un prototipo de reconocedor en español de habla de palabras aisladas de extenso vocabulario (8.000 palabras). Estamos mejorándolo tanto por el lado lingüístico como por el acústico. Este sistema trabaja en tiempo real y utiliza una tarjeta desarrollada en nuestro departamento por S. Aguilera.

Hemos trabajado también en servicios telefónicos utilizando reconocimiento del habla (independiente del hablante) y síntesis. Está disponible un sistema telefónico de reconocimiento de la palabra dígitos/comandos independiente del hablante.

Ahora estamos trabajando en el reconocimiento de habla continuo y modelos de lenguaje aplicados al entendimiento del habla.

ACTIVIDADES DE DISEÑO HARDWARE

En 1985 diseñamos un prototipo hardware texto-a-habla [SAN85]. En 1986 trabajamos sobre las implementaciones hardware de los sistemas de reconocimiento del habla (junto con SRI International y el grupo LSI del Departamento EE-UPM [SAN89]). Dentro de nuestro grupo, hemos desarrollado una tarjeta DSP que contiene una serie de programas, PCVOX: una herramienta para aprender, analizar y visualizar el habla, ISOTON: una herramienta para utilizar el análisis del habla y exponerlo en el entrenamiento de personas sordas y en un convertidor texto-a-habla (TEL-ECO).

ACTIVIDADES EN AYUDAS PARA DISCAPACITADOS

Desde 1976, encabezado por el Prof. E. Muñoz hemos trabajado sobre aplicaciones de Tecnología del Habla para discapacitados: Disminuidos Visuales y Auditivos.

Nuestra primera actividad fue la de desarrollar un calculador de habla español para ciegos (1978). En 1979 comenzamos a trabajar para la rehabilitación del Habla de Sordos basado en el proceso del habla análogo.

Actualmente, hemos desarrollado un sistema integrado (VISHA) que cubre varios aspectos del entrenamiento del habla [BOR85] [AGU86] [AGU86b] [MAT90] [BER92]:

Entrenamiento del habla
Diagnosis de la patología del habla
Audiometrías
Mejor uso de las capacidades auditivas para personas disminuidas del oído.

TESIS EN DESARROLLO Y FECHA DE PRESENTACION

Modelos de tono para la síntesis del habla 1996.
Estudio sobre algoritmos de entrenamiento Hidden Markov Models 1996.
Reconocimiento del habla en condiciones adversas 1997.
Reconocimiento del habla para vocabularios extensos. Implementaciones a tiempo real 1996.
Algoritmos de duración para síntesis del habla 1996.
Integración de modelos semánticos en reconocimiento del habla continuo 1996.
Integración de conocimiento ling&uulm;ístico en sistemas de reconocimiento del habla continuo 1996.

REFERENCIAS

[AGU86] S. Aguilera, A. Borrajo, J.M. Pardo, E. Munoz. "Speech Analysis Based Devices for Diagnosis and Education on Speech and Hearing Impaired people". Proc. International Conference in Acoustics, Speech and Signal Processing, ICASSP 86, 641-644, 1986.

[AGU86b] S. Aguilera, J.M. Pardo, A. Santos, E. Munoz. "Speech Based Aids for the Blind: Madrid Experience". Communication System for the Blind, Rainer F. V. Witte (ed) Verlag der Deutschen Blindenstudienansaltl. V. Marburg/Lahn 1990, pp 140-146.

[AGU93] S. Aguilera, M. A. Berrojo, F.M. Gimenez-Galanes, J. Colas, J. Macias, J. Montero. Speech and Language Technology for Disabled Persons. To be published in May, 1993.

[BOV87] L. Boves, M. Refice. "The Linguistic Processor in a Multilingual Text-to-Speech and Speech-to-Text conversion System". Proc. of the European Conference on Speech Technology, pp 385-388, H. Laver and M. Jack (ed) CEP Consultants, Edimburg 1987.

[BOR85] A. Borrajo, S. Aguilera, J.M. Pardo, E. Munoz. "An efficient pitch extraction method for diagnosis and education". Proc. MELECON-85, Vol I, Bioengineering, 33-36, Madrid 1985.

[BER92] M.A. Berrojo, J. Corrales, J. Macias, S. Aguilera. "A PC graphic tool for speech research based on DSP Board". Internationl Conference on Spoken Language Processing ICSLP-92, Alberta, Canada, 1992.

[CIF92] S. Cifuentes, J. Colas, M. Savoji. J.M. Pardo. "A New Algorithm for connected Digit Recognition". Proc. ICSLP 1992. Canada.

[COR92] R. Cordoba, J.M. Pardo, J.Colas. "Improving and optimizing speaker independent 1000 word Speech Recognition in Spanish". Proc EUROSPEECH 1992.

[MAT90] J.F. Mateor, A. Macarron, S. Aguilera. "A PC card for rehabilitation of deficient auditive people". Proc. V European Signal Processing Conference.,EUSIPCO, 1990.

[FER91] J. Ferreiros, A. Castro, J.M. Pardo. "Comparison between two different approaches in speaker-independent isolated digit recognition". Proc. of EUROSPEECH, 1991

[GOL83] A. Golderos. "Reconocimiento de palabras aisladas con independencia del locutor. Aplicacion al reconocimiento de digitos en espanol". Phd. Thesis. Universidad Politecnica de Madrid. Madrid, 1983.

[MAR78] R. Martinez et al. "A Spanish Talking Calculator" Proc. of EUROMICRO, 1978.

[MOR89] P.J. Moreno, M. MArtinez, J.M. Pardo, J.A. Vallejo. "Improving Naturalness in a Text-to-Speech system with a New Fundamental Frequency Algorithm". Proc. EUROSPEECH, 1989. Ed. CEP Consultants Ltd. Vol I, pp 360-363.

[OLA84] J.C. Olabe. A. Santos, R. Martinez, E. Munoz, M. Martinez, A. Quilis, J. Bernstein. "Real Time Text-to-Speech Conversion System for Spanish". Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 2.10.1-2.10.3, 1984

[PAR80] J.M. Pardo. "On the application of DSP to Speech Training for the Deaf". First European Signal Processing Conference EUSIPCO 80. Lausanne, 1980.

[PAR82] J.M. Pardo. "Vocal Tract Shape Analysis for Children". Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 736-766, 1982

[PAR83] J.M. Pardo, S. Aguilera, J. Olabe. E. Munoz. "Speech Learning Aid for the Deaf: Results and Design Implications". Signal Processing II Theories and Applications. pp 609-612. H.W. Schussler ed. Elsevier Science, publishers, 1983

[PAR86] J.M. Pardo. "On the Determination of Speech Boundaries: A tool for Providing Anchor Time Points in Speech Recognition". Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 2267-2270, 1986.

[PAR87] J.M. Pardo, M. Martinez, A. Quilis, E. Munoz. "Improving Text-to-Speech Conversion in Spanish: Linguistic Analysis and Prosody". Proc. European Conference on Speech Technology, Vol 2, CEP Consultants Ltd., pp 173-176, Edimburgh, 1987.

[PAR89] J.M. Pardo, H. Hasan. "Large Vocabulary, Speaker Independent Isolated Word Speech Recognition System using Hidden Markov Models". Proc. EUROSPEECH 1989, Ed. CEP Consultants Ltd. Vol II, pp 146-149, 1989.

[PAR91] J.M. Pardo, H. Hasan, J. Colas. "Speaker Independent, 1000 words speech Recognition in Spanish" in press Springer Verlag.

[SAN82] J. M. Santos, H. R. Nombela. Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, 1982.

[SAN85] A. Santos. "Implementation of a Text-to-Speech converter for Spanish". Proc. MELECON 1985, Vol II, pp. 283-286, Elsevier Science Publishers, 1985

[SIL90] J. A. Siles. "A new service over the Spanish Telephone network with speech recognition and synthesis" in Signal Processing V: Theories and Applications, L. Torres, E. Masgrau, M.A. Lagunas (eds) Elsevier Science, 1990, pp 85-91.