Reconociendo el reconocimiento automático de nuestro habla

El reconocimiento automático del habla ha avanzado mucho desde sus comienzos en la década de 1950. En esa época, se construyó una máquina que podía reconocer los números del uno al nueve. Hoy en día, podemos convertir nuestras voces en texto, hablar con contestadoras inteligentes, programar a Alexa, Siri o Cortana para que nos ayuden a usar menos nuestros cerebros. Pero la mayoría de estos cambios están centrados en el inglés. Entonces, ¿qué nos queda al resto del planeta?

Reconocimiento automático del habla

Imagen vía Flickr.

Bueno, no, no todo el reconocimiento automático del habla (RAH) o de la voz es en inglés. El programa “Voz a texto” de Google Cloud le permite a los programadores convertir audio a texto en 120 idiomas. Y muchas otras start-ups dedicadas al RAH multilingüe a medida aparecen constantemente. Todas apuntan a distintos segmentos del mercado, desde telecomunicaciones a transcripciones, pasando por cualquier cosa imaginable.

Pero algo multilingüe no está sucediendo al mismo tiempo con el reconocimiento de voz. No es tan fácil hablar con un dispositivo en ruso, por ejemplo, y que lo convierta todo a un texto en español. Suceden dos casos: o hablamos en nuestra lengua nativa que es traducida a texto o es una traducción más o menos correcta entre un idioma y el otro. Ambas cosas juntas, por ahora, no suceden. El reconocimiento automático del habla del futuro tendrá que ser realmente efectivo si quiere ofrecernos lo que queramos en cualquier idioma. 

¿No puedes esperar a que la tecnología te ayude con los idiomas? ¡Contáctanos que nosotros te ayudamos!

¿Qué es el reconocimiento del habla?

“Reconocimiento de voz” es un término genérico que nos facilita la vida al hacer que la tecnología que nos rodea haga lo que nosotros queremos al tan solo pedirlo. Podemos por ejemplo hablar con nuestras tabletas para que escriban nuestros pensamientos. O podemos hacer que ciertos sitios de internet nos lean lo que pone la página. 

Nuestros asistentes virtuales como Siri han simplificado el hacer un lista del mercado o el elegir una lista de reproducción acorde a cada situación. El reconocimiento de voz en los coches ha ayudado a hacer llamadas realmente con las manos libres. Y podemos controlar el aire acondicionado o calefacción de nuestras casas sin siquiera oprimir un botón. Hay tantas cosas que el reconocimiento de voz puede hacer por nosotros que nos estamos haciendo dependientes (¡o desesperados por más!).

Conversaciones basadas en reconocimiento

Si un futuro en base al reconocimiento del habla es al que apuntamos, pensemos en las posibilidades para el lenguaje y la traducción. Podemos conectarnos con una clientela mundial sin siquiera tener que traducir nada. Podemos ir a cualquier restaurante en cualquier país y ordenar exactamente lo que queremos sin inconvenientes. Pedir asistencia médica durante un viaje no será una preocupación. Y, si bien pasar por controles de frontera y de migración no serán más divertidos, al menos podremos sacarle una sonrisa al personal que quien hablemos —siempre y cuando siga siendo una persona y no una máquina.

<iframe src=»https://giphy.com/embed/oNhAOVr7eLynu» width=»480″ height=»270″ frameBorder=»0″ class=»giphy-embed» allowFullScreen></iframe><p><a href=»https://giphy.com/gifs/oNhAOVr7eLynu»>via GIPHY</a></p>

El problema

Hablar en un idioma y verlo salir como otro suena realmente como algo salido de Doctor Who o Futurama. Eso sí, nuestra tecnología no suena tan divertida como una TARDIS o una creación del Profesor Farnsworth. Las interfaces de programación de aplicaciones (APIs por su sigla en inglés) por ejemplo son esencialmente un conjunto de reglas que determina cómo interactúan los diferentes componentes de un software. Para que nuestras interfaces puedan reconocer todos los idiomas, primero deben aprenderlos. Y esto no quiere decir que un montón de robots e interfaces tienen que ir a la escuela.

El aprendizaje automático detrás de estas interfaces necesita ser capaz de reconocer más que solo el vocabulario que compone un idioma individual. Debe también aprender toda la semántica del lenguaje, cada aspecto de la gramática y hasta cada fonema individual dentro del alfabeto.

Como si fuera poco, un RAH efectivo necesitaría reconocer cosas como expresiones dialécticas y coloquiales que hasta complican a los aprendices de carne y hueso. Sin embargo, mientras un humano puede identificar aspectos idiomáticos como palabras prestadas y cognados, una máquina posiblemente la tenga difícil.

Imagen vía Pixabay.

Diversidad

Encontrar una solución estandarizada a la conversión de cada idioma de nuestro planeta sin tener que aprenderlos nosotros mismos no va a suceder de la noche a la mañana. Empresas dentro del mercado del reconocimiento de voz están creando y concentrándose en diversos nichos. Sin embargo, eso no significa que se enfoquen en una amplia variedad de idiomas. Dicho eso, cada paso en la creación de algoritmos lingüísticos será de gran ayuda para la educación.

El software de reconocimiento de idioma ideal no solamente será capaz de distinguir entre idiomas individuales y traducirlos en cada mínimo aspecto, sino que también podrá entender y replicar diferentes dialectos de cada uno de esos idiomas. Lo que sea que suceda, ¡de seguro va a ser como salido de una película de ciencia ficción!

Comentarios acerca de …. Reconociendo el reconocimiento automático de nuestro habla