Historia del Reconocimiento de Voz

André Bastié

Publicado en Medios

19 de feb

2 min de lectura

El reconocimiento de voz es la capacidad de una máquina o programa para identificar palabras y frases en el lenguaje hablado y convertirlas a un formato legible por máquina. Diseñar una máquina que imite el comportamiento humano, especialmente la capacidad de hablar y responder, ha intrigado a ingenieros y científicos durante siglos. Tecnologías del habla

El reconocimiento de voz es la capacidad de una máquina o programa para identificar palabras y frases en un lenguaje hablado y convertirlas en un formato legible por la máquina.

Diseñar una máquina que imite el comportamiento humano, especialmente la capacidad de hablar y responder, ha intrigado a ingenieros y científicos durante siglos. Las tecnologías del habla han experimentado una transformación dramática, desde lo que comenzó como una máquina de habla utilizando tubos de resonancia hasta el primer dispositivo de grabación de Graham Bell, el Dictáfono y el primer sintetizador de voz, el Demostrador Operativo de Voz (VODER) hasta los asistentes virtuales inteligentes de hoy en día como Siri de Apple o Alexa de Amazon. Gracias a los avances en IA, la tecnología de reconocimiento de voz está ganando popularidad. Según una encuesta reciente de U.S. Cellular, el 36% de los propietarios de smartphones utilizan un asistente virtual diariamente y el 30% usan tecnología para el hogar inteligente a diario. Se espera que esta conectividad aumente con el número de dispositivos y sensores, los cuales se predice que subirán un 200% hasta alcanzar los 46 mil millones para 2021.

La idea es transformar audio grabado en una secuencia de palabras, como una alternativa a escribir en el teclado. Desde ayudar a personas con discapacidades físicas, transcripción de entrevistas, aprendizaje de un nuevo idioma o acceder a un archivo a través de comandos de voz, el reconocimiento de voz encuentra uso en una serie de aplicaciones. Los sistemas de reconocimiento de voz facilitan la interacción con la tecnología, permitiendo solicitudes sin usar las manos.

Desde 1952 hasta hoy.

Las tecnologías más tempranas de reconocimiento de voz solo podían comprender dígitos. El sistema Audrey, creado por Bell Labs en 1952 considerado como el primer dispositivo de reconocimiento de habla, reconocía solo diez dígitos pronunciados por una sola voz. Esto fue seguido por la máquina Shoebox, desarrollada por IBM en 1962, que podía reconocer 16 palabras en inglés, 10 dígitos y 6 comandos aritméticos.

El Departamento de Defensa de EE. UU. hizo grandes contribuciones al desarrollo de sistemas de reconocimiento de voz. Desde 1971 hasta 1976, financió el programa DARPA SUR (Investigación de la Comprensión del Habla), que condujo al desarrollo de Harpy por Carnegie Mellon que podía comprender 1011 palabras. Aproximadamente en la misma época, se fundó la primera empresa comercial de reconocimiento de voz, Threshold Technology, y los Laboratorios Bell introdujeron un sistema que podía interpretar las voces de varias personas. En 1978, Texas Instruments presentó el Speak & Spell, que fue un hito en el desarrollo del habla debido a su uso de un chip de voz, llevando a un sonido de síntesis digital más parecido al humano. El desarrollo del modelo oculto de Markov, que consideraba la probabilidad de sonidos desconocidos utilizando estadísticas, resultó ser un gran avance; incluso llegó a los hogares, en forma de la muñeca Julie de Worlds of Wonder.

Microprocesadores más rápidos

Gracias a la introducción de microprocesadores más rápidos, en 1990 se desarrolló el primer software de reconocimiento de voz para consumidores. Fue el primer software de dictado continuo, lo que significa que no era necesario hacer pausas entre palabras. En 1992, Apple también produjo su sistema de reconocimiento de voz continuo en tiempo real que podía reconocer hasta 20,000 palabras.

Asistente inteligente

Para 2001, el desarrollo del reconocimiento de voz había alcanzado un punto de estancamiento, hasta que en 2008, Google surgió con su aplicación de Búsqueda por Voz de Google para iPhones. En 2010, Google introdujo el reconocimiento personalizado en dispositivos Android que registraría las consultas de voz de diferentes usuarios para desarrollar un modelo de voz mejorado. Consta de 230 mil millones de palabras en inglés. Finalmente, Siri de Apple se implementó en el iPhone 4S en 2011, el cual dependía de la computación en la nube también.

El Descubrimiento

Un estudio de Stanford reveló que el reconocimiento de voz ahora es aproximadamente tres veces más rápido que escribir en un teléfono celular. Una vez en 8.5%, la tasa de error ha disminuido a 4.9%. Estos avances tecnológicos han dado lugar a múltiples aplicaciones como herramientas de asistente de transcripción, incluyendo Happy Scribe.

Pocos hechos conocidos sobre la tecnología de reconocimiento de voz

Hablando técnicamente, el reconocimiento de voz se remonta a 1877 cuando Thomas Edison inventó el fonógrafo, el primer dispositivo para grabar y reproducir sonido.
Cuando se trata de reconocimiento de voz, la precisión se mide mediante una tasa de error de palabra cálculo, que rastrea con qué frecuencia se transcribe incorrectamente una palabra.

Autores:

Niek Leermakers

Publicado en Medios

7 de dic

6 min de lectura

Elaborar un guion efectivo para video implica determinar el objetivo, identificar al público objetivo, crear una historia convincente, usar un lenguaje claro y conciso, e incorporar visuales y sonido para realzar el mensaje. Un guion bien elaborado puede captar la atención de los espectadores y transmitir tu mensaje de manera efectiva en un video.