Impulsa el crecimiento internacional de tu empresa con Azure AI y acelera el aprendizaje de lenguas extranjeras en tu equipo

Microsoft Azure Cognitive Speech Services es una plataforma integral de tecnologías y servicios diseñada para agilizar la implementación del habla en aplicaciones y destacar en el mercado. Sus servicios incluyen la conversión de voz a texto, texto a voz, transcripción de conversaciones con voz neural personalizada (CNV), reconocimiento de oradores, traducción de voz, SDK de voz y kit de desarrollo de dispositivos de voz (DDK).

La inteligencia artificial para la educación es una tecnología emergente con el potencial de transformar la forma en que enseñamos y aprendemos idiomas. Una de las facetas más importantes del aprendizaje de idiomas es la capacidad de pronunciar las palabras con precisión, y es aquí donde entra en juego la nueva función de Evaluación de Pronunciación de Azure Cognitive Speech Service. Otra oportunidad clave es el desarrollo de voces bilingües sintéticas para experiencias de aprendizaje de idiomas mediante Custom Neural Voice, además de nuestras capacidades de texto a voz.

  1. Pronunciation Assessment

Esta característica innovadora tiene como objetivo brindar retroalimentación instantánea a los usuarios sobre la exactitud, fluidez y entonación de su habla al aprender un nuevo idioma. Utilizando los modelos Azure Neural Text-to-Speech y Transformer, junto con la regresión ordinal y una estructura jerárquica, este servicio mejora la precisión en la evaluación a nivel de palabras. Actualmente, está disponible en más de 10 idiomas, como inglés estadounidense, inglés británico, inglés australiano, francés, español y chino, y se están agregando más idiomas en versión de prueba.

La función de Evaluación de Pronunciación ofrece múltiples beneficios para educadores, proveedores de servicios y estudiantes:

  • Para los educadores, proporciona una retroalimentación instantánea, eliminando la necesidad de realizar evaluaciones orales que consumen mucho tiempo, y ofrece evaluaciones coherentes y completas.
  • Para los proveedores de servicios, ofrece capacidades en tiempo real de alta calidad, un servicio cognitivo de habla global y respalda el crecimiento del negocio a nivel mundial.
  • Para los estudiantes y aprendices, brinda una forma conveniente de practicar y recibir retroalimentación, evaluaciones autorizadas para compararlas con la pronunciación nativa y ayuda a seguir el orden exacto del texto en frases largas o documentos completos.

La Evaluación de Pronunciación es una herramienta poderosa para el aprendizaje y la enseñanza de idiomas. Al aprovechar tecnologías de IA como TTS, Transformer y Regresión Ordinal, brinda retroalimentación instantánea y precisa sobre la pronunciación del habla. Con su amplia variedad de idiomas compatibles y su capacidad para funcionar en entornos con recursos limitados, ofrece a los estudiantes de idiomas de todos los niveles la oportunidad de mejorar sus habilidades lingüísticas. Mediante la Evaluación de Pronunciación, los educadores pueden ofrecer una experiencia de aprendizaje más atractiva y accesible, los proveedores de servicios pueden mejorar la productividad de los clientes en el ámbito educativo, y los estudiantes pueden practicar de manera más conveniente en cualquier momento y lugar.

La Evaluación de Pronunciación del habla se utiliza en Reading Coach en Immersive Reader y en el Progreso del Orador en Microsoft Teams. Esta función puede utilizarse tanto dentro como fuera del aula, lo que permite a los profesores ahorrar tiempo y mejorar los resultados de aprendizaje en fluidez de lectura, y está disponible para todos los estudiantes, sin importar sus necesidades de accesibilidad.

  1. Speech-to-Text

Durante una conversación de aprendizaje, es natural que los profesores y los estudiantes de idiomas mezclen su idioma nativo con el idioma que están aprendiendo. Azure Speech to Text brinda soporte para la identificación en tiempo real de idiomas en escenarios de aprendizaje de idiomas multilingües, lo que ayuda a mejorar la comprensión y el contexto legible en las interacciones entre personas.

Para desarrollar nuevos idiomas de conversión de voz a texto (STT), se han utilizado las últimas tecnologías de modelado multilingüe y técnicas de transferencia de aprendizaje basadas en una amplia cantidad de datos. Estos modelos han sido entrenados en acústica y conocimiento lingüístico en diferentes idiomas, lo que les permite manejar tanto la dictación como la conversación en una variedad de dominios lingüísticos. La salida generada incluye normalización de texto inversa (ITN), capitalización (cuando es apropiado) y puntuación automática, lo que mejora la legibilidad del texto resultante. Los desarrolladores pueden integrar fácilmente estos idiomas en sus proyectos utilizando una API de transmisión en tiempo real o mediante transcripciones por lotes. Los beneficios de utilizar un modelo unificado para todos los idiomas son evidentes desde el principio.

  1. Prebuilt and Custom Neural Voice (CNV)

La tecnología de voz neural (Texto a Voz) puede leer materiales de aprendizaje de manera natural y empoderar el aprendizaje autodirigido en cualquier momento y lugar. Microsoft Azure AI ofrece más de 449 voces neuronales predefinidas en 147 idiomas y variantes para habilitar a los usuarios con capacidades de lectura en voz alta por parte de un profesor de IA, capacidades de lectura de contenido y mucho más.

Custom Neural Voice (CNV) es una característica ofrecida por Azure AI que permite a los usuarios crear una voz sintética única y personalizada para sus aplicaciones. Esta función utiliza muestras de voz humana como datos de entrenamiento para generar una voz con un sonido altamente natural para una marca o personajes específicos. Las empresas educativas están utilizando esta tecnología para personalizar el aprendizaje de idiomas, creando personajes únicos con voces distintas que se adapten a la cultura y antecedentes de su público objetivo. Por ejemplo, Duolingo utilizó Custom Neural Voice para dar vida a nueve nuevos personajes dentro de la plataforma de aprendizaje de idiomas, mientras que Pearson lo utilizó para mejorar la evaluación de pronunciación. CNV se basa en la tecnología de texto a voz neuronal y permite a los usuarios crear voces sintéticas que poseen diversos estilos de habla, se adaptan a diferentes idiomas y son altamente adaptables. La voz resultante es realista y de sonido natural, lo que resulta ideal para representar marcas y personificar máquinas en interacciones conversacionales con los usuarios.

La aplicación de la inteligencia artificial en la educación y, en particular, en los servicios de voz, está ganando cada vez más importancia debido a su capacidad para mejorar significativamente la experiencia de aprendizaje y la efectividad de la enseñanza. Algunos servicios de voz, como Azure Pronunciation Assessment y Custom Neural Voice, se centran en la personalización, automatización y análisis de diferentes plataformas educativas, lo que puede conducir a un mayor compromiso y éxito para los estudiantes. Para aquellos que quieren mejorar su pronunciación y fluidez en un nuevo idioma, estos servicios ofrecen una retroalimentación instantánea sobre la exactitud, fluidez y completitud del habla, lo que hace que la evaluación del lenguaje sea más atractiva y accesible. Además, la integración de la IA permite a los educadores personalizar la experiencia de aprendizaje y brindar retroalimentación y recomendaciones personalizadas que se enfocan en las necesidades individuales de cada estudiante. En resumen, la aplicación de la IA en la educación puede empoderar a los estudiantes y ayudarles a desarrollar todo su potencial.