El modelo de IA de código abierto de Meta que introdujo la conversión de texto a voz en más de 1100 idiomas

24/05/2023

Noticias IBL | Nueva York

Meta lanzó esta semana como software de código abierto un modelo de IA llamado Massively Multilingual Speech (MMS) que puede reconocer más de 4000 idiomas hablados y produce texto a voz en más de 1100 idiomas.

Hoy en día, los modelos de reconocimiento de voz existentes solo cubren aproximadamente 100 idiomas, una fracción de los más de 7000 idiomas conocidos que se hablan en el planeta.

Las máquinas con la capacidad de reconocer y producir el habla pueden hacer que la información sea accesible para muchas más personas, incluidas aquellas que dependen completamente de la voz para acceder a la información.

Los modelos de reconocimiento de voz y texto a voz generalmente requieren capacitación en miles de horas de audio con etiquetas de transcripción adjuntas.

“A través de este trabajo, esperamos hacer una pequeña contribución para preservar la increíble diversidad lingüística del mundo”, dijo Meta.

Meta combinó wav2vec 2.0, en sí mismo -aprendizaje supervisado y un nuevo conjunto de datos que proporciona datos etiquetados para más de 1100 idiomas y datos no etiquetados para casi 4000 idiomas.

Para recopilar datos de audio de miles de idiomas, Meta recurrió a textos religiosos, como la Biblia, que se han traducido a muchos idiomas diferentes y cuyas traducciones se han estudiado ampliamente para la investigación de traducción de idiomas basada en texto.

Estas traducciones tienen grabaciones de audio disponibles públicamente de personas que leen estos textos en diferentes idiomas. Como parte de este proyecto, Meta creó un conjunto de datos de lecturas del Nuevo Testamento en más de 1100 idiomas, que proporcionó, en promedio, 32 horas de datos por idioma.

Al considerar grabaciones no etiquetadas de otras lecturas religiosas cristianas, Meta aumentó el número de idiomas disponibles a más de 4000.

“También visualizamos un futuro en el que un solo modelo puede resolver varias tareas de voz para todos los idiomas. Si bien entrenamos modelos separados para reconocimiento de voz, síntesis de voz e identificación de idiomas, creemos que en el futuro, un solo modelo será capaz de realizar todas estas tareas y más, lo que conduce a un mejor rendimiento general”, dijo Meta.

El Sindicato de Profesores crea una Academia Nacional para la Instrucción…

Google ha implementado a nivel mundial su modelo de generación de…

Mattel se asocia con OpenAI para producir juguetes y juegos impulsados…

Yahoo News, WSJ y Bloomberg introdujeron resúmenes de IA como parte…

Sesenta y ocho organizaciones apoyan la promesa de Trump de educar…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

El modelo de IA de código abierto de Meta que introdujo la conversión de texto a voz en más de 1100 idiomas

Vídeos Actualidad

Trump amenaza con imponer aranceles del 35% a Canadá

California: Redadas de ICE se tornan violentas tras enfrentamientos con manifestantes

EEUU: Juez bloquea orden de derechos de nacimiento de Trump tras fallo de la Corte Suprema

Brasil dice que tomará represalias si Trump cumple con su amenaza de aranceles del 50%

El quinto encierro de San Fermín 2025, protagonizado por los toros de Jandilla, fue limpio y veloz

AI y EdTech

AI browsers eye Google’s turf

Microsoft President Brad Smith: AI is influencing the types of workers who are hired

When AI has all the answers, what’s left for you?

What if your brain can’t tell the difference between human connection and AI interaction?

Canada at risk of falling behind in global AI race