El modelo de IA de código abierto de Meta que introdujo la conversión de texto a voz en más de 1100 idiomas

El modelo de IA de código abierto de Meta que introdujo la conversión de texto a voz en más de 1100 idiomas

Noticias IBL | Nueva York

Meta lanzó esta semana como software de código abierto un modelo de IA llamado Massively Multilingual Speech (MMS) que puede reconocer más de 4000 idiomas hablados y produce texto a voz en más de 1100 idiomas.

Hoy en día, los modelos de reconocimiento de voz existentes solo cubren aproximadamente 100 idiomas, una fracción de los más de 7000 idiomas conocidos que se hablan en el planeta.

Las máquinas con la capacidad de reconocer y producir el habla pueden hacer que la información sea accesible para muchas más personas, incluidas aquellas que dependen completamente de la voz para acceder a la información.

Los modelos de reconocimiento de voz y texto a voz generalmente requieren capacitación en miles de horas de audio con etiquetas de transcripción adjuntas.

“A través de este trabajo, esperamos hacer una pequeña contribución para preservar la increíble diversidad lingüística del mundo”, dijo Meta.

Meta combinó wav2vec 2.0, en sí mismo -aprendizaje supervisado y un nuevo conjunto de datos que proporciona datos etiquetados para más de 1100 idiomas y datos no etiquetados para casi 4000 idiomas.

Para recopilar datos de audio de miles de idiomas, Meta recurrió a textos religiosos, como la Biblia, que se han traducido a muchos idiomas diferentes y cuyas traducciones se han estudiado ampliamente para la investigación de traducción de idiomas basada en texto.

Estas traducciones tienen grabaciones de audio disponibles públicamente de personas que leen estos textos en diferentes idiomas. Como parte de este proyecto, Meta creó un conjunto de datos de lecturas del Nuevo Testamento en más de 1100 idiomas, que proporcionó, en promedio, 32 horas de datos por idioma.

Al considerar grabaciones no etiquetadas de otras lecturas religiosas cristianas, Meta aumentó el número de idiomas disponibles a más de 4000.

“También visualizamos un futuro en el que un solo modelo puede resolver varias tareas de voz para todos los idiomas. Si bien entrenamos modelos separados para reconocimiento de voz, síntesis de voz e identificación de idiomas, creemos que en el futuro, un solo modelo será capaz de realizar todas estas tareas y más, lo que conduce a un mejor rendimiento general”, dijo Meta.