ChatGPT comienza a incluir conversaci贸n de voz y comprensi贸n de im谩genes

ChatGPT comienza a incluir conversaci贸n de voz y comprensi贸n de im谩genes

Noticias IBL | Nueva York

OpenAI anunci贸 ayer que comenz贸 a agregar nuevas capacidades de conversaci贸n de voz e imagen en ChatGPT.

ChatGPT Plus y Enterprises de pago ver谩n estas funciones en las pr贸ximas dos semanas.

ChatGPT incluye una nueva interfaz lista para tomar im谩genes y tener conversaciones en vivo.

La empresa proporcion贸 este ejemplo:聽Cuando est茅s en casa, toma fotograf铆as de tu refrigerador y despensa para saber qu茅 hay para cenar (y haz preguntas de seguimiento para obtener una receta paso a paso). Despu茅s de la cena, ayude a su hijo con un problema de matem谩ticas tom谩ndole una fotograf铆a, rodeando el conjunto de problemas y pidi茅ndole que comparta pistas con ambos.

Voice tambi茅n estar谩 disponible en iOS y Android (haz clic en tu configuraci贸n) y las im谩genes estar谩n disponibles en todas las plataformas.

Para comenzar con la voz, el usuario debe dirigirse a Configuraci贸n 鈫 Nuevas funciones en la aplicaci贸n m贸vil y optar por conversaciones de voz.

La nueva capacidad de voz est谩 impulsada por un nuevo modelo de conversi贸n de texto a voz, capaz de generar voces similares a las humanas a partir de solo texto y unos pocos segundos de muestra de voz.

OpenAI colabor贸 con actores de doblaje profesionales para crear cada una de las voces.

La empresa tambi茅n utiliza Whisper, su sistema de reconocimiento de voz de c贸digo abierto, para transcribir las palabras habladas en texto.

Adem谩s, ChatGPT funciona con comprensi贸n de imagen, habilitada por GPT-3.5 y GPT-4 multimodales. Estos modelos aplican sus habilidades de razonamiento ling眉铆stico a una amplia gama de im谩genes, como fotograf铆as, capturas de pantalla y documentos que contienen texto e im谩genes.

Un ejemplo proporcionado se帽ala esto: “Solucione el problema por el cual su parrilla no arranca, explore el contenido de su refrigerador para planificar una comida o analice un gr谩fico complejo para datos relacionados con el trabajo. Para centrarse en una parte espec铆fica de la imagen , puedes utilizar la herramienta de dibujo en nuestra aplicaci贸n m贸vil”.

 

OpenAI anunci贸 que ya est谩 colaborando con Spotify para poner a prueba su Funci贸n de traducci贸n de voz, que ayuda a los podcasters a traducir podcasts a idiomas adicionales con sus propias voces.

Con respecto a estos avances, OpenAI dijo que su “objetivo es crear AGI que sea segura y beneficiosa. Creemos en hacer que nuestras herramientas est茅n disponibles gradualmente, lo que nos permite realizar mejoras y refinar las mitigaciones de riesgos con el tiempo y al mismo tiempo preparar a todos para m谩s sistemas potentes en el futuro. Esta estrategia se vuelve a煤n m谩s importante con modelos avanzados que involucran voz y visi贸n.”