ChatGPT comienza a incluir conversación de voz y comprensión de imágenes

ChatGPT comienza a incluir conversación de voz y comprensión de imágenes

Noticias IBL | Nueva York

OpenAI anunció ayer que comenzó a agregar nuevas capacidades de conversación de voz e imagen en ChatGPT.

ChatGPT Plus y Enterprises de pago verán estas funciones en las próximas dos semanas.

ChatGPT incluye una nueva interfaz lista para tomar imágenes y tener conversaciones en vivo.

La empresa proporcionó este ejemplo: Cuando estés en casa, toma fotografías de tu refrigerador y despensa para saber qué hay para cenar (y haz preguntas de seguimiento para obtener una receta paso a paso). Después de la cena, ayude a su hijo con un problema de matemáticas tomándole una fotografía, rodeando el conjunto de problemas y pidiéndole que comparta pistas con ambos.

Voice también estará disponible en iOS y Android (haz clic en tu configuración) y las imágenes estarán disponibles en todas las plataformas.

Para comenzar con la voz, el usuario debe dirigirse a Configuración → Nuevas funciones en la aplicación móvil y optar por conversaciones de voz.

La nueva capacidad de voz está impulsada por un nuevo modelo de conversión de texto a voz, capaz de generar voces similares a las humanas a partir de solo texto y unos pocos segundos de muestra de voz.

OpenAI colaboró con actores de doblaje profesionales para crear cada una de las voces.

La empresa también utiliza Whisper, su sistema de reconocimiento de voz de código abierto, para transcribir las palabras habladas en texto.

Además, ChatGPT funciona con comprensión de imagen, habilitada por GPT-3.5 y GPT-4 multimodales. Estos modelos aplican sus habilidades de razonamiento lingüístico a una amplia gama de imágenes, como fotografías, capturas de pantalla y documentos que contienen texto e imágenes.

Un ejemplo proporcionado señala esto: “Solucione el problema por el cual su parrilla no arranca, explore el contenido de su refrigerador para planificar una comida o analice un gráfico complejo para datos relacionados con el trabajo. Para centrarse en una parte específica de la imagen , puedes utilizar la herramienta de dibujo en nuestra aplicación móvil”.

 

  

OpenAI anunció que ya está colaborando con Spotify para poner a prueba su Función de traducción de voz, que ayuda a los podcasters a traducir podcasts a idiomas adicionales con sus propias voces.

Con respecto a estos avances, OpenAI dijo que su “objetivo es crear AGI que sea segura y beneficiosa. Creemos en hacer que nuestras herramientas estén disponibles gradualmente, lo que nos permite realizar mejoras y refinar las mitigaciones de riesgos con el tiempo y al mismo tiempo preparar a todos para más sistemas potentes en el futuro. Esta estrategia se vuelve aún más importante con modelos avanzados que involucran voz y visión.”