ChatGPT comienza a incluir conversación de voz y comprensión de imágenes

26/09/2023

Noticias IBL | Nueva York

OpenAI anunció ayer que comenzó a agregar nuevas capacidades de conversación de voz e imagen en ChatGPT.

ChatGPT Plus y Enterprises de pago verán estas funciones en las próximas dos semanas.

ChatGPT incluye una nueva interfaz lista para tomar imágenes y tener conversaciones en vivo.

La empresa proporcionó este ejemplo: Cuando estés en casa, toma fotografías de tu refrigerador y despensa para saber qué hay para cenar (y haz preguntas de seguimiento para obtener una receta paso a paso). Después de la cena, ayude a su hijo con un problema de matemáticas tomándole una fotografía, rodeando el conjunto de problemas y pidiéndole que comparta pistas con ambos.

Voice también estará disponible en iOS y Android (haz clic en tu configuración) y las imágenes estarán disponibles en todas las plataformas.

Para comenzar con la voz, el usuario debe dirigirse a Configuración → Nuevas funciones en la aplicación móvil y optar por conversaciones de voz.

La nueva capacidad de voz está impulsada por un nuevo modelo de conversión de texto a voz, capaz de generar voces similares a las humanas a partir de solo texto y unos pocos segundos de muestra de voz.

OpenAI colaboró con actores de doblaje profesionales para crear cada una de las voces.

La empresa también utiliza Whisper, su sistema de reconocimiento de voz de código abierto, para transcribir las palabras habladas en texto.

Además, ChatGPT funciona con comprensión de imagen, habilitada por GPT-3.5 y GPT-4 multimodales. Estos modelos aplican sus habilidades de razonamiento lingüístico a una amplia gama de imágenes, como fotografías, capturas de pantalla y documentos que contienen texto e imágenes.

Un ejemplo proporcionado señala esto: “Solucione el problema por el cual su parrilla no arranca, explore el contenido de su refrigerador para planificar una comida o analice un gráfico complejo para datos relacionados con el trabajo. Para centrarse en una parte específica de la imagen , puedes utilizar la herramienta de dibujo en nuestra aplicación móvil”.

OpenAI anunció que ya está colaborando con Spotify para poner a prueba su Función de traducción de voz, que ayuda a los podcasters a traducir podcasts a idiomas adicionales con sus propias voces.

Con respecto a estos avances, OpenAI dijo que su “objetivo es crear AGI que sea segura y beneficiosa. Creemos en hacer que nuestras herramientas estén disponibles gradualmente, lo que nos permite realizar mejoras y refinar las mitigaciones de riesgos con el tiempo y al mismo tiempo preparar a todos para más sistemas potentes en el futuro. Esta estrategia se vuelve aún más importante con modelos avanzados que involucran voz y visión.”

OpenAI lanza su suscripción de bajo costo ‘ChatGPT Go’ disponible a…

Una empresa que proporciona cálculo en un entorno aislado para operar…

‘OpenClaw’ se convierte en un marco popular para construir asistentes de…

Anthropic ha lanzado su modelo más inteligente, ‘Claude Opus 4.6’

Google actualiza el navegador Chrome con las capacidades del agente de…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

ChatGPT comienza a incluir conversación de voz y comprensión de imágenes

Vídeos Actualidad

Hillary Clinton acusa a la administración Trump de “encubrir” los archivos de Epstein

El reverendo Jesse Jackson, ícono de los derechos civiles, muere a los 84 años

EEUU: Entra en vigor el cierre parcial del gobierno

Marco Rubio advierte a líderes europeos sobre los peligros del declive occidental

Delcy Rodríguez dice que Maduro es “inocente” y “legítimo” líder de Venezuela

AI y EdTech

AI chatbots to be included in online UK safety laws

Anthropic in disagreement with pentagon over AI surveillance

AI’s rapid development sparks resignations from industry heavyweights

Could AI become smarter than humans?

Fashion’s embrace of AI sparks backlash among models, customers