OpenAI ha lanzado una API en tiempo real para construir agentes de voz

OpenAI ha lanzado una API en tiempo real para construir agentes de voz

IBL News | Nueva York

OpenAI ha puesto su API en tiempo real a disposición del público en general esta semana, lo que permite a los desarrolladores construir agentes de voz. Esta API admite servidores MCP remotos, entradas de imágenes y llamadas telefónicas a través del Protocolo de Inicio de Sesión de Sesiones (SIP), lo que hace que los agentes de voz sean más capaces al tener acceso a herramientas y contextos adicionales.

La compañía también lanzó su modelo de habla a habla más avanzado hasta ahora: gpt-realtime.

El nuevo modelo sigue instrucciones complejas, muestra un razonamiento más sólido, produce habla que suena más natural y expresiva y es mejor interpretando mensajes del sistema y solicitudes de los desarrolladores.


“El nuevo modelo de habla a habla en la API en tiempo real de OpenAI podría hacer que buscar una casa en Zillow o explorar opciones de financiamiento se sienta tan natural como una conversación con un amigo, ayudando a simplificar decisiones como comprar, vender y alquilar una casa.”

Las compañías de inteligencia artificial están en la carrera por ofrecer agentes de voz que hablen con la entonación, emoción y ritmo de un humano.