IBL News | Nueva York
OpenAI presentó ayer una vista previa de investigación de su agente de inteligencia artificial de propósito general, un operador que puede tomar el control de un navegador web y realizar acciones de forma independiente. El costo es de $200 al mes en un plan de suscripción profesional para usuarios de pago en los Estados Unidos.
Este movimiento es el primer intento de OpenAI en la próxima economía agéntica, con herramientas que automatizan y realizan acciones en nombre de los humanos.
“The Powering Operator es un Agente que Utiliza Computadora (CUA), un modelo que combina las capacidades de visión de GPT-4o con un razonamiento avanzado a través del aprendizaje por refuerzo. CUA está entrenado para interactuar con interfaces de usuario gráficas (GUI) -los botones, menús y campos de texto que las personas ven en una pantalla- tal como lo harían los humanos. Esto le proporciona la flexibilidad para realizar tareas digitales sin utilizar APIs específicas de sistema operativo o web,” explicó el laboratorio de investigación con sede en San Francisco.
Operator combina percepción avanzada de GUI con resolución estructurada de problemas. Divide las tareas en planes de múltiples pasos y se auto corrige de forma adaptativa. El modelo busca la confirmación del usuario para ingresar detalles de inicio de sesión o responder a formularios CAPTCHA.
En otras palabras, Operator puede utilizar botones, navegar por menús y completar formularios en una página web de la misma manera que lo haría un humano.
OpenAI dice que está colaborando con empresas como DoorDash, eBay, Instacart, Priceline, StubHub y Uber para asegurar que Operator respete los acuerdos de los términos de servicio de estas empresas.
Estos son algunos de los ejemplos que OpenAI proporcionó para ilustrar el alcance de Operator.
• “Buscar en Britannica un mapa detallado de los hábitats de osos. Ahora revisa los enlaces de osos negro, marrón y polar y proporciona un resumen general conciso de sus características físicas, específicamente sus diferencias. Ah, y guarda los enlaces para que pueda acceder a ellos rápidamente.”
• “Quiero una de esas ofertas de Target. ¿Puedes verificar si tienen una oferta en los refrescos prebióticos de poppi? Si la hay, quiero el sabor de sandía en lata de 12fl oz. Obtén el tipo de oferta que viene con esto y verifica si es sin gluten.”
• “Estoy planeando mudarme a Seattle y quiero que busques en Redfin una casa adosada con al menos 3 habitaciones, 2 baños y un diseño eficiente en energía (por ejemplo, paneles solares o certificación LEED). Mi presupuesto está entre $600,000 – $800,000 y idealmente debería estar cerca de 1500 pies cuadrados.”
La semana pasada, OpenAI lanzó Tasks, brindando a ChatGPT funciones de automatización simples como establecer recordatorios y programar avisos para que se ejecuten a una hora establecida todos los días.
“El próximo desafío que planeamos explorar es expandir el espacio de acciones de los agentes,” dijo OpenAI.
OpenAI ha sido lento en desarrollar un agente de IA en comparación con rivales como Google o Anthropic.