Cómo agregar sus propios datos a un modelo de lenguaje grande

14/10/2023

Noticias IBL | Nueva York

Para crear un chatbot corporativo para atención al cliente, generar publicaciones personalizadas y materiales de marketing, o desarrollar una aplicación de automatización personalizada, el modelo de lenguaje grande (LLM) como GPT-4 debe incluir la capacidad de responder preguntas sobre datos privados.

Sin embargo, entrenar o reentrenar el modelo no es práctico debido a los costos, el tiempo y las preocupaciones de privacidad asociados con la combinación de conjuntos de datos, así como los posibles riesgos de seguridad.

Por lo general, el enfoque adoptado es la “inyección de contenido”, una técnica llamada “incrustación” que implica proporcionar al modelo información adicional de una base de datos de conocimiento deseada junto con la consulta del usuario.

Esta recopilación de datos puede incluir información del producto, documentos internos o información extraída de la web, interacciones con los clientes y conocimientos específicos de la industria.

En esta etapa, es esencial considerar la privacidad y la seguridad de los datos, garantizando que la información confidencial se maneje de manera adecuada y de conformidad con la información relevante, como detalla la experta Shelly Palmer en una publicación.

Los datos que se van a integrar deben limpiarse y estructurarse para garantizar la compatibilidad con el modelo de IA.

Además, debe tokenizarse y convertirse a un formato adecuado configurando los índices correctos.

Una vez preprocesados los datos, el modelo de IA debe ajustarse y entrenarse previamente.

El siguiente paso es interactuar con la API. Los vectores de consulta se compararán con la base de datos, extrayendo el contenido que se inyectará.

La cantidad de tokens se calcula para conocer el costo. Por lo general, cada ficha corresponde a cuatro o cinco palabras en inglés.

Para ejecutar un esquema de inyección de contenido eficaz, se debe diseñar un mensaje. Este es un ejemplo de un mensaje:

“Usted es un empleado optimista y positivo de nuestra empresa. Lea las siguientes secciones de nuestra base de conocimientos y responda la pregunta utilizando únicamente la información proporcionada aquí. Si no tiene suficiente información para responder la pregunta de la base de conocimientos a continuación , responda al usuario con “Disculpas. No puedo brindarle asistencia”.

La inyección de contexto va aquí.

Las preguntas o aportes del usuario van aquí.”

Hay tres consideraciones más para una implementación correcta: Cualquier información de identificación personal (PII) debe ser anónima para proteger la privacidad de sus clientes y también garantizar el cumplimiento de las normas de protección de datos como GDPR (Reglamento General de Protección de Datos).

Medidas sólidas de control de acceso ayudarán a prevenir el acceso no autorizado y reducir el riesgo de violaciones de datos.

Monitoreo continuo para verificar si hay signos de sesgo u otras consecuencias no deseadas antes de que se intensifiquen.

• Respuesta del blog: Cómo entrenar sus propios modelos de lenguaje grandes

• Andreessen Horowitz: Navegando el alto coste de la computación con IA

El xAI de Elon Musk, “Grok 4”, fue lanzado en respuesta…

La editorial educativa McGraw-Hill presenta una solicitud para una Oferta Pública…

Microsoft proporcionará $4 mil millones a escuelas, colegios comunitarios, colegios técnicos…

El Sindicato de Profesores crea una Academia Nacional para la Instrucción…

Google ha implementado a nivel mundial su modelo de generación de…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

Cómo agregar sus propios datos a un modelo de lenguaje grande

Vídeos Actualidad

El gobierno de Trump enfrenta crecientes críticas por los archivos de Epstein

Trump dice que EEUU enviará misiles Patriot a Ucrania

La UE retrasa represalias arancelarias contra EEUU

Toros de Miura protagonizan el octavo y último encierro de los Sanfermines 2025

León XIV: “Para heredar la vida eterna hay que servir al prójimo”

AI y EdTech

The broader impact of AI in education

AI chatbot Grok apologizes for antisemitic posts

Teachers seeking instruction on AI in the classroom

What the tech? AI scam calls

How can we tackle AI’s endless thirst for water?