Factores críticos al orquestar un modelo de lenguaje grande optimizado (LLM)

Factores críticos al orquestar un modelo de lenguaje grande optimizado (LLM)

Noticias IBL | Nueva York

Al elegir y orquestar un LLM, existen muchos factores técnicos críticos, como datos de capacitación, filtrado de conjuntos de datos, proceso de ajuste fino, capacidades, latencia, requisitos técnicos y precio.

Los expertos afirman que implementar una API LLM, como GPT-4 u otras, no es la única opción.

Como una tecnología que cambia de paradigma y con un ritmo de innovación muy rápido, se proyecta que el mercado de LLM y procesamiento de lenguaje natural alcanzar los 91.000 millones de dólares en 2030 creciendo a una CAGR del 27 %.

Más allá del recuento de parámetros, hallazgos recientes demostraron que los modelos más pequeños entrenados con más datos son igual de efectivos e incluso pueden conducir a grandes ganancias en latencia y una reducción significativa en los requisitos de hardware. En otras palabras, el recuento de parámetros más grande no es lo que importa.

Los datos de entrenamiento deben incluir conversaciones, juegos y experiencias inmersivas relacionadas con el tema en lugar de crear modelos de propósito general que supieran un poco sobre todo. Por ejemplo, un modelo cuyos datos de entrenamiento son 90 % de documentos médicos se desempeña mejor en tareas médicas que un modelo mucho más grande donde los documentos médicos solo representan el 10 % de su conjunto de datos.

En términos de filtrado de conjuntos de datos, ciertos tipos de contenido deben eliminarse para reducir la toxicidad y el sesgo. OpenAI recientemente confirmó que, por ejemplo, se filtró contenido erótico.

También es importante crear vocabularios basados en la frecuencia con la que aparecen las palabras, eliminando conversaciones coloquiales y conjuntos de datos de jerga común.

Los modelos deben ajustarse con precisión para garantizar la precisión de la información y evitar información falsa en el conjunto de datos.

Los LLM no se comercializan y algunos modelos tienen capacidades únicas. GPT-4 acepta entradas multimodales como videos y fotos y escribe 25,000 palabras a la vez mientras mantiene el contexto. PaLM de Google puede generar texto, imágenes, código, videos, audio, etc.

Otros modelos pueden proporcionar expresiones faciales y voz.

La latencia de inferencia es mayor en los modelos con más parámetros, lo que agrega milisegundos adicionales entre la consulta y la respuesta, lo que afecta significativamente las aplicaciones en tiempo real.

La investigación de Google encontró que solo medio segundo de latencia adicional hace que el tráfico disminuya en un 20%.

Para una latencia baja o en tiempo real, muchos casos de uso, como pronósticos financieros o videojuegos, no se pueden cumplir con un LLM independiente. Se requiere la orquestación de múltiples modelos, funciones especializadas o automatización adicional, para texto a voz, reconocimiento automático de voz (ASR), visión artificial, memoria, etc.