Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/es
¿Afinar o no afinar los LLMs? Una decisión clave es si afinar los LLMs, equilibrando el uso de modelos fundamentales con personalizaciones específicas del dominio. No hay una solución única para todos cuando se trata de LLMs. Algunos casos de uso pueden funcionar bien con modelos fundamentales, mientras que otros requieren personalización. Al considerar la personalización, hay varias opciones disponibles, incluyendo la ingeniería de prompts, P-tuning, afinación de parámetros eficiente (PEFT) y afinación completa (FT). Afinar requiere una inversión significativa en etiquetado de datos, entrenamiento y evaluaciones, cada uno de los cuales puede ser costoso y consumir mucho tiempo. Automatizar los procesos de prueba y evaluación de calidad se vuelve crítico para garantizar la eficiencia y precisión al personalizar los LLMs. La Figura 3 muestra las evaluaciones de la compensación entre precisión y latencia que hemos realizado comparando el modelo GPT-4 de OpenAI con algunos de los modelos de código abierto en aproximadamente 245 consultas del dominio del bot NVHelp. Nuestros resultados muestran que el modelo Llama3-70B sobresale en varios aspectos de la calidad de las respuestas mientras mantiene una latencia aceptable.