Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/pt
Ajustar ou não ajustar os LLMs? Uma decisão crucial é se deve ajustar os LLMs, equilibrando o uso de modelos fundamentais com personalizações específicas de domínio. Um único modelo não atende a todas as necessidades quando se trata de LLMs. Alguns casos de uso podem funcionar bem com modelos fundamentais, enquanto outros exigem personalização. Ao considerar a personalização, várias opções estão disponíveis, incluindo engenharia de prompts, P-tuning, ajuste fino eficiente em parâmetros (PEFT) e ajuste fino completo (FT). O ajuste fino requer um investimento significativo em rotulagem de dados, treinamento e avaliações, cada um dos quais pode ser demorado e caro. Automatizar os processos de teste e avaliação de qualidade torna-se crítico para garantir eficiência e precisão ao personalizar LLMs. A Figura 3 mostra as avaliações de tradeoff entre precisão e latência que fizemos comparando o modelo GPT-4 da OpenAI com alguns dos modelos de código aberto em cerca de 245 consultas do domínio do bot NVHelp. Nossos resultados mostram que o modelo Llama3-70B se destaca em vários aspectos da qualidade das respostas, mantendo uma latência aceitável.