Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/pt: Difference between revisions

Latest revision as of 07:30, 20 February 2025

Information about message (contribute)

This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.

Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)

'''To Fine-tune LLMs or not?''' A key decision is whether to fine-tune LLMs, balancing the use of foundational models with domain-specific customizations. One size doesn’t fit all when it comes to LLMs. Some use cases may work well with foundational models, while others require customization. When considering customization, several options are available, including prompt engineering, P-tuning, parameter-efficient fine-tuning (PEFT), and full fine-tuning (FT). Fine-tuning requires significant investment in data labeling, training, and evaluations, each of which can be time-consuming and costly. Automating testing and quality evaluation processes become critical to ensuring efficiency and accuracy when customizing LLMs. Figure [[#S3.F3|3]] shows the accuracy vs latency tradeoff evaluations we have done comparing OpenAI’s GPT-4 model with some of the open-source models on about 245 queries from NVHelp bot domain. Our results show that the Llama3-70B model excels in several aspects of answer quality while maintaining acceptable latency.

Ajustar ou não ajustar os LLMs? Uma decisão crucial é se deve ajustar os LLMs, equilibrando o uso de modelos fundamentais com personalizações específicas de domínio. Um único modelo não atende a todas as necessidades quando se trata de LLMs. Alguns casos de uso podem funcionar bem com modelos fundamentais, enquanto outros exigem personalização. Ao considerar a personalização, várias opções estão disponíveis, incluindo engenharia de prompts, P-tuning, ajuste fino eficiente em parâmetros (PEFT) e ajuste fino completo (FT). O ajuste fino requer um investimento significativo em rotulagem de dados, treinamento e avaliações, cada um dos quais pode ser demorado e caro. Automatizar os processos de teste e avaliação de qualidade torna-se crítico para garantir eficiência e precisão ao personalizar LLMs. A Figura 3 mostra as avaliações de tradeoff entre precisão e latência que fizemos comparando o modelo GPT-4 da OpenAI com alguns dos modelos de código aberto em cerca de 245 consultas do domínio do bot NVHelp. Nossos resultados mostram que o modelo Llama3-70B se destaca em vários aspectos da qualidade das respostas, mantendo uma latência aceitável.