Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/fr: Difference between revisions

Latest revision as of 07:25, 20 February 2025

Information about message (contribute)

This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.

Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)

'''To Fine-tune LLMs or not?''' A key decision is whether to fine-tune LLMs, balancing the use of foundational models with domain-specific customizations. One size doesn’t fit all when it comes to LLMs. Some use cases may work well with foundational models, while others require customization. When considering customization, several options are available, including prompt engineering, P-tuning, parameter-efficient fine-tuning (PEFT), and full fine-tuning (FT). Fine-tuning requires significant investment in data labeling, training, and evaluations, each of which can be time-consuming and costly. Automating testing and quality evaluation processes become critical to ensuring efficiency and accuracy when customizing LLMs. Figure [[#S3.F3|3]] shows the accuracy vs latency tradeoff evaluations we have done comparing OpenAI’s GPT-4 model with some of the open-source models on about 245 queries from NVHelp bot domain. Our results show that the Llama3-70B model excels in several aspects of answer quality while maintaining acceptable latency.

Faut-il affiner les LLMs ou non ? Une décision clé est de savoir s'il faut affiner les LLMs, en équilibrant l'utilisation des modèles de base avec des personnalisations spécifiques au domaine. Une seule solution ne convient pas à tous lorsqu'il s'agit de LLMs. Certains cas d'utilisation peuvent bien fonctionner avec des modèles de base, tandis que d'autres nécessitent une personnalisation. Lorsqu'on envisage la personnalisation, plusieurs options sont disponibles, y compris l'ingénierie des invites, le P-tuning, l'affinage efficace des paramètres (PEFT) et l'affinage complet (FT). L'affinage nécessite un investissement significatif dans l'étiquetage des données, la formation et les évaluations, chacun pouvant être chronophage et coûteux. L'automatisation des processus de test et d'évaluation de la qualité devient cruciale pour garantir l'efficacité et la précision lors de la personnalisation des LLMs. La figure 3 montre les évaluations du compromis entre précision et latence que nous avons effectuées en comparant le modèle GPT-4 d'OpenAI avec certains des modèles open-source sur environ 245 requêtes du domaine NVHelp bot. Nos résultats montrent que le modèle Llama3-70B excelle dans plusieurs aspects de la qualité des réponses tout en maintenant une latence acceptable.