Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/de: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 07:23, 20 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    '''To Fine-tune LLMs or not?''' A key decision is whether to fine-tune LLMs, balancing the use of foundational models with domain-specific customizations. One size doesn’t fit all when it comes to LLMs. Some use cases may work well with foundational models, while others require customization. When considering customization, several options are available, including prompt engineering, P-tuning, parameter-efficient fine-tuning (PEFT), and full fine-tuning (FT). Fine-tuning requires significant investment in data labeling, training, and evaluations, each of which can be time-consuming and costly. Automating testing and quality evaluation processes become critical to ensuring efficiency and accuracy when customizing LLMs. Figure [[#S3.F3|3]] shows the accuracy vs latency tradeoff evaluations we have done comparing OpenAI’s GPT-4 model with some of the open-source models on about 245 queries from NVHelp bot domain. Our results show that the Llama3-70B model excels in several aspects of answer quality while maintaining acceptable latency.

    Sollten LLMs feinabgestimmt werden oder nicht? Eine wichtige Entscheidung ist, ob LLMs feinabgestimmt werden sollen, wobei das Gleichgewicht zwischen der Nutzung von Grundmodellen und domänenspezifischen Anpassungen gewahrt werden muss. Einheitslösungen passen nicht immer, wenn es um LLMs geht. Einige Anwendungsfälle funktionieren gut mit Grundmodellen, während andere Anpassungen erfordern. Bei der Betrachtung von Anpassungen stehen mehrere Optionen zur Verfügung, darunter Prompt-Engineering, P-Tuning, parameter-effizientes Fein-Tuning (PEFT) und vollständiges Fein-Tuning (FT). Fein-Tuning erfordert erhebliche Investitionen in die Datenkennzeichnung, das Training und die Evaluierungen, die jeweils zeitaufwändig und kostspielig sein können. Die Automatisierung von Test- und Qualitätsbewertungsprozessen wird entscheidend, um Effizienz und Genauigkeit bei der Anpassung von LLMs sicherzustellen. Abbildung 3 zeigt die von uns durchgeführten Bewertungen des Kompromisses zwischen Genauigkeit und Latenzzeit, bei denen wir das GPT-4-Modell von OpenAI mit einigen der Open-Source-Modelle anhand von etwa 245 Anfragen aus dem NVHelp-Bot-Bereich verglichen haben. Unsere Ergebnisse zeigen, dass das Llama3-70B-Modell in mehreren Aspekten der Antwortqualität herausragt, während es eine akzeptable Latenz beibehält.