Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/4/de: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 07:23, 20 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    Enterprise chatbots, powered by generative AI, are rapidly emerging as the most explored initial applications of this technology in the industry, aimed at enhancing employee productivity. Retrieval Augmented Generation (RAG), Large Language Models (LLMs), Langchain/Llamaindex types of LLM orchestration frameworks serve as key technological components in building generative-AI based chatbots. However, building successful enterprise chatbots is not easy. They require meticulous engineering of RAG pipelines. This includes fine-tuning semantic embeddings and LLMs, extracting relevant documents from vector databases, rephrasing queries, reranking results, designing effective prompts, honoring document access controls, providing concise responses, including pertinent references, safeguarding personal information, and building agents to orchestrate all these activities. In this paper, we present a framework for building effective RAG-based chatbots based on our first-hand experience of building three chatbots at NVIDIA: chatbots for IT and HR benefits, company financial earnings, and general enterprise content. Our contributions in this paper are three-fold. First, we introduce our FACTS framework for building enterprise-grade RAG-based chatbots that address the challenges mentioned. FACTS mnemonic refers to the five dimensions that RAG-based chatbots must get right - namely content freshness (F), architectures (A), cost economics of LLMs (C), testing (T), and security (S). Second, we present fifteen control points of RAG pipelines and techniques for optimizing chatbots’ performance at each stage. Finally, we present empirical results from our enterprise data on the accuracy-latency tradeoffs between large LLMs vs small LLMs. To the best of our knowledge, this is the first paper of its kind that provides a holistic view of the factors as well as solutions for building secure enterprise-grade chatbots.

    Enterprise-Chatbots, die von generativer KI angetrieben werden, tauchen schnell als die am meisten erforschten ersten Anwendungen dieser Technologie in der Industrie auf, mit dem Ziel, die Produktivität der Mitarbeiter zu steigern. Retrieval Augmented Generation (RAG), Large Language Models (LLMs), Langchain/Llamaindex-Typen von LLM-Orchestrierungs-Frameworks dienen als wichtige technologische Komponenten beim Aufbau von generativer KI-basierten Chatbots. Der Aufbau erfolgreicher Enterprise-Chatbots ist jedoch nicht einfach. Sie erfordern eine sorgfältige Entwicklung von RAG-Pipelines. Dazu gehört das Feinabstimmen semantischer Einbettungen und LLMs, das Extrahieren relevanter Dokumente aus Vektordatenbanken, das Umformulieren von Anfragen, das Neurangieren von Ergebnissen, das Entwerfen effektiver Eingabeaufforderungen, das Einhalten von Dokumentenzugriffskontrollen, das Bereitstellen prägnanter Antworten, das Einbeziehen relevanter Referenzen, das Schützen persönlicher Informationen und das Erstellen von Agenten zur Orchestrierung all dieser Aktivitäten. In diesem Papier präsentieren wir ein Framework zum Aufbau effektiver RAG-basierter Chatbots basierend auf unseren eigenen Erfahrungen beim Aufbau von drei Chatbots bei NVIDIA: Chatbots für IT- und HR-Vorteile, Unternehmensfinanzergebnisse und allgemeine Unternehmensinhalte. Unsere Beiträge in diesem Papier sind dreifach. Erstens stellen wir unser FACTS-Framework für den Aufbau von Enterprise-Grade RAG-basierten Chatbots vor, das die genannten Herausforderungen adressiert. FACTS-Mnemonik bezieht sich auf die fünf Dimensionen, die RAG-basierte Chatbots richtig machen müssen - nämlich Inhaltsaktualität (F), Architekturen (A), Kostenökonomie von LLMs (C), Tests (T) und Sicherheit (S). Zweitens präsentieren wir fünfzehn Kontrollpunkte von RAG-Pipelines und Techniken zur Optimierung der Leistung von Chatbots in jeder Phase. Schließlich präsentieren wir empirische Ergebnisse aus unseren Unternehmensdaten zu den Genauigkeits-Latenz-Abwägungen zwischen großen LLMs und kleinen LLMs. Soweit wir wissen, ist dies das erste Papier seiner Art, das einen ganzheitlichen Überblick über die Faktoren sowie Lösungen für den Aufbau sicherer Enterprise-Grade-Chatbots bietet.