Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/4/fr: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 07:25, 20 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    Enterprise chatbots, powered by generative AI, are rapidly emerging as the most explored initial applications of this technology in the industry, aimed at enhancing employee productivity. Retrieval Augmented Generation (RAG), Large Language Models (LLMs), Langchain/Llamaindex types of LLM orchestration frameworks serve as key technological components in building generative-AI based chatbots. However, building successful enterprise chatbots is not easy. They require meticulous engineering of RAG pipelines. This includes fine-tuning semantic embeddings and LLMs, extracting relevant documents from vector databases, rephrasing queries, reranking results, designing effective prompts, honoring document access controls, providing concise responses, including pertinent references, safeguarding personal information, and building agents to orchestrate all these activities. In this paper, we present a framework for building effective RAG-based chatbots based on our first-hand experience of building three chatbots at NVIDIA: chatbots for IT and HR benefits, company financial earnings, and general enterprise content. Our contributions in this paper are three-fold. First, we introduce our FACTS framework for building enterprise-grade RAG-based chatbots that address the challenges mentioned. FACTS mnemonic refers to the five dimensions that RAG-based chatbots must get right - namely content freshness (F), architectures (A), cost economics of LLMs (C), testing (T), and security (S). Second, we present fifteen control points of RAG pipelines and techniques for optimizing chatbots’ performance at each stage. Finally, we present empirical results from our enterprise data on the accuracy-latency tradeoffs between large LLMs vs small LLMs. To the best of our knowledge, this is the first paper of its kind that provides a holistic view of the factors as well as solutions for building secure enterprise-grade chatbots.

    Les chatbots d'entreprise, alimentés par l'IA générative, émergent rapidement comme les applications initiales les plus explorées de cette technologie dans l'industrie, visant à améliorer la productivité des employés. La génération augmentée par récupération (RAG), les modèles de langage de grande taille (LLM), les types de cadres d'orchestration LLM Langchain/Llamaindex servent de composants technologiques clés dans la construction de chatbots basés sur l'IA générative. Cependant, construire des chatbots d'entreprise réussis n'est pas facile. Ils nécessitent une ingénierie méticuleuse des pipelines RAG. Cela inclut le réglage fin des embeddings sémantiques et des LLM, l'extraction de documents pertinents à partir de bases de données vectorielles, la reformulation des requêtes, le reclassement des résultats, la conception de prompts efficaces, le respect des contrôles d'accès aux documents, la fourniture de réponses concises, l'inclusion de références pertinentes, la protection des informations personnelles et la création d'agents pour orchestrer toutes ces activités. Dans cet article, nous présentons un cadre pour construire des chatbots efficaces basés sur RAG, basé sur notre expérience directe de la construction de trois chatbots chez NVIDIA : des chatbots pour les avantages IT et RH, les résultats financiers de l'entreprise et le contenu général de l'entreprise. Nos contributions dans cet article sont triples. Premièrement, nous introduisons notre cadre FACTS pour construire des chatbots d'entreprise basés sur RAG qui répondent aux défis mentionnés. Le mnémonique FACTS se réfère aux cinq dimensions que les chatbots basés sur RAG doivent maîtriser - à savoir la fraîcheur du contenu (F), les architectures (A), l'économie des coûts des LLM (C), les tests (T) et la sécurité (S). Deuxièmement, nous présentons quinze points de contrôle des pipelines RAG et des techniques pour optimiser la performance des chatbots à chaque étape. Enfin, nous présentons des résultats empiriques issus de nos données d'entreprise sur les compromis précision-latence entre les grands LLM et les petits LLM. À notre connaissance, c'est le premier article de ce genre qui offre une vue d'ensemble des facteurs ainsi que des solutions pour construire des chatbots d'entreprise sécurisés.