Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/4/es: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 08:27, 19 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    Enterprise chatbots, powered by generative AI, are rapidly emerging as the most explored initial applications of this technology in the industry, aimed at enhancing employee productivity. Retrieval Augmented Generation (RAG), Large Language Models (LLMs), Langchain/Llamaindex types of LLM orchestration frameworks serve as key technological components in building generative-AI based chatbots. However, building successful enterprise chatbots is not easy. They require meticulous engineering of RAG pipelines. This includes fine-tuning semantic embeddings and LLMs, extracting relevant documents from vector databases, rephrasing queries, reranking results, designing effective prompts, honoring document access controls, providing concise responses, including pertinent references, safeguarding personal information, and building agents to orchestrate all these activities. In this paper, we present a framework for building effective RAG-based chatbots based on our first-hand experience of building three chatbots at NVIDIA: chatbots for IT and HR benefits, company financial earnings, and general enterprise content. Our contributions in this paper are three-fold. First, we introduce our FACTS framework for building enterprise-grade RAG-based chatbots that address the challenges mentioned. FACTS mnemonic refers to the five dimensions that RAG-based chatbots must get right - namely content freshness (F), architectures (A), cost economics of LLMs (C), testing (T), and security (S). Second, we present fifteen control points of RAG pipelines and techniques for optimizing chatbots’ performance at each stage. Finally, we present empirical results from our enterprise data on the accuracy-latency tradeoffs between large LLMs vs small LLMs. To the best of our knowledge, this is the first paper of its kind that provides a holistic view of the factors as well as solutions for building secure enterprise-grade chatbots.

    Los chatbots empresariales, impulsados por IA generativa, están emergiendo rápidamente como las aplicaciones iniciales más exploradas de esta tecnología en la industria, con el objetivo de mejorar la productividad de los empleados. La Generación Aumentada por Recuperación (RAG), los Modelos de Lenguaje Grande (LLMs), y los marcos de orquestación de LLM como Langchain/Llamaindex sirven como componentes tecnológicos clave en la construcción de chatbots basados en IA generativa. Sin embargo, construir chatbots empresariales exitosos no es fácil. Requieren una ingeniería meticulosa de las canalizaciones RAG. Esto incluye el ajuste fino de incrustaciones semánticas y LLMs, la extracción de documentos relevantes de bases de datos vectoriales, la reformulación de consultas, la reordenación de resultados, el diseño de indicaciones efectivas, el respeto de los controles de acceso a documentos, la provisión de respuestas concisas, la inclusión de referencias pertinentes, la protección de información personal y la construcción de agentes para orquestar todas estas actividades. En este documento, presentamos un marco para construir chatbots efectivos basados en RAG basado en nuestra experiencia de primera mano al construir tres chatbots en NVIDIA: chatbots para beneficios de TI y RRHH, ganancias financieras de la empresa y contenido empresarial general. Nuestras contribuciones en este documento son triples. Primero, presentamos nuestro marco FACTS para construir chatbots empresariales basados en RAG que aborden los desafíos mencionados. El mnemotécnico FACTS se refiere a las cinco dimensiones que los chatbots basados en RAG deben acertar, a saber, frescura del contenido (F), arquitecturas (A), economía de costos de LLMs (C), pruebas (T) y seguridad (S). En segundo lugar, presentamos quince puntos de control de las canalizaciones RAG y técnicas para optimizar el rendimiento de los chatbots en cada etapa. Finalmente, presentamos resultados empíricos de nuestros datos empresariales sobre las compensaciones entre precisión y latencia entre grandes LLMs y pequeños LLMs. Hasta donde sabemos, este es el primer documento de su tipo que proporciona una visión holística de los factores, así como soluciones para construir chatbots empresariales seguros.