Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/4/es
Los chatbots empresariales, impulsados por IA generativa, están emergiendo rápidamente como las aplicaciones iniciales más exploradas de esta tecnología en la industria, con el objetivo de mejorar la productividad de los empleados. La Generación Aumentada por Recuperación (RAG), los Modelos de Lenguaje Grande (LLMs), y los marcos de orquestación de LLM como Langchain/Llamaindex sirven como componentes tecnológicos clave en la construcción de chatbots basados en IA generativa. Sin embargo, construir chatbots empresariales exitosos no es fácil. Requieren una ingeniería meticulosa de las canalizaciones RAG. Esto incluye el ajuste fino de incrustaciones semánticas y LLMs, la extracción de documentos relevantes de bases de datos vectoriales, la reformulación de consultas, la reordenación de resultados, el diseño de indicaciones efectivas, el respeto de los controles de acceso a documentos, la provisión de respuestas concisas, la inclusión de referencias pertinentes, la protección de información personal y la construcción de agentes para orquestar todas estas actividades. En este documento, presentamos un marco para construir chatbots efectivos basados en RAG basado en nuestra experiencia de primera mano al construir tres chatbots en NVIDIA: chatbots para beneficios de TI y RRHH, ganancias financieras de la empresa y contenido empresarial general. Nuestras contribuciones en este documento son triples. Primero, presentamos nuestro marco FACTS para construir chatbots empresariales basados en RAG que aborden los desafíos mencionados. El mnemotécnico FACTS se refiere a las cinco dimensiones que los chatbots basados en RAG deben acertar, a saber, frescura del contenido (F), arquitecturas (A), economía de costos de LLMs (C), pruebas (T) y seguridad (S). En segundo lugar, presentamos quince puntos de control de las canalizaciones RAG y técnicas para optimizar el rendimiento de los chatbots en cada etapa. Finalmente, presentamos resultados empíricos de nuestros datos empresariales sobre las compensaciones entre precisión y latencia entre grandes LLMs y pequeños LLMs. Hasta donde sabemos, este es el primer documento de su tipo que proporciona una visión holística de los factores, así como soluciones para construir chatbots empresariales seguros.