Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/es: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 08:27, 19 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    '''To Fine-tune LLMs or not?''' A key decision is whether to fine-tune LLMs, balancing the use of foundational models with domain-specific customizations. One size doesn’t fit all when it comes to LLMs. Some use cases may work well with foundational models, while others require customization. When considering customization, several options are available, including prompt engineering, P-tuning, parameter-efficient fine-tuning (PEFT), and full fine-tuning (FT). Fine-tuning requires significant investment in data labeling, training, and evaluations, each of which can be time-consuming and costly. Automating testing and quality evaluation processes become critical to ensuring efficiency and accuracy when customizing LLMs. Figure [[#S3.F3|3]] shows the accuracy vs latency tradeoff evaluations we have done comparing OpenAI’s GPT-4 model with some of the open-source models on about 245 queries from NVHelp bot domain. Our results show that the Llama3-70B model excels in several aspects of answer quality while maintaining acceptable latency.

    ¿Afinar o no afinar los LLMs? Una decisión clave es si afinar los LLMs, equilibrando el uso de modelos fundamentales con personalizaciones específicas del dominio. No hay una solución única para todos cuando se trata de LLMs. Algunos casos de uso pueden funcionar bien con modelos fundamentales, mientras que otros requieren personalización. Al considerar la personalización, hay varias opciones disponibles, incluyendo la ingeniería de prompts, P-tuning, afinación de parámetros eficiente (PEFT) y afinación completa (FT). Afinar requiere una inversión significativa en etiquetado de datos, entrenamiento y evaluaciones, cada uno de los cuales puede ser costoso y consumir mucho tiempo. Automatizar los procesos de prueba y evaluación de calidad se vuelve crítico para garantizar la eficiencia y precisión al personalizar los LLMs. La Figura 3 muestra las evaluaciones de la compensación entre precisión y latencia que hemos realizado comparando el modelo GPT-4 de OpenAI con algunos de los modelos de código abierto en aproximadamente 245 consultas del dominio del bot NVHelp. Nuestros resultados muestran que el modelo Llama3-70B sobresale en varios aspectos de la calidad de las respuestas mientras mantiene una latencia aceptable.