Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/46/es: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 08:27, 19 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    '''Bigger Vs. Smaller Models''': Larger, commercial LLMs, smaller open source LLMs are increasingly becoming viable for many use cases, thereby offering cost effective alternatives to companies. As open-source models are catching up with larger, commercial models, they are increasingly offering close-comparable accuracy, as demonstrated in our NVHelp bot empirical evaluation in Figure [[#S3.F3|3]], and generally have better latency performance compared to larger models. Additionally, GPU optimization of inference models can further speed up processing times. Open-source models optimized with NVIDIA’s Tensor RT-LLM inference libraries, for instance, have shown faster performance than non-optimized models. These strategies help balance the need for cost-efficiency with maintaining high performance and security standards.

    Modelos Más Grandes Vs. Más Pequeños: Los LLMs comerciales más grandes y los LLMs de código abierto más pequeños están convirtiéndose cada vez más en opciones viables para muchos casos de uso, ofreciendo así alternativas rentables para las empresas. A medida que los modelos de código abierto se acercan a los modelos comerciales más grandes, están ofreciendo una precisión comparable, como se demuestra en nuestra evaluación empírica del bot NVHelp en la Figura 3, y generalmente tienen un mejor rendimiento de latencia en comparación con los modelos más grandes. Además, la optimización de modelos de inferencia en GPU puede acelerar aún más los tiempos de procesamiento. Los modelos de código abierto optimizados con las bibliotecas de inferencia Tensor RT-LLM de NVIDIA, por ejemplo, han mostrado un rendimiento más rápido que los modelos no optimizados. Estas estrategias ayudan a equilibrar la necesidad de rentabilidad con el mantenimiento de altos estándares de rendimiento y seguridad.