Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/46/fr: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 07:25, 20 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    '''Bigger Vs. Smaller Models''': Larger, commercial LLMs, smaller open source LLMs are increasingly becoming viable for many use cases, thereby offering cost effective alternatives to companies. As open-source models are catching up with larger, commercial models, they are increasingly offering close-comparable accuracy, as demonstrated in our NVHelp bot empirical evaluation in Figure [[#S3.F3|3]], and generally have better latency performance compared to larger models. Additionally, GPU optimization of inference models can further speed up processing times. Open-source models optimized with NVIDIA’s Tensor RT-LLM inference libraries, for instance, have shown faster performance than non-optimized models. These strategies help balance the need for cost-efficiency with maintaining high performance and security standards.

    Modèles Plus Grands Vs. Plus Petits: Les grands LLM commerciaux et les petits LLM open source deviennent de plus en plus viables pour de nombreux cas d'utilisation, offrant ainsi des alternatives rentables aux entreprises. Alors que les modèles open source rattrapent les modèles commerciaux plus grands, ils offrent de plus en plus une précision comparable, comme le démontre notre évaluation empirique du bot NVHelp dans la Figure 3, et ont généralement de meilleures performances de latence par rapport aux modèles plus grands. De plus, l'optimisation GPU des modèles d'inférence peut encore accélérer les temps de traitement. Les modèles open source optimisés avec les bibliothèques d'inférence Tensor RT-LLM de NVIDIA, par exemple, ont montré des performances plus rapides que les modèles non optimisés. Ces stratégies aident à équilibrer le besoin d'efficacité économique tout en maintenant des normes élevées de performance et de sécurité.