Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/46/fr

Modèles Plus Grands Vs. Plus Petits: Les grands LLM commerciaux et les petits LLM open source deviennent de plus en plus viables pour de nombreux cas d'utilisation, offrant ainsi des alternatives rentables aux entreprises. Alors que les modèles open source rattrapent les modèles commerciaux plus grands, ils offrent de plus en plus une précision comparable, comme le démontre notre évaluation empirique du bot NVHelp dans la Figure 3, et ont généralement de meilleures performances de latence par rapport aux modèles plus grands. De plus, l'optimisation GPU des modèles d'inférence peut encore accélérer les temps de traitement. Les modèles open source optimisés avec les bibliothèques d'inférence Tensor RT-LLM de NVIDIA, par exemple, ont montré des performances plus rapides que les modèles non optimisés. Ces stratégies aident à équilibrer le besoin d'efficacité économique tout en maintenant des normes élevées de performance et de sécurité.