Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/46/de

Größere vs. kleinere Modelle: Größere kommerzielle LLMs und kleinere Open-Source-LLMs werden zunehmend für viele Anwendungsfälle praktikabel und bieten damit kostengünstige Alternativen für Unternehmen. Da Open-Source-Modelle mit größeren kommerziellen Modellen aufholen, bieten sie zunehmend eine vergleichbare Genauigkeit, wie in unserer empirischen Bewertung des NVHelp-Bots in Abbildung 3 gezeigt, und haben im Allgemeinen eine bessere Latenzleistung im Vergleich zu größeren Modellen. Darüber hinaus kann die GPU-Optimierung von Inferenzmodellen die Verarbeitungszeiten weiter beschleunigen. Open-Source-Modelle, die mit NVIDIAs Tensor RT-LLM-Inferenzbibliotheken optimiert wurden, haben beispielsweise eine schnellere Leistung gezeigt als nicht optimierte Modelle. Diese Strategien helfen, die Notwendigkeit von Kosteneffizienz mit der Aufrechterhaltung hoher Leistungs- und Sicherheitsstandards in Einklang zu bringen.