Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/46/pt

Modelos Maiores Vs. Menores: Modelos LLMs comerciais maiores e modelos LLMs de código aberto menores estão se tornando cada vez mais viáveis para muitos casos de uso, oferecendo assim alternativas econômicas para as empresas. À medida que os modelos de código aberto se aproximam dos modelos comerciais maiores, eles estão oferecendo uma precisão comparável, como demonstrado em nossa avaliação empírica do bot NVHelp na Figura 3, e geralmente apresentam melhor desempenho de latência em comparação com modelos maiores. Além disso, a otimização de modelos de inferência em GPUs pode acelerar ainda mais os tempos de processamento. Modelos de código aberto otimizados com as bibliotecas de inferência Tensor RT-LLM da NVIDIA, por exemplo, mostraram desempenho mais rápido do que modelos não otimizados. Essas estratégias ajudam a equilibrar a necessidade de eficiência de custos com a manutenção de altos padrões de desempenho e segurança.