Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/46/pt: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 07:30, 20 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    '''Bigger Vs. Smaller Models''': Larger, commercial LLMs, smaller open source LLMs are increasingly becoming viable for many use cases, thereby offering cost effective alternatives to companies. As open-source models are catching up with larger, commercial models, they are increasingly offering close-comparable accuracy, as demonstrated in our NVHelp bot empirical evaluation in Figure [[#S3.F3|3]], and generally have better latency performance compared to larger models. Additionally, GPU optimization of inference models can further speed up processing times. Open-source models optimized with NVIDIA’s Tensor RT-LLM inference libraries, for instance, have shown faster performance than non-optimized models. These strategies help balance the need for cost-efficiency with maintaining high performance and security standards.

    Modelos Maiores Vs. Menores: Modelos LLMs comerciais maiores e modelos LLMs de código aberto menores estão se tornando cada vez mais viáveis para muitos casos de uso, oferecendo assim alternativas econômicas para as empresas. À medida que os modelos de código aberto se aproximam dos modelos comerciais maiores, eles estão oferecendo uma precisão comparável, como demonstrado em nossa avaliação empírica do bot NVHelp na Figura 3, e geralmente apresentam melhor desempenho de latência em comparação com modelos maiores. Além disso, a otimização de modelos de inferência em GPUs pode acelerar ainda mais os tempos de processamento. Modelos de código aberto otimizados com as bibliotecas de inferência Tensor RT-LLM da NVIDIA, por exemplo, mostraram desempenho mais rápido do que modelos não otimizados. Essas estratégias ajudam a equilibrar a necessidade de eficiência de custos com a manutenção de altos padrões de desempenho e segurança.