Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/ja: Difference between revisions

    From Marovi AI
    (Importing a new version from external source)
     
    (No difference)

    Latest revision as of 07:13, 20 February 2025

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (FACTS About Building Retrieval Augmented Generation-based Chatbots)
    '''To Fine-tune LLMs or not?''' A key decision is whether to fine-tune LLMs, balancing the use of foundational models with domain-specific customizations. One size doesn’t fit all when it comes to LLMs. Some use cases may work well with foundational models, while others require customization. When considering customization, several options are available, including prompt engineering, P-tuning, parameter-efficient fine-tuning (PEFT), and full fine-tuning (FT). Fine-tuning requires significant investment in data labeling, training, and evaluations, each of which can be time-consuming and costly. Automating testing and quality evaluation processes become critical to ensuring efficiency and accuracy when customizing LLMs. Figure [[#S3.F3|3]] shows the accuracy vs latency tradeoff evaluations we have done comparing OpenAI’s GPT-4 model with some of the open-source models on about 245 queries from NVHelp bot domain. Our results show that the Llama3-70B model excels in several aspects of answer quality while maintaining acceptable latency.

    LLMをファインチューニングするか否か? 重要な決定は、基盤モデルの使用とドメイン固有のカスタマイズのバランスを取るために、LLMをファインチューニングするかどうかです。LLMに関しては、一つのサイズがすべてに適合するわけではありません。基盤モデルでうまく機能するユースケースもあれば、カスタマイズが必要なものもあります。カスタマイズを検討する際には、プロンプトエンジニアリング、Pチューニング、パラメータ効率の良いファインチューニング(PEFT)、および完全なファインチューニング(FT)など、いくつかのオプションがあります。ファインチューニングには、データラベリング、トレーニング、評価への多大な投資が必要であり、それぞれが時間とコストを要する可能性があります。LLMをカスタマイズする際には、テストと品質評価プロセスの自動化が効率と精度を確保するために重要になります。図3は、OpenAIのGPT-4モデルといくつかのオープンソースモデルをNVHelpボットドメインの約245のクエリで比較した際の精度対レイテンシーのトレードオフ評価を示しています。我々の結果は、Llama3-70Bモデルが回答の質のいくつかの側面で優れており、許容可能なレイテンシーを維持していることを示しています。