Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/zh

    From Marovi AI

    是否微調大型語言模型(LLMs)?這是一個關鍵決策,涉及在使用基礎模型與領域特定定製之間的平衡。對於LLMs來說,沒有一種通用的解決方案。一些用例可能適合使用基礎模型,而另一些則需要定製。在考慮定製時,有多種選擇,包括提示工程、P-tuning、參數高效微調(PEFT)和完全微調(FT)。微調需要在數據標註、訓練和評估方面進行大量投資,這些過程都可能耗時且成本高昂。自動化測試和質量評估過程對於確保在定製LLMs時的效率和準確性至關重要。圖3展示了我們在NVHelp bot領域的約245個查詢中,比較OpenAI的GPT-4模型與一些開源模型的準確性與延遲權衡評估。我們的結果顯示,Llama3-70B模型在保持可接受延遲的同時,在多個方面的答案質量上表現出色。