Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/zh

是否微调大型语言模型（LLMs）？这是一个关键决策，涉及在使用基础模型与领域特定定制之间的平衡。对于LLMs来说，没有一种通用的解决方案。一些用例可能适合使用基础模型，而另一些则需要定制。在考虑定制时，有多种选择，包括提示工程、P-tuning、参数高效微调（PEFT）和完全微调（FT）。微调需要在数据标注、训练和评估方面进行大量投资，这些过程都可能耗时且成本高昂。自动化测试和质量评估过程对于确保在定制LLMs时的效率和准确性至关重要。图3展示了我们在NVHelp bot领域的约245个查询中，比较OpenAI的GPT-4模型与一些开源模型的准确性与延迟权衡评估。我们的结果显示，Llama3-70B模型在保持可接受延迟的同时，在多个方面的答案质量上表现出色。