Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/29/zh
是否微调大型语言模型(LLMs)?这是一个关键决策,涉及在使用基础模型与领域特定定制之间的平衡。对于LLMs来说,没有一种通用的解决方案。一些用例可能适合使用基础模型,而另一些则需要定制。在考虑定制时,有多种选择,包括提示工程、P-tuning、参数高效微调(PEFT)和完全微调(FT)。微调需要在数据标注、训练和评估方面进行大量投资,这些过程都可能耗时且成本高昂。自动化测试和质量评估过程对于确保在定制LLMs时的效率和准确性至关重要。图3展示了我们在NVHelp bot领域的约245个查询中,比较OpenAI的GPT-4模型与一些开源模型的准确性与延迟权衡评估。我们的结果显示,Llama3-70B模型在保持可接受延迟的同时,在多个方面的答案质量上表现出色。