由于需要人工响应验证,测试生成式人工智能解决方案可能是一个漫长的过程。越来越多地使用“LLM-as-a-judge”方法来应用大型语言模型。然而,建议在将大型语言模型作为人类代理时要谨慎,因为将大型语言模型作为评判者可能导致自我实现预言类型的情景,从而在评估中强化其固有的偏见。