谷歌研究院创建了一个名为「BIG-Bench Mistake」的专用基准数据集,用于评估大语言模型的出错概率和自我纠错能力。研究人员通过在 BIG-Bench 基准测试任务中运行 PaLM 语言模型,并修改其生成的思维链轨迹,形成了包含 255 项逻辑错误的数据集。测试结果显示,虽然大部分语言模型能识别并修正推理过程中的逻辑错误,但效果尚不理想,通常需人工干预。谷歌认为,专有小型模型可用于监督大型模型,以提高纠错能力、降低 AI 部署成本。
谷歌研究院创建了一个名为「BIG-Bench Mistake」的专用基准数据集,用于评估大语言模型的出错概率和自我纠错能力。研究人员通过在 BIG-Bench 基准测试任务中运行 PaLM 语言模型,并修改其生成的思维链轨迹,形成了包含 255 项逻辑错误的数据集。测试结果显示,虽然大部分语言模型能识别并修正推理过程中的逻辑错误,但效果尚不理想,通常需人工干预。谷歌认为,专有小型模型可用于监督大型模型,以提高纠错能力、降低 AI 部署成本。