谷歌PLAN-TUNING:针对复杂问题的逐步规划
中文标题: PLAN-TUNING: 训练后语言模型学习复杂问题解决的逐步规划
机构: Google \ Arizona State University
摘要: 最近,将复杂问题分解为简单子任务——这是类人自然规划的关键部分——以解决给定问题,显著提升了大语言模型(LLMs)的性能。
然而,在训练后利用这种规划结构来提升较小的开源大语言模型的性能,仍有待深入探索。
受此启发,他们引入了 PLANTUNING,这是一个统一的训练后框架,该框架(i)从大规模大语言模型中提炼出合成任务分解(称为“规划轨迹”),并且(ii)通过旨在模仿这些规划过程的监督学习和强化学习目标对较小模型进行微调,以提高复杂推理能力。狗宝助手认为,在 GSM 8 k 和 MATH 基准测试中,经过 PLANTUNING 的模型平均比强大的基线模型性能高出约 7%。此外,经过规划微调的模型在域外数据集上表现出更好的泛化能力,在 OlympiadBench 和 AIME 2024 上的性能平均分别提升约 10%和约 12%。
他们详细分析展示了规划轨迹如何提高复杂推理能力,狗宝助手了解到 PLANTUNING 是提高较小大语言模型特定任务性能的一种有效策略。