LLM的推理能力与链式思考 (Helping LLMs reason and plan with chain-of-thought)

黎 浩然/ 28 11 月, 2023/ 大语言模型/LARGELANGUAGEMODEL/LLM, 机器学习/MACHINELEARNING, 研究生/POSTGRADUATE, 计算机/COMPUTER/ 0 comments

一、LLM在推理任务中的局限性

  • 大型语言模型(LLM)通常在执行多步推理或数学问题时表现不佳,即使在其他任务上有良好表现。
  • 举例说明:
    • 模型在解决多步骤的简单数学问题(例如计算餐厅剩余苹果数)时犯了错误。
    • 模型错误地得出27个苹果,实际答案应为9个。

二、提升LLM推理能力的方法:Chain-of-Thought Prompting

1. 什么是Chain-of-Thought Prompting?
  • 引导模型模仿人类的推理方式,将复杂问题分解为多个清晰的步骤逐步解决。
  • 通过提供中间推理步骤作为示范,让模型学习如何一步步地推导出正确答案。
2. 示例讲解
  • 以“Roger买网球”的示例为一-shot prompt:
    1. 初始状态:Roger原有5个网球。
    2. 新购入:2罐网球,每罐3个,总计6个。
    3. 计算:初始5个 + 新增6个 = 11个。
    4. 最终答案:Roger共有11个网球。
  • 当模型接受这种链式推理的prompt后,能更清晰地理解并准确解决类似问题。

三、Chain-of-Thought Prompting的应用效果

1. 苹果问题的重做(示例)
  • 使用链式思考重新设计prompt后,模型成功地进行以下推理步骤:
    1. 初始苹果数量。
    2. 减去用于午餐的苹果数量。
    3. 再加入后来购买的苹果数量。
    4. 最终模型给出正确答案(剩余9个苹果)。
2. 物理学问题示例
  • 问题:判断一个金戒指在游泳池中是否会下沉。
  • 推理步骤示例:
    1. 明确物体的密度概念。
    2. 指出金的密度大于水,因此得出戒指会下沉的结论。

四、Chain-of-Thought Prompting的优势与局限

  • 优势:显著提高模型在多步骤推理任务中的表现;帮助模型清晰地展示其推理过程。
  • 局限:虽然能改善推理过程,但LLM本身的数学能力依旧有限,不适合处理需要高度精确计算的任务(例如电子商务中的总额计算、税费计算或折扣计算)。

五、后续技术展望

  • 下一步将探索如何通过让LLM与更擅长数学运算的外部程序协作,进一步解决模型在精确计算方面的不足。

总结:Chain-of-Thought Prompting通过明确、逐步的中间步骤提示,帮助LLM模仿人类思维,更好地完成推理和计算任务,提升了其处理复杂问题的准确性和透明度。但当涉及精确计算时,仍需借助外部程序的辅助。

Share this Post

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注

*
*