小七姐:PromptAgent 论文精读翻译
小七姐:PromptAgent 论文精读翻译
2023年12月12日修改
本文为论文《PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization》的中文精校解读
PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization
提示词智能体:结合语言模型的策略性规划实现专家级提示词优化
摘要
高效的、针对特定任务的提示词往往由专家精心设计,整合详细的指令和领域见解,这基于对大型语言模型(LLM)的本能和目标任务的复杂性的深入了解。然而,如何自动化地生成这样的专家级提示词仍然是一个挑战。现有的提示词优化方法往往忽视领域知识的深度,且难以高效地探索专家级提示词的巨大空间。为了解决这一问题,我们提出了 PromptAgent,这是一种优化方法,可以自主地设计与专家手工制作的同等质量的提示词。
PromptAgent 的核心观点是将提示词优化视为一个策略性规划问题,并采用一种基于蒙特卡洛树搜索的原则性规划算法,策略性地导航专家级提示词空间。受到人类试错探索的启发,PromptAgent通过反思模型的错误并生成有建设性的错误反馈,诱导出精确的专家级见解和深入的指令。这种新颖的框架允许智能体迭代地检查中间提示词(状态),基于错误反馈(行为)对其进行细化,模拟未来的回报,并寻找通往专家提示词的高回报路径。我们将PromptAgent应用于跨越三个实际领域的12个任务:BIG-Bench Hard (BBH)、特定领域的NLP任务以及通用的NLP任务,结果显示它显著地超越了强大的Chain-of-Thought以及最近的提示词优化基线。深入的分析强调了其制定专家级、详细和富有领域洞察力的提示词的高效性和普适性。
1.
引言
提示词工程旨在为大型语言模型(LLM)制定有效的提示词,从而充分发挥其潜力。最近的自动提示词工程,即提示词优化,已经成功地研究了训练软提示词(Lester等人,2021;Hu等人,2021;Wang等人,2022),或者通过利用LLM的内部状态或梯度来寻找离散标记的最佳组合(Shin等人,2020;Deng等人,2022;Zhang等人,2022)。
对于像GPT-4(OpenAI,2023b)这样的尖端专有API基础的LLM,提示词工程主要依赖于某种特定的人机互动。因此,人类提示词专家需要对LLM的领域知识和直觉进行独特的融合,以设计出最有效的提示词。例如,如图1所示,来自人类专家的理想提示词可能会整合任务描述、领域知识、解决方案指导等细微元素,所有这些都大大提高了提示词的质量和性能。
附件不支持打印
图1:专家级提示词 vs. 普通人编写的提示词 以及 基于抽样方法的提示词(即,自动提示词工程,Zhou等人,2022)。该任务属于生物医学领域,用于提取疾病实体(NCBI,Do˘gan等人,2014)。专家提示词提供的领域特定详细信息和结构化指导比其他两者都要丰富得多,从而导致正确的预测。