PromptAgent 的核心观点是将提示词优化视为一个策略性规划问题,并采用一种基于蒙特卡洛树搜索的原则性规划算法,策略性地导航专家级提示词空间。受到人类试错探索的启发,PromptAgent通过反思模型的错误并生成有建设性的错误反馈,诱导出精确的专家级见解和深入的指令。这种新颖的框架允许智能体迭代地检查中间提示词(状态),基于错误反馈(行为)对其进行细化,模拟未来的回报,并寻找通往专家提示词的高回报路径。我们将PromptAgent应用于跨越三个实际领域的12个任务:BIG-Bench Hard (BBH)、特定领域的NLP任务以及通用的NLP任务,结果显示它显著地超越了强大的Chain-of-Thought以及最近的提示词优化基线。深入的分析强调了其制定专家级、详细和富有领域洞察力的提示词的高效性和普适性。