一、从一次深夜调试说起
上周在部署一个巡检机器人Agent时遇到个怪事:白天训练时明明收敛得很好,晚上换了个新车间环境,Agent直接“失忆”了——遇到之前解决过的问题又开始瞎撞。查了一夜日志才发现,新数据进来后把旧经验全冲掉了,模型就像个金鱼,只有七秒记忆。
这个问题让我重新审视Agent的“学习”机制。我们总希望Agent能持续进化,但如果没有合适的记忆管理,学得快忘得也快。今天要聊的经验回放(Experience Replay)和持续学习(Continual Learning),就是解决这个痛点的关键组件。
二、经验回放:不只是个缓存队列
很多人把经验回放简单理解成“把数据存起来再抽样”,其实这里面门道不少。先看一个我早期写残的版本:
classNaiveReplayBuffer:def__init__(self,capacity=