第373章 算法突围与“蜂群”初舞(1/2)
联合实验室,“群体智能协同算法组”的工作区。与“平台组”的机床轰鸣、“数据链组”的频谱仪闪烁不同,这里更安静,只有服务器风扇的低沉嗡鸣和键盘敲击声。然而,平静之下是思维的激烈碰撞和代码世界的无声交锋。
首月演示的成功——微型机器人集群完成简单目标包围——只是一个起点。军地双方对算法的要求迅速提高:场景复杂度增加(从空旷平地到有简单障碍物的环境);目标行为模式多变(匀速、变速、随机转向、甚至故意躲避);集群规模需要扩大(从几十个到规划中的上百、上千);还必须加入通信延迟、丢包、部分节点随机失效等“现实干扰”。
军方代表,算法组的副组长孙少校(一位精于作战建模和仿真推演的技术军官),对“黑箱”学习算法始终抱有审慎的怀疑。“李工,”他对“启明”方面的算法负责人李明博士说,“你们那个多智能体强化学习训练出的策略,在仿真里表现惊艳,能做出一些我们预设规则想不到的迂回包抄。但问题也在这里——我们不知道它为什么这么做,更不知道在某种极端边缘情况下,它会不会突然做出完全错误甚至危险的决策。在战场上,不可解释的‘智能’有时比愚蠢更可怕。”
李明博士扶了扶眼镜,他理解孙少校的顾虑,这也是学术界和工业界应用强化学习时面临的共同难题。“孙组长,您说得对。所以我们设计的‘分层融合’框架,就是把学习框定在安全范围内。让学习算法只在高层决策、参数微调等非安全关键层面发挥作用,而且它的输出必须经过一个‘合理性校验’模块,才能转化为实际控制指令。同时,我们也在研究‘可解释性ai’技术,尝试对学习到的策略进行事后分析,提取出一些人类可以理解的规则模式。”
“事后分析不够,我们需要一定程度的事中可预测。”孙少校坚持道。
双方的拉锯持续了数日。直到一次“压力测试”演示,带来了转机。
演示环境升级为模拟一片有稀疏障碍物(代表树木、矮墙)的区域。目标是两个移动速度不同、偶尔会利用障碍物遮挡的模拟“入侵者”。集群规模扩大到五十个微型机器人。李明团队尝试将新训练的一个协作策略(主要针对多目标分工和障碍规避)嵌入到框架高层。
演示开始。前几十秒,集群表现良好,自动分成了两拨,分别追踪两个目标,并能灵活绕开障碍物。但突然,一个目标急转弯躲到一个障碍物后,几台负责追踪它的机器人由于视角遮挡,暂时丢失目标。按照预设规则,它们应该扩大搜索范围或向同伴请求信息。但高层学习策略此时却产生了一个“奇特”的指令:让这几台机器人突然转向,加速朝另一个目标所在的、已经有不少机器人的区域冲去。
“它们在干什么?!”孙少校皱紧眉头。
监控屏幕显示,这几台机器人的“异常”移动,打乱了另一个追踪小组的阵型,甚至引发了小范围的局部拥堵和碰撞风险。虽然底层规则最终抑制了碰撞,整体追踪效率却明显下降。
演示结束。李明博士脸色有些不好看,但他没有回避:“问题出现了。我们分析日志。”
经过紧张的数据分析,他们发现了原因:在学习训练时,模拟环境中两个目标距离通常较远,一个目标丢失后,学习算法发现“与其浪费时间寻找,不如去帮另一个小组尽快抓住那个目标,整体收益更高”。这个策略在训练场景下是“聪明”的。但在刚才的演示中,两个目标距离较近,这个策略就变成了“添乱”。
“看,这就是问题。”孙少校指着分析报告,“学习算法过度拟合了训练环境的某种隐含假设(目标间距大)。环境一变,它就‘懵了’。”
本章未完,点击下一页继续阅读。