针对部分可观测、奖励稀疏的多智能体系统场景,解决多智能体强化学习算法收敛困难,智能体策略水平低下(lazy agent)的问题:设计了一种分层的内在奖励机制(HIRM),核心在于基于分层机制实现智能体内在奖励的平衡。具体地,顶层奖励平衡器负责平衡智能体的不同内在奖励,输出智能体的奖励权重数值P;底层动作控制器负责智能体对象的基础动作的策略训练与执行,输出离散的移动动作:直行、左转以及右转等。同时将HIRM应用于多 AGV调度场景,提出了分布式多智能体调度算法HIRM-BiCNet,解决传统集中式调度的局限性问题,显著地提高了调度成功率。
HIRM-BiCNet算法是基于Python3.6环境下的pytorch、gym等依赖库开发。算法输入为智能体数量与场景大小,输出为有协作性的智能体调度动作。该算法支持在同构智能体设计下的多车配送场景的训练与测试,目前正在进行异构智能体设计的场景拓展。在代码的实现过程中,参考了BiCNet、Gym等第三方开源代码。
算法名称 | HIRM-BiCNet |
算法接口 | python ma_main.py --algo --mode --model_episode |
输入 | algo(BiCNet),mode(train/eval) |
输出 | 各个智能体的决策动作 |
依赖库 | Python 3.6+、pytorch、numpy、gym |
参考资源 | BiCNet |
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!