多智能体系统场景下的分层内在奖励机制

本文主要针对部分可观测、奖励稀疏的多智能体系统场景,解决多智能体强化学习算法收敛困难,智能体策略水平低下(lazy agent)的问题:设计了一种分层的内在奖励机制(HIRM),核心在于基于分层机制实现智能体内在奖励的平衡

针对部分可观测、奖励稀疏的多智能体系统场景,解决多智能体强化学习算法收敛困难,智能体策略水平低下(lazy agent)的问题:设计了一种分层的内在奖励机制(HIRM),核心在于基于分层机制实现智能体内在奖励的平衡。具体地,顶层奖励平衡器负责平衡智能体的不同内在奖励,输出智能体的奖励权重数值P;底层动作控制器负责智能体对象的基础动作的策略训练与执行,输出离散的移动动作:直行、左转以及右转等同时将HIRM应用于多 AGV调度场景,提出了分布式多智能体调度算法HIRM-BiCNet,解决传统集中式调度的局限性问题,显著地提高了调度成功率。

HIRM-BiCNet算法是基于Python3.6环境下的pytorchgym等依赖库开发。算法输入为智能体数量与场景大小,输出为有协作性的智能体调度动作。该算法支持在同构智能体设计下的多车配送场景的训练与测试,目前正在进行异构智能体设计的场景拓展。在代码的实现过程中,参考了BiCNetGym等第三方开源代码。


算法名称

HIRM-BiCNet

算法接口

python ma_main.py --algo --mode --model_episode

输入

algo(BiCNet)mode(train/eval)

输出

各个智能体的决策动作

依赖库

Python 3.6+、pytorch、numpy、gym

参考资源

BiCNet

Gitlab链接:HIRM · GitLab (crowdhmt.com)

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
LH
LH

14 篇文章

作家榜 »

  1. Panda-admin 37 文章
  2. 解弘艺 17 文章
  3. 高曾谊 16 文章
  4. 胡中天 14 文章
  5. 旺仔牛奶opo 14 文章
  6. LH 14 文章
  7. 罗柏荣 13 文章
  8. 林晨 12 文章