基于信息势场奖励函数的多智能体双向协调网络（BiCNet-IPF）

自动导引车(AGV)已广泛应用于柔性车间的物料搬运。在制造车间，每个产品往往需要多种原材料来完成装配，利用AGV可以实现不同位置原材料的自动搬运。在AGV与环境的交互过程中，需要对AGV的动作表现给出一个正确的评价，如何设计适当的奖励函数来提高任务完成率和加速模型收敛是多智能体深度强化学习算法需要解决的一个关键问题。针对以上问题，作者团队创新性引入信息势场（Information Potential Field）改进奖励函数，根据当前状态的货物分布与AGV分布计算出信息势值，隐式指导AGV自组织分散地到达不同目标点。此外，采用多智能体双向协调网络BiCNet进行模型训练，所有智能体共享模型和参数，并在隐藏层建立通信信道实现通信，从而达到多智能体的高效协作。

该模型基于Python3.6+的pytorch实现，输入多智能体强化学习算法（如BiCNet）、智能体数量与场景，可以输出各个智能体的决策动作，实现多个智能体自组织、自协调的任务分配。在代码的实现过程中，参考了BiCNet、IPF等第三方开源资源。

算法名称	BiCNet-IPF
算法接口	python main.py --algo --agent_num --scenario
输入	MADRL算法（BiCNet），智能体数量，场景
输出	各智能体的决策动作
依赖库	Python 3.6+、torch、numpy、pygame
参考资源	BiCNet、IPF

gitlab链接：BiCNet-IPF · GitLab (crowdhmt.com)

发表于 2021-07-09 22:48
阅读 ( 2106 )
分类：群智能体分布式学习

基于信息势场奖励函数的多智能体双向协调网络（BiCNet-IPF）

你可能感兴趣的文章

相关问题

1 条评论

作家榜 »