Linux系统搭建Atari强化学习环境【Mujoco200 + Mujoco-py2.0.2.13 + gym0.15.3 + DeepMind Lab + dmc2gym】

Atari是最经典最常用的离散动作空间强化学习环境,常作为离散动作空间强化学习算法的基准测试环境。Atari可以方便地更改颜色、替换背景、增加干扰物,从而考验强化学习算法的环境适应能力。因此...

  • 0
  • 1
  • 小方
  • 发布于 2023-01-26 13:14
  • 阅读 ( 1769 )

基于知识迁移的群智能体协作高效学习方法(UPDeT)

基于知识迁移的群智能体协作高效学习方法(UPDeT)

  • 0
  • 1
  • mingze
  • 发布于 2021-07-10 22:32
  • 阅读 ( 1847 )

事件元知识迁移的社交网络假消息检测算法(MetaDetector)

事件元知识迁移的社交网络假消息检测算法(MetaDetector)

  • 0
  • 1
  • mingze
  • 发布于 2021-07-10 22:23
  • 阅读 ( 1581 )

论文分享——零样本知识蒸馏用于联邦类增量学习

论文链接:https://arxiv.org/abs/2303.06937 发表会议:ICCV 2023 TARGET: Federated Class-Continual Learning via Exemplar-Free Distillation 1.摘要 现有的很多联邦学习方法都是应用在...

  • 0
  • 0
  • 李瑶
  • 发布于 2024-01-23 00:09
  • 阅读 ( 1563 )

联邦迁移学习分享(二)

典型的联邦迁移学习定义在纵向联邦学习背景下,但目前在横向联邦学习框架下,应用迁移学习的研究工作也很多。 现有的联邦学习方法已经在保护各参与方数据隐私性的同时保证了较好的模型训练效果...

强化学习论文分享--整合的层级化强化学习

Intelligent problem-solving as integrated hierarchical reinforcement learning 论文链接:https://arxiv.org/pdf/2208.08731 发表会议:Nature Machine Intelligence, 2022 摘要 认知心...

  • 0
  • 0
  • 李梦媛
  • 发布于 2023-02-13 16:15
  • 阅读 ( 1294 )

强化学习论文分享--SimPLe

Model Based Reinforcement Learning for Atari 论文链接:https://arxiv.org/pdf/1903.00374 代码链接:https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl 发表会...

  • 0
  • 0
  • 李梦媛
  • 发布于 2023-02-13 15:48
  • 阅读 ( 1106 )

强化学习论文分享--UPDeT

## UPDeT: Universal multi-agent reinforcement learning via policy decoupling with transformers 论文链接:https://arxiv.org/pdf/2101.08001 代码链接:[Theohhhu/UPDeT: Official...

  • 0
  • 0
  • 李梦媛
  • 发布于 2023-02-13 15:23
  • 阅读 ( 1509 )

联邦迁移学习分享(一)

现有的联邦学习方法(横向和纵向联邦学习)要求所有的参与方具有相同的特征空间或样本空间,从而建立起一个有效的共享机器学习模型。        但是,在更多的实际情况下,各个参与方拥有的数据...

real2sim方法总结

对现有的real2sim的一些方法进行总结介绍。

  • 0
  • 0
  • 郝肇铁
  • 发布于 2022-07-26 09:35
  • 阅读 ( 1302 )

跨边缘联邦持续学习算法(Cross-FCL)

联邦学习(Federated Learning, FL)是一种新兴的分布式训练框架,可以在满足用户对隐私安全的需求的同时集聚不同参与设备的学习能力,构建一个比本地模型更强大的全局模型。随着一些时延敏感...

  • 0
  • 0
  • LH
  • 发布于 2022-05-22 10:29
  • 阅读 ( 1848 )

基于迁移学习的少样本表面缺陷检测方法(TL-SDD)

基于迁移学习的少样本表面缺陷检测方法(TL-SDD)

  • 0
  • 0
  • mingze
  • 发布于 2021-07-10 22:29
  • 阅读 ( 1652 )

基于元迁移学习的社交媒体假消息检测算法(MDN)

基于元迁移学习的社交媒体假消息检测算法(MDN)

  • 0
  • 0
  • mingze
  • 发布于 2021-07-10 22:26
  • 阅读 ( 1519 )

基于用户和群体的多行为交互的问题推荐方法(AskMe)

基于用户和群体的多行为交互的问题推荐方法(AskMe)

  • 0
  • 0
  • mingze
  • 发布于 2021-07-10 22:20
  • 阅读 ( 1805 )

基于元学习方法的多城市知识融合商业选址推荐方法(MetaStore)

基于元学习方法的多城市知识融合商业选址推荐方法(MetaStore)

  • 0
  • 0
  • mingze
  • 发布于 2021-07-10 22:18
  • 阅读 ( 975 )

基于多维图神经网络的跨场景推荐算法(MGNN)

基于多维图神经网络的跨场景推荐算法(MGNN)

  • 0
  • 0
  • mingze
  • 发布于 2021-07-10 22:14
  • 阅读 ( 1862 )