场景自适应的在线多视图融合视频摘要方法研究 -- 相关工作分析(2)

场景自适应的在线多视图融合视频摘要方法研究 -- 相关工作分析

四、Online adaptation of RL

(一)场景自适应

不同文章怎么定义场景

Deep Reinforcement Learning for Automated Radiation Adaptation in Lung Cancer

  • 目标:根据历史治疗计划,为非小细胞肺癌(NSCLC)患者制定自动化放射适应协议,以最大限度地提高肿瘤局部控制率,降低放射性肺炎2(RP2)发病率
  • 场景:每个病人的特征不同,根据每个病人的特点调整放射剂量以改善治疗结果【不同患者】

Real-world Video Adaptation with Reinforcement Learning

  • 目标:通过调整视频比特率来优化视频的体验质量(QoE),以适应底层网络条件【使用RL自动学习高质量的自适应比特率(ABR)算法】
  • 场景:不同客户端网络吞吐量、回放缓冲区占用不同

Meta Reinforcement Learning for Sim-to-real Domain Adaptation

  • 目标:在不精确的动力学上训练的模型可以适应现实世界的环境,以弥补潜在的建模误差
  • 场景:考虑那些严重依赖于环境的动态参数的任务(在未知摩擦力下将冰球射到目标位置的任务)

zTT: Learning-based DVFS with Zero Thermal Throttling for Mobile Devices

  • 场景:

【应用层面】在运行手机游戏时,由于不同游戏CPUGPU的需求不同,它们的能量分配也需要相应改变。例如,在处理图形任务时,分配给GPU的资源比分配给CPU的资源更有效。分配过多的功耗给CPUGPU都会不必要地增加功耗和系统温度

【运行环境】移动设备会经历更复杂的热环境,例如用户移动性、保持方法和外部温度

VCMaker: Content-aware configuration adaptation for video streaming and analysis in live augmented reality

  • 目标:自适应地学习最佳视频配置,实现高精度,低延迟和低能耗对象检测AR应用
  • 场景:带宽的可变性,目标物体的时移移动速度,以及相邻帧之间的相似性(摄像头固定,连接wifi

(二)任务自适应

个性化视频摘要

   目标类型

   兴趣内容

   摘要长度

attachments-2023-02-1ZUJDOEF63f5cccded14b.png

五、RL accelerates convergence on mobile devices

RL中一个众所周知的挑战是信用分配问题,即奖励是稀疏的或暂时延迟的,因此很难将每个行动与奖励联系起来。由于只有全局可识别性奖励,我们的DQSN也存在这个问题,因为只有在一系列完整的行动之后才能生成单一的全局奖励,这不可避免地减慢了模型的收敛速度。【设计密集的奖励】

1)高效探索

Online deep reinforcement learning for computation offloading in blockchain-empowered mobile edge computing

attachments-2023-02-bEQtajbg63f5cceedef69.pngattachments-2023-02-1oIYR8fr63f5ccf691785.png

【与本文的区别】:此文解决的是高维动作空间导致模型收敛缓慢,本文的动作空间是有限的,是由高维的状态空间引起

2)知识迁移

zTT: learning-based DVFS with zero thermal throttling for mobile devices

采用迁移学习和使用历史数据的样本副本

   基于迁移学习的方法:这背后的想法是,即使环境发生变化,整个神经网络参数也只有少数会发生变化,因为模型的结构可能本质上是相似的。在实验中验证了基于DQN的算法在具有基本相同的神经网络参数(包括相同的输入和输出层,以及更新较小的参数)的变化环境中工作得相当好。

   使用历史数据样本副本

实验方法:

   基于迁移学习的方法:目的探讨迁移学习在减少适应时间方面对 jetson tx2的影响。图15显示了通过迁移学习附加知识(即,单独的应用程序、单独的环境以及应用程序和环境)来改善适应时间。结果表明,随着知识的增加,学习时间显著减少。

attachments-2023-02-0qFDn6pS63f5cd2c6ef8d.png

   使用历史数据样本副本:(1)验证副本数量的影响。在replay memory中复制特定的样本可以提高样本效率,但是由于所谓的样本不平衡问题会导致过拟合。(2)验证方法的有效性。结果表示即使只有一个样本拷贝,适应时间也减少了一半。

attachments-2023-02-XLMMno9463f5cd363dd10.png


Multi-agent Reinforcement Learning Improvement in a Dynamic Environment Using Knowledge Transfer

抽象状态空间+迁移Q-table

利用状态抽象,可以忽略状态空间中不相关的特征,减少状态空间的大小

attachments-2023-02-q9ETcwdw63f5cd46e0bfd.pngattachments-2023-02-rzehGsbM63f5cd53ba60a.png

知识结合与迁移

在每个时间步长结束时,所有agent将它们的Q-table发送给协调agent,更新Q-table

attachments-2023-02-ecGxncku63f5cd6399543.png

在冲突管理单元中,每个q值在新表中的表示(加权平均、M为出现频次):

attachments-2023-02-TZXFutXa63f5cd6c9987f.png

现有只考虑提高RL收敛速度,我们考虑终端收敛速度


0 条评论

请先 登录 后评论
Hao98
Hao98

3 篇文章

作家榜 »

  1. Panda-admin 37 文章
  2. 解弘艺 17 文章
  3. 高曾谊 16 文章
  4. 旺仔牛奶opo 15 文章
  5. 胡中天 14 文章
  6. LH 14 文章
  7. 罗柏荣 13 文章
  8. 林晨 12 文章