强化学习加速收敛论文分享:zTT

强化学习加速收敛论文分享:zTT

zTT: Learning-based DVFS with Zero Thermal Throttling for Mobile Devices

背景介绍:

随着集成CPUGPU的移动处理器的出现,深度学习、游戏和图像处理等高性能任务逐渐转向在移动设备上运行【引出移动设备】

为了充分利用 cpu gpu 在移动设备上的能力,我们需要尽可能地利用它们的处理能力。然而,由于移动设备的特性,这是具有挑战性的,因为用户对电池消耗和设备温度很敏感【引出问题与挑战】

许多研究人员研究了在移动处理器中实现节能操作的技术,要是在将温度和功耗控制在预定义阈值以下。【现有研究方法(没明确指出,但透露出预定义的不足)】


简介采用的技术DVFS,实现一个适合移动设备的理想的DVFS仍然是一个挑战,原因:【引出使用的方法在移动设备的挑战原因】

1)传统DVFS实现主要停留在操作系统内核中,与应用程序无关 --> 根据应用需求,进行CPU/GPU最优功率分配 【传统(OS) --> 应用程序】

2DVFS存在过热问题,会降低应用性能,移动设备会经历复杂的热环境,因此预定义的方法不适用,需要快速学习并自适应 【预定义 --> 自适应】


提出以下三种技术:

1)设计了一个新的DVFS框架,调节CPU/GPU电压频率水平,并根据给定环境下的冷却能力和温度趋势学习热节流边界 【转应用程序】

2)使用DRL处理高维的动作和状态空间进行学习 【学习】

3)利用迁移学习的思想,利用过去数据的样本副本,最小化对环境变化的适应时间,从而提高DRL的收敛速度 【优化】


场景定义:

在运行手机游戏时,由于不同游戏CPUGPU的需求不同,它们的能量分配也需要相应改变。例如,在处理图形任务时,分配给GPU的资源比分配给CPU的资源更有效。分配过多的功耗给CPUGPU都会不必要地增加功耗和系统温度

与台式机和服务器不同的是,移动设备没有风扇控制等主动冷却方法,且移动设备会经历更复杂的热环境,例如用户移动性、保持方法和外部温度[22]

 

应用学习:了解每个应用在不同CPU/GPU资源需求下的性能特征

环境学习:了解随着时间和设备移动的环境变化 --> 在使用给定的CPU/GPU时钟频率组合时,预测当前情况下温度将如何变化

 

观测实验:

了解现有DVFS方案的低效率,分析移动设备的性能和温度特性是如何随着应用和环境的变化而变化的

attachments-2023-02-mLvXSgD163f5d3652da76.png

1)决定处理器温度的因素:(a)频率 (b)应用程序

2)热耦合:一个处理器产生的热量会对其它处理器产生显著影响

3)移动设备的热特性对环境变化很敏感


方法:

【问题】:(1DQN的稳定性和收敛性

 (2)模型自适应

【问题产生原因】:更新RL方程的过程中,目标函数会由于底层DNN的变化而发生变化,使得训练变得困难。

为了提高样本的多样性,e1开始,随着时间的推移逐渐减小。通过这样做,zTT了解环境和应用,但不能对 ztt 提供自适应能力,因为 DQN 算法最初设计用于求解 MDP,其模型不随时间变化。即,算法假设状态之间的转换概率在 MDP 中不变。

【本文场景】MDP的转移概率可以随着环境和应用程序的变化而变化

【解决方法】:迁移学习、使用历史数据的样本副本

 

方法一:迁移学习

【方法思想】:即使环境发生变化,整个神经网络的参数也只有少数会发生变化,因为模型的结构可能本质上是相似的

【没有具体的设计证明,实验证明】:在第6节中,我们验证了我们基于DQN的算法在变化的环境中工作得相当好,这些环境中的神经网络参数大多相同,包括相同的输入和输出层,以及较小的更新参数。

方法二:使用历史数据的样本副本

【方法思想】:当环境变化时,引起移动设备的热特性变化的两种情况:(1)好的动作 --> 奖励高 (2)差的动作 --> 奖励低。从这两类环境变化中收集的样本应该在训练和适应中得到强调,以便这些变化以后能够更快地被采纳

【方法】:将这些唯一样本的一组额外副本附加到回放记忆中,以便在批量训练中突出显示这些样本

【一个问题小点】:梯度下降法算法会随着时间的推移降低收敛速度,学习率可能停滞不前

【方法】:定期重置学习率,即使环境发生了变化,也可避免陷入前一个环境的最佳点。

这些技术在环境变化的情况下提高了样本效率,导致更快的训练和更好的适应能力。

实验:

1、迁移学习

【目的】: 探讨迁移学习在减少适应时间方面对 jetson tx2的影响

【方法】:迁移附加知识:单独的应用程序、单独的环境以及应用程序和环境知识。结果表明,迁移学习与随机抽样相比降低了一半以上,说明随着知识的增加,学习时间显著减少

attachments-2023-02-4TVJc8Z863f5d3c23ffbc.png

 

2、使用样本副本以加快收敛速度

【目的】:检验当环境发生变化时,样本副本的数量如何影响适应

【方法】:改变样本副本的数量,检验帧率和自适应时间

attachments-2023-02-79X26yK063f5d3cc78afa.png

 

3、模型收敛性

【方法】:对比在有足够训练阶段的静态环境下测量的收敛点

attachments-2023-02-nAa9HqmP63f5d3d8cfc6c.png

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
Hao98
Hao98

3 篇文章

作家榜 »

  1. Panda-admin 37 文章
  2. 解弘艺 17 文章
  3. 高曾谊 16 文章
  4. 旺仔牛奶opo 15 文章
  5. 胡中天 14 文章
  6. LH 14 文章
  7. 罗柏荣 13 文章
  8. 林晨 12 文章