面对移动端深度学习驱动的真实场景,现有工作关注如何分割模型以加速协同推理,缺乏对响应时延的整体调优,动态情境下的自适应能力较差。DiRAP由存算一体的角度,综合考虑实时自适应的深度学习推理框架。面对动态情境,精细化设计分割决策空间,以降低卸载决策时延;模型动态切换时,自适应增量式加载深度模型,降低加载时延及冗余资源消耗。
DiRAP算法基于Python3.6+环境下的numpy、torch等依赖库开发。算法的输入为:模型的运行情境(设备资源预算、用户时延需求等),输出为:自适应调优之后的分割策略以及对应模型卸载计划。
算法名称 | Distributed Runtime Adaptive Partition method, DiRAP |
算法接口 | python dirap.py --config_file config.yaml |
输入 | 深度模型及其动态运行情境,构建的搜索图G |
输出 | 根据动态运行情境自适应调优的模型分割点以及模型的卸载计划 |
支持数据集 | CiFar-10、CiFar-100、ImageNet、BDD100K |
依赖库 | Python 3.6+、numpy、torch |
参考资源 | IONN: Incremental offloading of neural network computations from mobile devices to edge servers |
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!