视频分析工作负载的资源效率对于边缘节点和云集群上的大规模部署至关重要。最近的先进系统受益于包括视频压缩、帧滤波和深度模型加速在内的技术。然而,根据在1000多台摄像机上运行实时视频分析系统的一年经验,作者发现了一个以前被忽视的端到端并发瓶颈:视频解码。为了支持大规模的并发视频推理,在这项工作中,他们研究了一种新的任务,称为视频分组门控,它在运行解码器之前选择性地过滤分组。他们提出了一种新的视频包多视图嵌入方法,并提出了既有理论性能保证又有实际系统设计的PacketGame。在公共数据集和真实系统上的实验表明,与原始工作负载相比,PacketGame节省了52.0-79.3%的解码成本,并实现了2.1-4.8倍的并发性。与四种最先进的互补方法的比较表明了PacketGame在端到端并发方面的优势。
对各种来源(IP摄像机、无人机、移动直播和用户生成内容)的视频推理(人工智能视频分析)的需求一直在快速增长:
1. 监控摄像头在当今社会无处不在,广泛用于家庭和公共区域的安全。人工智能模型为城市数万台IP摄像机的视频提供了许多分析功能,如应急响应。
2. 手机、无人机和机器人等各种移动设备都配备了摄像头。由于通信和计算资源有限,许多应用程序将视频推理卸载到边缘和云服务器。
3. 视频共享平台存储了大量视频(例如,YouTube上至少有8亿个视频[)。
随着硬件和用户数量的不断增加,无论视频源是什么,这些应用程序都对大规模并行处理有着共同的需求。
典型的视频推理管道流程:首先从实时网络流或本地文件系统中解析视频,然后解码数据包并在RGB帧上运行AI模型。
为了优化视频推理管道的效率,当下流行四类:
· 相机上的帧过滤
· 视频压缩
· 服务器端帧过滤
· 模型加速
PacketGame 是一个用于多流包门控的框架,利用轻量级的时间估计器和上下文预测器来自适应地表示数据包。这个框架通过有效的跨流协调来设计组合优化器,具有经过验证的近似比性能保证。
1.首先,算法使用时间估计器 μ ̄ 和上下文预测器 fθ 进行操作,其中时间窗口的长度通过经验设置,并通过实验展示其对性能的影响。
2. 在每轮中,算法首先解析数据包特征(数据包大小和图片类型),并为每个流预测置信度 pt,i。
3. 然后,PacketGame 从 m 个流中选择数据包并将其发送到解码器。
4. 接下来,推断模型处理解码后的帧,并将冗余反馈返回给 PacketGame。
三个指标:FLOP,每帧的延迟,每帧的能量
PacketGame拥有5000个FLOP,仅为MobileNetV1(1137M)的0.004%。
对于延迟,PacketGame的成本为7微秒,比MobileNetV1(每帧4ms)快570倍。
虽然不是为摄像头部署而设计的,但在手机上运行PacketGame只需154微美元和小于1mJ的能量。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!