首页 >> 大全

论文阅读:(ICIP 2021)LATENT

2023-11-05 大全 25 作者:考证青年

-SPACE FOR MULTI-TASK (ICIP 2021)

2022/8/1: 学校终于解封了,终于能出门吃螺狮粉了呜呜呜。

研究了多任务协同智能的潜在空间可扩展性,其中一个任务是目标检测,另一个任务是输入重构。在我们提出的方法中,可以有选择地解码部分潜在空间以支持目标检测,而在需要输入重构时可以解码其余的潜在空间。当只需要对象检测时,这种方法允许减少计算资源,并且可以在不重构输入像素的情况下实现。通过改变训练损失函数中各项的比例因子,可以训练系统在目标检测精度和输入重构质量之间实现各种权衡。通过与相关基准相比的实验,验证了可调系统在两个任务上的性能。

1.

基于人工智能(AI)的应用程序的快速部署正在给从手持设备到大规模云计算系统等多个系统的计算资源带来压力。最近的研究[1,2]通过拆分AI模型,确立了协同智能(CI)的概念,作为应对此类挑战的一种方法(例如,深度神经网络,DNN)之间的边缘和云。在这样的框架中,由模型前端产生的中间特性从边缘发送到云端。因此,中间特征压缩成为人们关注的话题。相关的标准化活动包括视频编码机器(VCM)[3]和JPEG-AI [4]。

例如,[5-9]已经证明编码中间特征可以导致显著的压缩增益,而任务准确性的损失最小。这些研究基于现成的单任务DNN模型。在我们早期的工作[10]中,开发了一个多任务CI模型,该模型支持对象检测和输入重构,使用中间特征的近乎无损编码。针对不同的多任务模型,提出了利用有损特征压缩的相关方法[11,12]。与这些方法不同的是,在这些方法中,一个特性张量被编码为支持多个后端任务,最近的提案[13,14]关注可扩展编码以支持多任务例如,[14]提出了一种可扩展的编码方法,支持人脸地标检测和生成输入人脸重建。虽然生成解码器在人脸重建方面效果很好,但在重建输入图像的非人脸细节方面可能不太成功。在本文中,我们提出了一个利用潜在空间可扩展性来支持目标检测和输入图像重建的CI系统。其中,部分潜在空间(基础层)用于目标检测(基础任务),而整个潜在空间用于输入重构。未用于基本任务的潜在空间的部分可以解释为增强层。这种表示也可以用于其他多任务模型(例如,基本任务可以是对象检测以外的东西),并允许对输入进行高效、可扩展的学习表示。第2节简要回顾了中间特征压缩的相关方法。第3节描述了所提出的方法。第4节给出实验结果,第5节给出结论。

2. Work

早期的特征压缩方法[5 - 9]侧重于从单任务DNN编码单个特征张量,任务是图像分类[6,7]或目标检测[5]。在这些工作中,一种流行的编码特征张量的方法是将张量平铺到图像中,应用预量化(比如,每个张量元素8位),然后使用传统的图像编解码器进行压缩。为了进一步提高张量编码效率,[8,9]提出了张量信道预测、数据裁剪等附加方法。

由于图像/视频分析中经常需要执行多个任务[13,15],另一组方法主要针对多任务dnn进行特征压缩[10-12]。虽然这些工作验证了从单个压缩特征张量进行多任务分析是可行的,但没有进一步研究如何有效地组织多任务的潜在空间。特别地,在这些方法中,需要重建整个张量来完成任意任务。最近,[14]提出了一种可扩展的人脸图像编码特征表示。具体地说,人脸地标检测所需的边缘映射构成基础层,附加的颜色信息构成增强层。仅利用基础层信息即可实现人脸地标检测,而利用生成译码器可以同时利用基础层和增强层实现人脸图像的重构。虽然[14]的主要思想非常吸引人,但目前还不清楚这种方法如何扩展到更一般的(例如,非人脸)图像编码场景。

3. 3.1

本文研究的CI系统的马尔可夫链模型如图1所示。输入图像X经过边缘子模型f1处理,产生特征Y,在云端,子模型f2从特征Y重建一个输入图像X的近似 X ^ \hat{\{X}} X^,子模型f3进行对象检测,生成集合T,包含包围块和对象类。

流程链 X → Y → X ^ \{X} \to \{Y} \to \hat{\{X}} X→Y→X^作为一个端到端编解码器。注意,还可以对解码后的图像 X ^ \hat{\{X}} X^进行对象检测,使用现成的对象检测器,如YOLO[16]或SSD[17],如图1中f4所示。事实上,这种从解码图像(而不是原始图像)进行对象检测是常见的做法,因为对象检测数据集(如COCO[18]和[19])包含的是jpeg压缩的图像,而不是原始图像。将数据处理不等式[20]应用于马尔可夫链 Y → X ^ → T \{Y} \to \hat{\{X}} \to T Y→X^→T,我们有

其中 I ( ⋅ , ⋅ ) I(\cdot,\cdot) I(⋅,⋅)表示互信息。这表明,中间特征 Y \{Y} Y携带的对象检测(T)信息比它们携带的输入重建(Xb)信息要少。这种观察激发了我们的方法——我们构造特征Y,这样Y只有一部分用于对象检测,而Y的整个用于输入重建。图2展示了我们的CI系统架构。系统中的许多模块都是基于[21]的,下面将更详细地讨论新提出的模块。

3.2 and

大多数的端到端学习图像压缩方法[21-23]都是针对RGB输入图像而设计的,本系统是针对输入格式设计的,而输入格式在视频编码中更为常见。具体地说,输入图像X包括亮度通道 X L ∈ R 1 × H × W X_L \in R^{1×H×W} XL​∈R1×H×W和色度通道 X C ∈ R 2 × H / 2 × W / 2 X_C \in R^{2×H/2×W/2} XC​∈R2×H/2×W/2,其中 H × W H ×W H×W为输入分辨率。相应的分析编码器和合成解码器如图3所示。分析编码器包括许多卷积层(’ CONV ')(5 × 5滤波器)和广义区分归一化(GDN)[24]层。亮度分支的降采样通过与 2的卷积实现。 是 的镜像,用转置卷积替换卷积(用’表示),用逆GDN (IGDN)层替换GDN层。在合成解码器的输出处,重构输入 X ^ \hat{\{X}} X^由亮度重构 X L ^ \hat{\{X}_L} XL​^​和色度重构 X C ^ \hat{\{X}_C} XC​^​组成。

3.3 -space

本系统的隐空间特征张量维数为 Y ∈ R N × H / 16 × W / 16 Y \in R^{N×H/16×W/16} Y∈RN×H/16×W/16由N = 192个通道组成: Y = { Y 1 , Y 2 , . . . , Y N } Y = \{Y_1,Y_2,...,Y_N\} Y={Y1​,Y2​,...,YN​},我们讲张量分割为两个部分, Y b a s e = { Y 1 , Y 2 , . . . , Y j } Y_{base} = \{Y_1,Y_2,...,Y_j\} Ybase​={Y1​,Y2​,...,Yj​}表示为基础级特征,其中 j < N j < N j

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了