首页 >> 大全

PKD: General Distillation Framework for

2023-12-09 大全 23 作者:考证青年

(一) Title

论文地址:

(二)

研究背景:

本文的主要工作

本文的主要贡献:

(三)

作者指出直接对齐学生网络和教师网络的特征存在着两个问题:

从图片展示上来看,如下:

从上面的描述中,总结下来,希望能够解决的三个问题是:

(四)

本文提出使用 (PCC)来进行蒸馏,为了解决上述3个问题 infl of , FPN and ,首先将特征图归一化到0均值,单位方差。这里使用的是哪一个norm方式呢?这里实际上等价于最大化皮尔逊相关系数,此外PCC还能够减少特征幅度对于梯度反传的影响。使得训练过程更加稳定。这里需要注意的是:仅仅对于FPN特征进行了蒸馏。

详细的蒸馏过程如下:

PCC和KL散度之间的关联是什么呢?

KL散度在蒸馏过程中的处理方式为:首先通过函数将激活值转换成概率分布,然后最小化教师和学生激活值之间的KL散度损失,从公式上来看是:

L K L = T 2 ∑ i = 1 m ϕ ( t i ) ⋅ log ⁡ [ ϕ ( t i ) ϕ ( s i ) ] \{L}_{K L}=T^{2} \sum_{i=1}^{m} \phi\left(t_{i}\right) \cdot \log \left[\frac{\phi\left(t_{i}\right)}{\phi\left(s_{i}\right)}\right] LKL​=T2i=1∑m​ϕ(ti​)⋅log[ϕ(si​)ϕ(ti​)​]

归一化方式为:

ϕ ( t ) = exp ⁡ ( t i / T ) ∑ j = 1 m exp ⁡ ( t j / T ) \phi(t)=\frac{\exp \left(t_{i} / T\right)}{\sum_{j=1}^{m} \exp \left(t_{j} / T\right)} ϕ(t)=∑j=1m​exp(tj​/T)exp(ti​/T)​

然后,这里作者说在高温条件下,最小化post- 之间的KL散度,等价于最小化MSE,然后就等价于在pre- 之间的最大化皮尔逊相关系数。

接着KL散度对于 s ^ i \hat{s}_i s^i​求梯度,得到:

∂ L K L ∂ s ^ i = T ( q i − p i ) = T ( e s i / T ^ ∑ j e s j / T ^ − e t i / T ^ ∑ j e t j / T ^ ) \frac{\ \{L}_{K L}}{\ \hat{s}_{i}}=T\left(q_{i}-p_{i}\right)=T\left(\frac{e^{\hat{s_{i} / T}}}{\sum_{j} e^{\hat{s_{j} / T}}}-\frac{e^{\hat{t_{i} / T}}}{\sum_{j} e^{\hat{t_{j} / T}}}\right) ∂s^i​∂LKL​​=T(qi​−pi​)=T(∑j​esj​/T^​esi​/T^​​−∑j​etj​/T^​eti​/T^​​)

其中 p i = ϕ ( t i ^ ) and q i = ϕ ( s i ^ ) p_{i}=\phi\left(\hat{t_{i}}\right) \text { and } q_{i}=\phi\left(\hat{s_{i}}\right) pi​=ϕ(ti​^​)andqi​=ϕ(si​^​),这里的梯度求导方式不知道是则得到的?

接着当温度足够高时,有近似计算如下:

∂ L K L ∂ s i ^ ≈ T ( 1 + s i ^ / T N + ∑ j s j ^ / T − 1 + t i ^ / T N + ∑ j t j ^ / T ) \frac{\ \{L}_{K L}}{\ \hat{s_{i}}} \ T\left(\frac{1+\hat{s_{i}} / T}{N+\sum_{j} \hat{s_{j}} / T}-\frac{1+\hat{t_{i}} / T}{N+\sum_{j} \hat{t_{j}} / T}\right) ∂si​^​∂LKL​​≈T(N+∑j​sj​^​/T1+si​^​/T​−N+∑j​tj​^​/T1+ti​^​/T​)

由于 s ^ i , t ^ i \hat{s}_i,\hat{t}_i s^i​,t^i​都是0均值的,然后上式就可以简化成:

∂ L K L ∂ s i ^ ≈ 1 N ( s i ^ − t i ^ ) \frac{\ \{L}_{K L}}{\ \hat{s_{i}}} \ \frac{1}{N}\left(\hat{s_{i}}-\hat{t_{i}}\right) ∂si​^​∂LKL​​≈N1​(si​^​−ti​^​)

然后观察同PCC之间的差异。

(五)

同质结构下的蒸馏

异质结构下的蒸馏过程。

针对之前提到的三种问题,设计了三个蒸馏对象来比较MSE和本文提出的PKD的差异。

超参数对于蒸馏效果的影响

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了