PKD: General Distillation Framework for
(一) Title
论文地址:
(二)
研究背景:
本文的主要工作
本文的主要贡献:
(三)
作者指出直接对齐学生网络和教师网络的特征存在着两个问题:
从图片展示上来看,如下:
从上面的描述中,总结下来,希望能够解决的三个问题是:
(四)
本文提出使用 (PCC)来进行蒸馏,为了解决上述3个问题 infl of , FPN and ,首先将特征图归一化到0均值,单位方差。这里使用的是哪一个norm方式呢?这里实际上等价于最大化皮尔逊相关系数,此外PCC还能够减少特征幅度对于梯度反传的影响。使得训练过程更加稳定。这里需要注意的是:仅仅对于FPN特征进行了蒸馏。
详细的蒸馏过程如下:
PCC和KL散度之间的关联是什么呢?
KL散度在蒸馏过程中的处理方式为:首先通过函数将激活值转换成概率分布,然后最小化教师和学生激活值之间的KL散度损失,从公式上来看是:
L K L = T 2 ∑ i = 1 m ϕ ( t i ) ⋅ log [ ϕ ( t i ) ϕ ( s i ) ] \{L}_{K L}=T^{2} \sum_{i=1}^{m} \phi\left(t_{i}\right) \cdot \log \left[\frac{\phi\left(t_{i}\right)}{\phi\left(s_{i}\right)}\right] LKL=T2i=1∑mϕ(ti)⋅log[ϕ(si)ϕ(ti)]
归一化方式为:
ϕ ( t ) = exp ( t i / T ) ∑ j = 1 m exp ( t j / T ) \phi(t)=\frac{\exp \left(t_{i} / T\right)}{\sum_{j=1}^{m} \exp \left(t_{j} / T\right)} ϕ(t)=∑j=1mexp(tj/T)exp(ti/T)
然后,这里作者说在高温条件下,最小化post- 之间的KL散度,等价于最小化MSE,然后就等价于在pre- 之间的最大化皮尔逊相关系数。
接着KL散度对于 s ^ i \hat{s}_i s^i求梯度,得到:
∂ L K L ∂ s ^ i = T ( q i − p i ) = T ( e s i / T ^ ∑ j e s j / T ^ − e t i / T ^ ∑ j e t j / T ^ ) \frac{\ \{L}_{K L}}{\ \hat{s}_{i}}=T\left(q_{i}-p_{i}\right)=T\left(\frac{e^{\hat{s_{i} / T}}}{\sum_{j} e^{\hat{s_{j} / T}}}-\frac{e^{\hat{t_{i} / T}}}{\sum_{j} e^{\hat{t_{j} / T}}}\right) ∂s^i∂LKL=T(qi−pi)=T(∑jesj/T^esi/T^−∑jetj/T^eti/T^)
其中 p i = ϕ ( t i ^ ) and q i = ϕ ( s i ^ ) p_{i}=\phi\left(\hat{t_{i}}\right) \text { and } q_{i}=\phi\left(\hat{s_{i}}\right) pi=ϕ(ti^)andqi=ϕ(si^),这里的梯度求导方式不知道是则得到的?
接着当温度足够高时,有近似计算如下:
∂ L K L ∂ s i ^ ≈ T ( 1 + s i ^ / T N + ∑ j s j ^ / T − 1 + t i ^ / T N + ∑ j t j ^ / T ) \frac{\ \{L}_{K L}}{\ \hat{s_{i}}} \ T\left(\frac{1+\hat{s_{i}} / T}{N+\sum_{j} \hat{s_{j}} / T}-\frac{1+\hat{t_{i}} / T}{N+\sum_{j} \hat{t_{j}} / T}\right) ∂si^∂LKL≈T(N+∑jsj^/T1+si^/T−N+∑jtj^/T1+ti^/T)
由于 s ^ i , t ^ i \hat{s}_i,\hat{t}_i s^i,t^i都是0均值的,然后上式就可以简化成:
∂ L K L ∂ s i ^ ≈ 1 N ( s i ^ − t i ^ ) \frac{\ \{L}_{K L}}{\ \hat{s_{i}}} \ \frac{1}{N}\left(\hat{s_{i}}-\hat{t_{i}}\right) ∂si^∂LKL≈N1(si^−ti^)
然后观察同PCC之间的差异。
(五)
同质结构下的蒸馏
异质结构下的蒸馏过程。
针对之前提到的三种问题,设计了三个蒸馏对象来比较MSE和本文提出的PKD的差异。
超参数对于蒸馏效果的影响