损失函数：Focal Loss

2023-07-07 大全 40 作者：考证青年

一、正负样本不均衡问题

Class (正负样本不平衡) 带来的问题就是：样本中会存在大量的easy ，且都是负样本(属于背景的样本)。这样，easy 会对loss起主要贡献作用，会主导梯度的更新方向，网络学不到有用的信息，无法对进行准确分类。

还有一个问题，为什么two stage不会有这样的问题呢或者为什么two stage没有one stage这么严重呢？

因为，对于two stage来说，首先利用RPN产生，这一步就已经删去了很多easy 。我们对这些进行筛选，可以人为控制正负样本的比例为1：3。此外，对于负样本的选取，可以通过在线难例挖掘，选取有利于网络更新的难分样本，让网络学习到有用的信息，进行参数的更新。

因此，one stage在检测mAP上不如two stage。

二、解决方案：Focal Loss

如下是未变化前的交叉熵(cross ) loss，以二分类为例:

通过实验发现，即使是easy (Pt >> 0.5)，它的loss也很高，所以当这种样本的数量较多的时候，累计起来就会比较大了，甚至会超过那些概率较小的样本（hard ），导致对于那些hard 的学习效果不佳，这也就是为什么正负样本不均衡会导致学习效果不佳，太多的简单样本，累加起来，会产生较大的影响，量变产生质变。如下图蓝线：

损失函数的作用是_损失函数在神经网络中的作用_

可见普通的交叉熵对于正样本而言，输出概率越大损失越小。对于负样本而言，输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。

因此，对于大量的easy ，这些loss会主导梯度下降的方向，淹没少量的正样本的影响。所以，我们要解决：1> 正负样本不平衡;2>easy和hard 不平衡问题。

1、正负样本不均衡问题

为交叉熵加一个权重alpha，用来平衡正负样本本身的比例不均，其中权重因子的大小一般为相反类的比重。即负样本越多，给它的权重越小。这样就可以降低负样本的影响。文中alpha取0.25，即正样本要比负样本占比小，这是因为负例易分。

也可以这么理解：加一个小于1的超参数，相当于把算是Loss曲线整体往下拉一些，是的当概率较大的时候影响减小。

2、easy和hard 不平衡问题

针对easy和hard样本，在原有的基础上加了一个因子，其中gamma>0使得减少易分类样本的损失。使得更关注于困难的、错分的样本。我们定义损失函数如下：

其中，gamma range from 0 to 5. 例如gamma为2，对于正类样本而言，预测结果为0.95肯定是简单样本，所以（1-0.95）的gamma次方就会很小，这时损失函数值就变得更小。而预测概率为0.3的样本其损失相对很大。对于负类样本而言同样，预测0.1的结果应当远比预测0.7的样本损失值要小得多。对于预测概率为0.5时，损失只减少了0.25倍，所以更加关注于这种难以区分的样本。这样减少了简单样本的影响，大量预测概率很小的样本叠加起来后的效应才可能比较有效。

举例：取γ=2，假如分类的概率是p=0.9，则原来的loss=-log(0.9) =0.046，现在-(1-0.9)^2 * log(0.9) = 0.00046,缩小了约100倍，加入分类概率是p=0.968，那么就会缩小约1000倍，如果概率小于0.5，如：p=0.4 ， -log(0.4) == 0.39, -(1-0.4)^2 * log(0.4) = 0.14,只是减少了不到3倍。

这样做的好处就是：

损失函数在神经网络中的作用_损失函数的作用是_

正样本：概率越小，表示hard ，损失越大；负样本：概率越大，表示hard ，损失越大。

这样，（正样本）当对于简单样本，Pt会比较大，所以权重自然减小了。针对hard ，Pt比较小，则权重比较大，让网络倾向于利用这样的样本来进行参数的更新（可参考上图思考）。且这个权重是动态变化的，如果复杂的样本逐渐变得好分，则它的影响也会逐渐的下降。

gamma调节简单样本权重降低的速率，当gamma为0时即为交叉熵损失函数，当gamma增加时，调整因子的影响也在增加。实验发现gamma为2是最优。

3、Focal Loss的生成

最终，我们把这两种单独的改进进行合并，最终Focal Loss的形式为：

既做到了解决正负样本不平衡，也做到了解决easy与hard样本不平衡的问题。

这里的两个参数α和γ协调来控制，论文采用α=0.25，γ=2效果最好。

三、Caffe实现

修改：

layer {name: "mbox_loss"type: "MultiBoxFocalLoss" #change the typebottom: "mbox_loc"bottom: "mbox_conf"bottom: "mbox_priorbox"bottom: "label"top: "mbox_loss"include {phase: TRAIN}propagate_down: truepropagate_down: truepropagate_down: falsepropagate_down: falseloss_param {normalization: VALID}focal_loss_param { #set the alpha and gamma, default is alpha=0.25, gamma=2.0alpha: 0.25gamma: 2.0}multibox_loss_param {loc_loss_type: SMOOTH_L1conf_loss_type: SOFTMAXloc_weight: 1.0num_classes: 2share_location: truematch_type: PER_PREDICTIONoverlap_threshold: 0.5use_prior_for_matching: truebackground_label_id: 0use_difficult_gt: trueneg_pos_ratio: 3.0neg_overlap: 0.5code_type: CENTER_SIZEignore_cross_boundary_bbox: falsemining_type: NONE #do not use OHEM(online hard example miniing)}
}

参考链接：https://blog.csdn.net/LeeWanzhi/article/details/80069592
caffe相关配置：https://blog.csdn.net/wfei101/article/details/79477542
Focal Loss的Caffe源码：https://download.csdn.net/download/duan19920101/12150017

tags: 损失函数权重

损失函数：Focal Loss

百度站长HTML添加301错误,网站设置重定向301跳转后常见问题汇总解答

软件构造实验2 Poetic Walks

pytorch实现反向传播

改进的粒子群算法(PSO)算法Python代码——线性/非线性递减惯性权重

ElasticSearch学习篇9_文本相似度计算方法现状以及基于改进的 Jac

Resnet50网络的应用—抑郁症诊断

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

损失函数：Focal Loss

百度站长HTML添加301错误,网站设置重定向301跳转后常见问题汇总解答

软件构造实验2 Poetic Walks

pytorch实现反向传播

改进的粒子群算法(PSO)算法Python代码——线性/非线性递减惯性权重

ElasticSearch学习篇9_文本相似度计算方法现状以及基于改进的 Jac

Resnet50网络的应用—抑郁症诊断

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡