神经网络与深度学习-4

2023-08-23 大全 23 作者：考证青年

一、yolo网络网络结构

网络结构包含24个卷积层和2个全连接层；其中前20个卷积层用来做预训练，后面4个是随机初始化的卷积层，和2个全连接层。

YOLO包围框

我们有 2个框，每个框的bb个数为，分类器可以识别出种不同的物体，那么所有整个 truth的长度为 × × ( × 5 + ) YOLO v1中，这个数量是30 YOLO v2和以后版本使用了自聚类的 box为bb, v2版本为 = 5, v3中 =9。

归一化

四个关于位置的值，分别是, , ℎ和，均为整数，实际预测中收敛慢因此，需要对数据进行归一化，在0-1之间。例子是一个448*448的图片，有3*3的grid，每个 cell是149。目标中心点是(220,190)。

置信度

：图中绿框为真实标注，其余五个颜色框为预测值，可计算对应U。

训练值（ truth）：Pr 的 truth：三个目标中点对应格子为1，其它为0。

训练数据与网络输出

YOLO损失函数

YOLO损失函数——边界框对应损失项

第2项要开根号，让误差更显著，保证回归精度。

YOLO损失函数——边界框对应损失项

YOLO损失函数——取值

非极大值抑制

NMS核心思想：选择得分最高的作为输出，与该输出重叠的去掉，不断重复这一过程直到

所有备选处理完。NMS算法要点：

1. 首先丢弃概率小于预定IOU阈值（例如0.5）的所有边界框；对于剩余的边界框：

2. 选择具有最高概率的边界框并将其作为输出预测；

3. 计算 “作为输出预测的边界框”，与其他边界框的相关联IoU值；舍去IoU大于阈值的边界框；其实就是舍弃与“作为输出预测的边界框”很相近的框框。

4. 重复步骤2，直到所有边界框都被视为输出预测或被舍弃

数据集训练

预训练与训练：

①YOLO先使用数据集对前20层卷积网络进行预训练，然后使用完整的网络，在 VOC数据集上进行对象识别和定位的训练和预测；

②训练中采用了drop out和数据增强来防止过拟合；

③YOLO的最后一层采用线性激活函数(因为要回归bb位置)，其它层都是采用Leaky ReLU激活函数：

二、语义分割与FCN

语义分割：找到同一画面中的不同类型目标区域

实例分割：同一类型目标要分出来具体实例（谁是谁）

目标检测：标出来外包围矩形

语义分割基本思想

对图中每一个像素进行分类，得到对应标签；

对图中每一个像素进行分类，得到对应标签

滑动次数太多，计算太慢，重复计算太多

FCN网络结构

网络结构分为两个部分：全卷积部分和反卷积部分。全卷积部分借用了一些经典的CNN网络，并把最后的全连接层换成卷积，用于提取特征，形成热点图；反卷积部分则是将小尺寸的热点图上采样得到原尺寸的语义分割图像。

反卷积与反池化

× 卷积：

深度神经网络算法dnn__深度信念神经算法

上池化（），或称为反池化

FCN具体实现

FCN网络结构：卷积部分

FCN中第6、7、8层都是通过1 × 1卷积得到的，第6层的输出是4096 × 7 × 7，第7层的输出是4096 × 7 × 7 ，第8层的输出是1000 × 7 × 7,即1000个大小是 7 × 7的特征图（称为）。

输出的特征图（称为），颜色越贴近红色表示对应数值越大。

反卷积部分：跳级结构

FCN评价指标与标注工具

常见标注工具：

、EISeg

风格迁移

如何实现风格迁移：首先初始化合成图像，该合成图像是风格迁移过程中唯一需要更新的变量，也就是迁移所需要的模型参数，然后，会通过一个预训练的神经网络来抽取图像的特征，深度卷积神经网络通过多个层级逐级抽取图像的特征。最终，我们可以选择其中某些层的输出作为内容特征或样式特征。

风格迁移常用的损失函数由三部分组成：

内容损失

是合成图像与内容图像在内容特征上接近，内容代价函数：

样式损失

令合成图像与样式图像在样式特征上接近。可以认为相关性比较大的像素块为同一风格，相关参数的定义：

总变差损失

有助于减少合成图像中的噪点，综上总体代价函数为

三、循环神经网络与NLP 数据处理基础

特征编码

第1列表示年龄，是一个数值特征；

第2列表示性别，是一个只有一位（0， 1）的特征0 -> Male, 1 ->

第3列表示国籍，目前有197个国家1 -> US, 2 -> China, …；可以用一个整数来表示，或者用一个独热向量来表示, 如US: [1,0, ….,0]。数值特征不适合表示类别，因此一般使用独热编码。国家编码从1开始， 1~197，因为实际国籍有可能不填(对应0)。

总结：使用199维特征向量表达一个人的特征：

文本处理

第一步：文本切分 ()

给定文本片段，如： S = “… to be or not to be…”.

将文本切分为单词序列： L = […, to, be, or, not, to, be, …]

第二步：统计词频

创建一个字典 (实际中经常使用Hash 表) 进行词频统计，初始字典为空。

遍历文本，并按如下更新字典： • 如果单词不再字典中，加入该单词 (, 1) • 否则将其词频加1，直到完成整个遍历。按照词频降序进行排序，将词频索引化，如果词汇太多，则只保留排序在前的k个单词 (如取 = 10000)。

第三步：独热编码

将每一个词映射到索引号上

需要时，将索引转换为独热编码

词典上没有的词（低频词或拼写错误，直接忽略，或编码为0）

文本预处理与词嵌入

文本预处理

一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。我们将解析文本的常见预处理步骤。这些步骤通常包括：

1.将文本作为字符串加载到内存中。

深度信念神经算法_深度神经网络算法dnn_

2.将字符串切分为词元（如单词和字符）。

3.建立一个字典，将拆分的词元映射到数字索引。

4.将文本转换为数字索引序列，方便模型操作。

第一步：读取数据集以H.G.Well的时光机器为例，从中加载文本。这是一个相当小的语料库，只有30000多个单词，而现实中的文档集合可能会包含数十亿个单词。如包含65 T数据。

第二步：词汇切分

将原始文本以文本行为单位进行切分

第三步：构建词索引表

打印前几个高频词及索引

[('', 0), ('the', 1), ('i', 2), ('and', 3), ('of', 4), ('a', 5), ('to', 6), ('was', 7), ('in', 8), ('that', 9)]

将每一条文本行转换成一个数字索引列表

文本: ['the', 'time', '', 'by', 'h', 'g', 'wells']

索引: [1, 19, 50, 40, 2183, 2184, 400]

文本 : ['', 'and', 'his', '', 'pale', 'face', 'was', '', 'and', '', 'the']

索引: [2186, 3, 25, 1044, 362, 113, 7, 1421, 3, 1045, 1]

文本嵌入

如何将词映射成向量？直接想法：使用之前所述的独热向量

问题：维数过高

词嵌入（word ) ：将独热向量映射为低维向量

原始向量：维；映射后：维， ≪ ；映射矩阵： × ，根据训练数据学习得到

映射参数矩阵

词嵌入训练效果：

准确率74%（测试集），不好不差。

RNN模型

建模序列数据

用RNN建模序列数据

输入：The cat sat on the mat

RNN模型

结果评价

训练精度 : 89.2% ，验证精度 : 84.3%，测试精度 : 84.4% ，比之前的结果好一些。

RNN问题

随着输入的增加，会产生“遗忘”问题

LSTM模型

⻓短期记忆⽹络的设计灵感来⾃于计算机的逻辑⻔。⻓短期记忆⽹络引⼊了记忆元（ cell），或简称为单元（cell）。有些⽂献认为记忆元是隐状态的⼀种特殊类型，它们与隐状态具有相同的形状，其设计⽬的是⽤于记录附加的信息。为了控制记忆元，我们需要许多⻔。其中⼀个⻔⽤来从单元中输出条⽬，我们将其称为输出⻔（ gate）。另外⼀个⻔⽤来决定何时将数据读⼊单元，我们将其称为输⼊⻔（input gate）。我们还需要⼀种机制来重置单元的内容，由遗忘⻔（ gate）来管理，这种设计的动机与⻔控循环单元相同，能够通过专⽤机制决定什么时候记忆或忽略隐状态中的输⼊。

候选记忆元

它的计算与上⾯描述的三个⻔的计算类似，但是使⽤tanh函数作为激活函数，函数的值范围为(−1, 1)。下⾯导出在时间步t处的⽅程：

记忆元

在⻓短期记忆⽹络中，也有两个⻔⽤于这样的⽬的：输⼊⻔It控制采⽤多少来⾃C˜ t的新数据，⽽遗忘⻔Ft控制保留多少过去的记忆元Ct−1 ∈ R n×h的内容。使⽤按元素乘法，得出：

如果遗忘⻔始终为1且输⼊⻔始终为0，则过去的记忆元Ct−1 将随时间被保存并传递到当前时间步。引⼊这种设计是为了缓解梯度消失问题，并更好地捕获序列中的⻓距离依赖关系。

tags: 深度学习神经网络算法文本分类卷积神经网络自然语言处理

神经网络与深度学习-4

human Fall Detection and Localization in

时空图卷积网络STGCN用于交通预测的深度学习框架python程序源代码+设计文

ElasticSearch学习篇9_文本相似度计算方法现状以及基于改进的 Jac

基于深度学习的抑郁症检测混合模型

特征选择之卡方验证java_如何实现一个基本的微信文章分类器

轻量级人像分割深度学习模型PP-HumanSeg树莓派部署

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

神经网络与深度学习-4

human Fall Detection and Localization in

时空图卷积网络STGCN用于交通预测的深度学习框架python程序源代码+设计文

ElasticSearch学习篇9_文本相似度计算方法现状以及基于改进的 Jac

基于深度学习的抑郁症检测混合模型

特征选择之卡方验证java_如何实现一个基本的微信文章分类器

轻量级人像分割深度学习模型PP-HumanSeg树莓派部署

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡