• 回答数

    2

  • 浏览数

    228

小胖怡情
首页 > 英语培训 > lstm中的术语英文

2个回答 默认排序
  • 默认排序
  • 按时间排序

优尼makeup

已采纳

LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。工作原理LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的"处理器",这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。说起来无非就是一进二出的工作原理,却可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明,LSTM是解决长序依赖问题的有效技术,并且这种技术的普适性非常高,导致带来的可能性变化非常多。各研究者根据LSTM纷纷提出了自己的变量版本,这就让LSTM可以处理千变万化的垂直问题。

lstm中的术语英文

156 评论(11)

猜我猜不猜

循环神经网络英文名称为 ( Recurrent Neural Network, RNN ),其通过使用带自反馈的神经元,能够处理任意长度的 时序 数据。

给定输入时序序列 式中, 表示一段时序数据, 为时间长度

以一段英文段落为例,其时序数据可以表示为:

若是一段视频,将其每一帧通过CNN网络处理得到相应的编码向量

循环神经网络通过以下公式更新隐藏层的活性值

循环神经网络图示

RNN的基本模型如下图所示,为便于理解,图中将RNN的模型展开,按照时序方向对其前向传播流程进行介绍

RNN的基本模型

利用数学表达式整个过程可以变得更加清晰,RNN的前向传播公式如下:

将上述过程整合到一个RNN cell中,可以表示为如下图所示的过程:

RNN的前向传播示意图

缺陷:

没有利用到模型后续的信息,可以通过双向RNN网络进行优化

RNN主要有两种计算梯度的方式:随时间反向传播(BPTT)和实时循环学习法(RTRL)算法

本文中主要介绍随时间反向传播的方法 ( BackPropagation Through Time )

RNN的损失函数与任务有关,对于同步的序列对序列任务,其loss可以用交叉熵公式表示

然后通过BPTT算法便可以进行梯度的反向传播计算

梯度爆炸的解决方法:梯度修剪

梯度消失的解决方法:增加长程依赖 LSTM,GRU

GRU的基本思路:增加相关门(Relate Gate)和更新门(Update Gate),进而使得RNN单元具有记忆能力

首先从数学角度对GRU的前向传播过程进行介绍,具体公式如下:

公式中各变量的含义:

将上述数学公式转化为图像,可得

GRU Cell的前向传播流程

LSTM意为长短时记忆网络 (Long Short-Term Memory Network,LSTM) ,可以有效地解决简单神经网络的梯度消失和爆炸问题

在LSTM中,与GRU主要有两点不同

同样,先从数学公式入手,对LSTM的前向传播过程进行了解

基于数学公式的过程,可将LSTM CELL的前向传播过程总结为(图片借用于nndl):

LSTM Cell的前向传播示意图

从上图中可以看出,LSTM在前向传播的过程中传输了两个状态:内部状态 以及外部状态 ,在整个传播过程中 外部状态(隐状态) 每个时刻都会被重写,因此可以看作一种 短时记忆 ,而 内部状态 可以在某个时刻捕捉一些关键信息,并将此信息保存一段时间间隔,可以看作一种 长时记忆 (长的短时记忆)

此外,在LSTM网络初始化训练的时候,需要手动将遗忘门的数值设置的大一些,否则在参数初始化的时候,遗忘门的数据会被初始化为一个很小的值,前一时刻的内部状态 大部分都会丢失,这样网络很难获取到长距离的依赖信息,并且相邻时间间隔的梯度会非常小,导致 梯度弥散 问题,因此遗忘门的 偏置变量 的初始值 一般很大,取 1或2

将 设置为1即可,但是长度非常的大的时候会造成记忆单元的饱和,降低性能

三个门不仅依赖于 和 ,也依赖于

将两者合并为一个门,即:

首先,我们要理解什么是深层的RNN,对于单个的RNN cell,若将其在时间维度上展开,其深度与时间维度的长度成正比,但若将一个RNN cell看作为单个从 的映射函数,则单个cell实际上是很浅显的一层,因此深层循环神经网络要做的就是把多个RNN cell组合起来,换句话说,就是增加从输入 到输出 的路径,使得网络的深度更深。

如何增加从输入 到输出 的路径呢?两种途径:

堆叠循环神经网络示意图

将网络带入到实际应用场景中:假如我们要翻译一段句子

在这里,is和are实际上是由后面的Lucy和they所决定的,而这种单向的按照时序进行传播的方式没有利用到后面的信息。因此诞生了双向循环网络

双向循环神经网络示意图

双向循环神经网络实际上就是简单的双层循环神经网络,只不过第二层网络的传播方式为按时序的逆向传播,其传播公式为:

291 评论(14)

相关问答