Skip to content

Commit d689e6f

Browse files
committed
update
1 parent 4133f98 commit d689e6f

13 files changed

+30
-1
lines changed
Lines changed: 10 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,10 @@
1+
实际应用中最有效的序列模型称为门控 RNN(gated RNN)。 包括基于长短期记忆(long short-term memory)和基于门控循环单元(gated recurrent unit)的网络。
2+
3+
像渗漏单元一样,门控 RNN 想法也是基于生成通过时间的路径,其中导数既不 消失也不发生爆炸。渗漏单元通过手动选择常量的连接权重或参数化的连接权重来 达到这一目的。门控 RNN 将其推广为在每个时间步都可能改变的连接权重。
4+
5+
6+
7+
产生梯度长时间持续流动的路径是初始 长短期记忆 (long short-term memory, LSTM)模型的核心贡献
8+
9+
![image-20190121232402572](../images/image-20190121232402572.png)
10+
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
梯度截断有助于处理爆炸的梯度,但它无助于消失的梯度
2+
3+
实现这一点的一种方法是使用 LSTM 以及其他自循环和门控机制。另一个想法是正 则化或约束参数,以引导 ‘‘信息流’’。特别是即使损失函数只对序列尾部的输出作惩 罚,我们也希望梯度向量 ∇􏰭(t) L 在反向传播时能维持其幅度
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
精度是模型报告的检测是正确的比率,而召回率则是真实事件被检测 到的比率。
2+
3+
画 PR 曲线(PR curve),y 轴表示精度,x 轴表示召 回率
Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
大多数 RNN 中的计算可以分解成三块参数及其相关的变换:
2+
1. 从输入到隐藏状态,
3+
2. 从前一隐藏状态到下一隐藏状态
4+
3. 从隐藏状态到输出。
Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1 @@
1+
递归神经网络代表循环网络的另一个扩展,它被构造为深的树状结构而不 是 RNN 的链状结构,因此是不同类型的计算图。
Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1 @@
1+
为了储存记忆并对小扰动具有鲁棒性,RNN 必 须进入参数空间中的梯度消失区域

10-序列建模:循环和递归网络/10.8 回声状态网络.md

Whitespace-only changes.

10-序列建模:循环和递归网络/10.9 渗漏单元和其他多时间尺度的策略.md

Whitespace-only changes.

11-实践方法论/11.1 性能度量.md

Whitespace-only changes.
Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,7 @@
1+
如果项目是以固定大小的向量作 为输入的监督学习,那么可以使用全连接的前馈网络。如果输入有已知的拓扑结构 (例如,输入是图像),那么可以使用卷积网络。在这些情况下,刚开始可以使用某 些分段线性单元(ReLU或者其扩展,如Leaky ReLU、PReLU和maxout)。如果输
2+
入或输出是一个序列,可以使用门控循环网络(LSTM 或 GRU)
3+
4+
具有衰减学习率以及动量的 SGD 是优化算法一个合理的选择(流行的衰减方 法有,衰减到固定最低学习率的线性衰减、指数衰减,或每次发生验证错误停滞时 将学习率降低 2 − 10 倍,这些衰减方法在不同问题上好坏不一
5+
6+
另一个非常合理 的选择是 Adam 算法。批标准化对优化性能有着显著的影响,特别是对卷积网络和 具有 sigmoid 非线性函数的网络而言。虽然在最初的基准中忽略批标准化是合理的, 然而当优化似乎出现问题时,应该立刻使用批标准化。
7+

11-实践方法论/11.3 决定是否收集更多数据.md

Whitespace-only changes.

images/image-20190121232402572.png

254 KB
Loading

readme.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -16,7 +16,7 @@
1616
| 8 | 280 | 20190114|
1717
| 9 | 318 | 20190115|
1818
| 10 | 340 | 20190117|
19-
| 11 | | |
19+
| 11 | 364 | 20190121|
2020
| 12 | | |
2121
| 13 | | |
2222
| 14 | | |

0 commit comments

Comments
 (0)