Skip to content

Commit e6fad16

Browse files
committed
init
0 parents  commit e6fad16

File tree

107 files changed

+822
-0
lines changed

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

107 files changed

+822
-0
lines changed

01-引言/01-开篇.md

Lines changed: 10 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,10 @@
1+
# 开篇
2+
3+
**深度学习发展**
4+
5+
* 历史趋势,大数据已经趋于成熟,数据变现和智能成为趋势
6+
* 基于无监督的深度学习将会和有监督的深度学习并驾齐驱
7+
* 自己要把握时代趋势,选择大于努力
8+
9+
10+
Lines changed: 143 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,143 @@
1+
# 使用MathJax引擎
2+
<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>
3+
$$x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}$$
4+
5+
6+
7+
本次深度学习笔记采用mathjax编写数学公式,mathjax 使用步骤:
8+
9+
* 要想到github上看到公式,需要浏览器安装MathJax Plugin for Github插件
10+
* 编写符号是在$$ $$中间
11+
12+
13+
14+
**分数,平方**
15+
16+
| 算式 | markdown |
17+
| ---------------------- | :----------------: |
18+
| $$\frac{7x+5}{1+y^2}$$ | \frac{7x+5}{1+y^2} |
19+
20+
**下标**
21+
22+
| 算式 | markdown |
23+
| --------- | -------- |
24+
| $$z=z_l$$ | z=z_l |
25+
26+
**省略号**
27+
28+
| 省略号 | markdown |
29+
| ------ | ---------- |
30+
|| $$\cdots$$ |
31+
32+
**行间公式(使用两个$包含公式可以独立一行)**
33+
34+
| 行间公式 | markdown |
35+
| ------------------------------------------------------------ | ------------------------------------------------------------ |
36+
| $$\frac{d}{dx}e^{ax}=ae^{ax}\quad \sum_{i=1}^{n}{(X_i - \overline{X})^2}$$ | \frac{d}{dx}e^{ax}=ae^{ax}\quad \sum_{i=1}^{n}{(X_i - \overline{X})^2} |
37+
38+
**开根号**
39+
40+
| 算式 | markdown |
41+
| ------------------------ | -------------------- |
42+
| $$\sqrt{2};\sqrt[n]{3}$$ | \sqrt{2};\sqrt[n]{3} |
43+
44+
**矢量**
45+
46+
| 算式 | markdown |
47+
| --------------------------- | ----------------------- |
48+
| $$\vec{a} \cdot \vec{b}=0$$ | \vec{a} \cdot \vec{b}=0 |
49+
50+
**积分**
51+
52+
| 算式 | markdown |
53+
| -------------------------- | ---------------------- |
54+
| $$\int ^2_3 x^2 {\rm d}x$$ | \int ^2_3 x^2 {\rm d}x |
55+
56+
**极限**
57+
58+
| 算式 | markdown |
59+
| -------------------------------- | ---------------------------- |
60+
| $$\lim_{n\rightarrow+\infty} n$$ | \lim_{n\rightarrow+\infty} n |
61+
62+
**累加**
63+
64+
| 算式 | markdown |
65+
| ---------------------- | ------------------ |
66+
| $$\sum \frac{1}{i^2}$$ | \sum \frac{1}{i^2} |
67+
68+
**累乘**
69+
70+
| 算式 | markdown |
71+
| ----------------------- | ------------------- |
72+
| $$\prod \frac{1}{i^2}$$ | \prod \frac{1}{i^2} |
73+
74+
**希腊字母**
75+
76+
| 大写 | markdown | 小写 | markdown |
77+
| ---------- | -------- | ---- | ----------- |
78+
| A | A | α | \alpha |
79+
| B | B | β | \beta |
80+
| $$\Gamma$$ | \Gamma | γ | \gamma |
81+
| Δ | \Delta | δ | \delta |
82+
| E | E | ϵ | \epsilon |
83+
| | | ε | \varepsilon |
84+
| Z | Z | ζ | \zeta |
85+
| H | H | η | \eta |
86+
| Θ | \Theta | θ | \theta |
87+
| I | I | ι | \iota |
88+
| K | K | κ | \kappa |
89+
| Λ | \Lambda | λ | \lambda |
90+
| M | M | μ | \mu |
91+
| N | N | ν | \nu |
92+
| $$\Xi$$ | \Xi | ξ | \xi |
93+
| O | O | ο | \omicron |
94+
| Π | \Pi | π | \pi |
95+
| P | P | ρ | \rho |
96+
| Σ | \Sigma | σ | \sigma |
97+
98+
| 大写 | markdown | 小写 | markdown |
99+
| ---- | -------- | ---- | -------- |
100+
| T | T | τ | \tau |
101+
| Υ | \Upsilon | υ | \upsilon |
102+
| Φ | \Phi | ϕ | \phi |
103+
| | | φ | \varphi |
104+
| X | X | χ | \chi |
105+
| Ψ | \Psi | ψ | \psi |
106+
| Ω | \Omega | ω | \omega |
107+
108+
**三角函数**
109+
110+
| 三角函数 | markdown |
111+
| -------- | -------- |
112+
| sin | $$\sin$$ |
113+
114+
**对数函数**
115+
116+
| 算式 | markdown |
117+
| --------- | --------- |
118+
| ln 15 | \ln15 |
119+
| log 2 10 | \log_2 10 |
120+
| lg 7 | \lg7 |
121+
122+
**关系运算符**
123+
124+
| 运算符 | markdown |
125+
| ------ | -------- |
126+
| ± | \pm |
127+
| × | \times |
128+
| ÷ | \div |
129+
|| \sum |
130+
|| \prod |
131+
|| \neq |
132+
|| \leq |
133+
|| \geq |
134+
135+
参考地址:
136+
137+
使用介绍:<http://blog.csdn.net/xiahouzuoxin/article/details/26478179>
138+
139+
公式详情:<http://blog.csdn.net/zdk930519/article/details/54137476>
140+
141+
公式详情:<http://oiltang.com/2014/05/04/markdown-and-mathjax/>
142+
143+

01-引言/03-希腊字母发音表.md

Lines changed: 29 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,29 @@
1+
希腊字符发音表,方便自己记录公式
2+
3+
| 序号 | 大写 | 小写 | 英文注音 | 中文注音 |
4+
| ---- | ---- | ---- | :------- | -------- |
5+
| 1 | Α | α | alpha | 阿尔法 |
6+
| 2 | Β | β | beta | 贝塔 |
7+
| 3 | Γ | γ | gamma | 伽马 |
8+
| 4 | Δ | δ | delta | 德尔塔 |
9+
| 5 | Ε | ε | epsilon | 伊普西龙 |
10+
| 6 | Ζ | ζ | zeta | 截塔 |
11+
| 7 | Η | η | eta | 艾塔 |
12+
| 8 | Θ | θ | thet | 西塔 |
13+
| 9 | Ι | ι | iot | 约塔 |
14+
| 10 | Κ | κ | kappa | 卡帕 |
15+
| 11 | Λ | λ | lambda | 兰布达 |
16+
| 12 | Μ | μ | mu ||
17+
| 13 | Ν | ν | nu ||
18+
| 14 | Ξ | ξ | xi | 克西 |
19+
| 15 | Ο | ο | omicron | 奥密克戎 |
20+
| 16 | Π | π | pi ||
21+
| 17 | Ρ | ρ | rho ||
22+
| 18 | Σ | σ | sigma | 西格马 |
23+
| 19 | Τ | τ | tau ||
24+
| 20 | Υ | υ | upsilon | 宇普西龙 |
25+
| 21 | Φ | φ | phi | 佛爱 |
26+
| 22 | Χ | χ | chi | 西 |
27+
| 23 | Ψ | ψ | psi | 普西 |
28+
| 24 | Ω | ω | omega | 欧米伽 |
29+
Lines changed: 16 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,16 @@
1+
标量:一个标量就是一个单独的数
2+
3+
向量:一个向量是一列数
4+
5+
矩阵 matrix:矩阵是一个二维数组,其中的每一个元素被两个索引(而非 一个)所确定
6+
7+
张量 tensor
8+
9+
转置 transpose:矩阵的转置是以对角线为轴的镜像, 这条从左上角到右下角的对角线被称为 主对角线(main diagonal)
10+
11+
![image-20190105125440615](../images/image-20190105125440615-6664080.png)
12+
13+
14+
15+
16+

02-线性代数/2.10 迹运算.md

Whitespace-only changes.

02-线性代数/2.11 行列式.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1 @@
1+
行列式,记作 det(A),是一个将方阵 A 映射到实数的函数。行列式等于矩阵特 征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小 了多少。如果行列式是 0,那么空间至少沿着某一维完全收缩了,使其失去了所有的 体积。如果行列式是 1,那么这个转换保持空间体积不变
Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,7 @@
1+
**主成分分析(principal components analysis, PCA)**
2+
3+
* 假设在 Rn 空间中我们有 m 个点 {x(1), . . . , x(m)},我们希望对这些点进行有损 压缩。有损压缩表示我们使用更少的内存,但损失一些精度去存储这些点。我们希 望损失的精度尽可能少
4+
5+
* 目标函数:$$c^* = arg_c min = 2x^\tau g(c) + g(c)^\tau g(c)$$
6+
7+
![image-20190107132325243](../images/image-20190107132325243-6838605.png)
Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
**点积**:两个相同维数的向量 x 和 y 的 点积(dot product)可看作是矩阵乘积 x⊤y
2+
3+
**元素对应乘积**:A ⊙ B,或者尘给Hadamard乘积
4+
Lines changed: 13 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,13 @@
1+
<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>
2+
3+
**单位矩阵**:任意向量和单位矩阵相乘,都不会改变,将保持 n 维向量不变的单位矩阵记作$$ I_n $$
4+
5+
6+
7+
8+
9+
10+
11+
12+
13+
Lines changed: 5 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,5 @@
1+
如果一组向量中 的任意一个向量都不能表示成其他向量的线性组合,那么这组向量称为 **线性无关 (linearly independent)**
2+
3+
矩阵必须是一个 方阵(square),即 m = n,并且所有列
4+
向量都是线性无关的。一个列向量线性相关的方阵被称为 奇异的(singular)
5+

02-线性代数/2.5 范数.md

Lines changed: 17 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,17 @@
1+
**范数**:衡量一个向量的大小
2+
3+
$$L^p$$范数的定义:$$||x||_b = (\sum|x_i|^p)^\frac{1}{p}$$
4+
5+
范数(包括 $$L^p$$ 范数)是将向量映射到非负值的函数
6+
7+
当 p = 2 时,$$L^2$$ 范数被称为 欧几里得范数(Euclidean norm)。
8+
9+
**最大范数(max norm)**:$$L^\infty$$
10+
11+
两个向量的 点积(dot product)可以用范数来表示。
12+
13+
$$x^\tau y = ||x||_2||y||_2cos\theta$$
14+
15+
其中 θ 表示 x 和 y 之间的夹角
16+
17+
如果 $$x^\tau y = 0$$,那么向量 x 和向量 y 互相 正交(orthogonal)
Lines changed: 9 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,9 @@
1+
**对角矩阵(diagonal matrix)**只在主对角线上含有非零元素,其他位置都是零
2+
3+
* 形式上,矩阵 D 是对角矩阵,当且仅当对于所有的$$ i \neq j,D_i,_j = 0$$
4+
5+
* 不是所有的对角矩阵都是方阵。长方形的矩阵也有可能是对角矩阵。非方阵的 对角矩阵没有逆矩阵
6+
7+
* 对称(symmetric)矩阵是转置和自己相等的矩阵 $$A = A^\tau$$
8+
9+

02-线性代数/2.7 特征分解.md

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,11 @@
1+
​ 方阵 A 的 **特征向量(eigenvector)** 是指与 A 相乘后相当于对该向量进行缩放 的非零向量 v: Av = λv
2+
3+
​ 标量 λ 被称为这个特征向量对应的 特征值(eigenvalue)
4+
5+
​ (类似地,我们也可以定义 左特征向量$$(left eigenvector)v^\tau A = λv^\tau $$,但是通常我们更关注 右特征向量 (right eigenvector))。
6+
7+
​ 如果 v 是 A 的特征向量,那么任何缩放后的向量 sv (s ∈ R,s ̸= 0) 也是 A 的 特征向量。此外,sv 和 v 有相同的特征值
8+
9+
​ 所有特征值都是正数的矩阵被称为 正定(positive definite);所有特征值都是非 负数的矩阵被称为 半正定(positive semidefinite)。同样地,所有特征值都是负数的 矩阵被称为 负定(negative definite);所有特征值都是非正数的矩阵被称为 半负定
10+
(negative semidefinite)
11+
Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,11 @@
1+
**奇异值分解(singular value decomposition, SVD)**
2+
3+
* 将矩阵分 解为 奇异向量(singular vector)和 奇异值(singular value)
4+
* $$A=UDV^\tau$$
5+
* 假设 A 是一个 m×n 的矩阵,那么 U 是一个 m×m 的矩阵,D 是一个 m×n
6+
的矩阵,V 是一个 n × n 矩阵
7+
* 阵 U 和 V 都定义为正交
8+
矩阵,而矩阵 D 定义为对角矩阵。注意,矩阵 D 不一定是方阵
9+
* 对角矩阵 D 对角线上的元素被称为矩阵 A 的 奇异值(singular value)。矩阵 U 的列向量被称为 左奇异向量(left singular vector),矩阵 V 的列向量被称 右奇异 向量(right singular vector)。
10+
* A 的 左奇 异向量(left singular vector)是 $$AA^⊤$$ 的特征向量。A 的 右奇异向量(right singular vector)是 $$A^⊤A$$ 的特征向量。A 的非零奇异值是$$ A^⊤A $$特征值的平方根,同时也是 $$AA^⊤ ​$$特征值的平方根
11+
Lines changed: 12 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,12 @@
1+
通过矩阵 A 的左逆 B 来求解线性方程:Ax = y
2+
等式两边左乘左逆 B 后,我们得到: x = By
3+
4+
$$A^+ = VD^+U^T$$
5+
6+
* 矩阵 U,D 和 V 是矩阵 A奇异值分解后得到的矩阵。对角矩阵 D 的伪逆
7+
D+ 是其非零元素取倒数之后再转置得到的。
8+
* 当矩阵 A 的列数多于行数时,使用伪逆求解线性方程是众多可能解法中的一
9+
种。特别地,$$x = A^+y $$是方程所有可行解中欧几里得范数 ∥x∥2 最小的一个。
10+
* 当矩阵 A 的行数多于列数时,可能没有解。在这种情况下,通过伪逆得到的 x
11+
使得 Ax 和 y 的欧几里得距离 ∥Ax−y∥2 最小。
12+
Lines changed: 9 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,9 @@
1+
**不确定性的三种来源:**
2+
3+
* 被建模系统内在的随机性
4+
* 不完全观测
5+
* 不完全建模
6+
7+
概率来表示一种 信任度(degree of belief) ,其中 1 表示非常肯定病人 患有流感,而 0 表示非常肯定病人没有流感。前面那种概率,直接与事件发生的频 率相联系,被称为 频率派概率(frequentist probability);而后者,涉及到确定性水 平,被称为 贝叶斯概率(Bayesian probability)。
8+
9+
​ 概率可以被看作是用于处理不确定性的逻辑扩展。逻辑提供了一套形式化的规 则,可以在给定某些命题是真或假的假设下,判断另外一些命题是真的还是假的。概 率论提供了一套形式化的规则,可以在给定一些命题的似然后,计算其他命题为真 的似然。
Lines changed: 24 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,24 @@
1+
**logistic sigmoid函数**
2+
3+
$$\sigma (x) = \frac {1}{1+exp(-x)}​$$
4+
5+
* logistic sigmoid 函数通常用来产生 Bernoulli 分布中的参数 φ,因为它的范围是 (0, 1),处在 φ 的有效取值范围内
6+
7+
* sigmoid 函数 在变量取绝对值非常大的正值或负值时会出现 饱和(saturate)现象,意味着函数会 变得很平,并且对输入的微小改变会变得不敏感
8+
9+
![image-20190107234524907](../images/image-20190107234524907-6875924.png)
10+
11+
12+
13+
**softplus 函数(softplus function)**:
14+
15+
$$\zeta(x) = log(1+exp(x))$$
16+
17+
![image-20190107234545458](../images/image-20190107234545458-6875945.png)
18+
19+
![image-20190107234708940](../images/image-20190107234708940-6876028.png)
20+
21+
softplus 函数被设计成 正 部函数(positive part function)的平滑版本,这个正部函数是指 x+ = 􏰮􏰦􏰀{0, x}
22+
23+
与正部函数相对的是 负部函数(negative part function)x− = 􏰮􏰦􏰀{0, −x}。为了获 得类似负部函数的一个平滑函数,我们可以使用 ζ(−x)
24+
Lines changed: 8 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,8 @@
1+
**贝叶斯规则**:
2+
3+
$$P(x|y) = \frac {P(x) P(y|x)}{P(y)}$$
4+
5+
$$P (y􏰥) = \sum P (􏰥 y| x)P (x) $$
6+
7+
并不需要计算P(y)的概率
8+

03-概率与信息论/3.12 连续型变量的技术细节.md

Whitespace-only changes.
Lines changed: 37 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,37 @@
1+
**自信息**
2+
3+
$$I(x) = -logP(x) $$
4+
5+
* 用 􏰱􏰲􏰳 log 来表示自然对数,其底数为 e
6+
* 定义的 I(x) 单位是奈特(nats)。一奈特是以 $$\frac{1}{e}$$ 的概率观测到一个事件时获得的信息量
7+
8+
底数为 2 的对数,单位是比特(bit)或者香农(shannons);通过比特度 量的信息只是通过奈特度量信息的常数倍。
9+
10+
**自信息只处理单个的输出**
11+
12+
* 用香农熵 Shannon entropy 来对整个概率分布中的不确定性总量进行量化:
13+
* $$H (x􏰀) = E􏰀_{x~P} [I (x)] = −E􏰀_{x~P} [􏰱􏰲􏰳 logP (x)]$$
14+
* 一个分布的香农熵是指遵循这个分布的事件所产生的期望信 息总量
15+
16+
![image-20190108000220002](../images/image-20190108000220002-6876940.png)
17+
18+
对于同一个随机变量 􏰀 有两个单独的概率分布 P (􏰀x) 和 Q(x􏰀),我们可 以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异
19+
20+
21+
22+
​ 在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使 得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号 的消息时,所需要的额外信息量 (如果我们使用底数为 2 的对数时,信息量用比特衡 量,但在机器学习中,我们通常用奈特和自然对数。)
23+
24+
25+
26+
**KL散度**
27+
28+
* 是非负的
29+
* ![image-20190108000450046](../images/image-20190108000450046-6877090.png)
30+
* KL 散度为 0 当且仅当 P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是 ‘‘几乎 处处’’ 相同的
31+
* KL 散度是非负的并且衡量的是两个分布之间的差异,它经常 被用作分布之间的某种距离。然而,它并不是真的距离因为它不是对称的
32+
33+
一个和 KL 散度密切联系的量是交叉熵(cross-entropy)
34+
35+
* ![image-20190108000658254](../images/image-20190108000658254-6877218.png)
36+
* 针对 Q 最小化交叉熵等价于最小化 KL 散度,因为 Q 并不参与被省略的那一项
37+
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
有向(directed)模型使用带有有向边的图,它们用条件概率分布来表示分解
2+
3+
无向(undirected)模型使用带有无向边的图,它们将分解表示成一组函数
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
随机变量(random variable)是可以随机地取不同值的变量
2+
3+
用无格 式字体 (plain typeface) 中的小写字母来表示随机变量本身,而用手写体中的小写字 母来表示随机变量能够取到的值

0 commit comments

Comments
 (0)