Skip to content

Commit 2beb3ae

Browse files
committed
docs(chapter1): 更新NLP基础章节内容,添加分词和向量空间模型示例
添加中文分词示例展示正确与错误的分词结果对比 补充向量空间模型的稀疏性示例代码说明
1 parent 9efbb69 commit 2beb3ae

File tree

1 file changed

+26
-2
lines changed

1 file changed

+26
-2
lines changed

docs/chapter1/第一章 NLP基础概念.md

Lines changed: 26 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -42,9 +42,20 @@ NLP 的早期探索始于二战后,当时人们认识到将一种语言自动
4242
中文分词(Chinese Word Segmentation, CWS)是 NLP 领域中的一个基础任务。在处理中文文本时,由于中文语言的特点,词与词之间没有像英文那样的明显分隔(如空格),所以无法直接通过空格来确定词的边界。因此,中文分词成为了中文文本处理的首要步骤,其目的是将连续的中文文本切分成有意义的词汇序列。
4343

4444
```
45-
输入:今天天气真好,适合出去游玩.
45+
英文输入:The cat sits on the mat.
46+
英文切割输出:[The | cat | sits | on | the | mat]
47+
中文输入:今天天气真好,适合出去游玩.
48+
中文切割输出:["今天", "天气", "真", "好", ",", "适合", "出去", "游玩", "。"]
49+
```
50+
51+
正确的分词结果对于后续的词性标注、实体识别、句法分析等任务至关重要。如果分词不准确,将直接影响到整个文本处理流程的效果。
52+
53+
```
54+
输入:雍和宫的荷花开的很好。
4655
47-
输出:["今天", "天气", "真", "好", ",", "适合", "出去", "游玩", "。"]
56+
正确切割:雍和宫 | 的 | 荷花 | 开 | 的 | 很 | 好 | 。
57+
错误切割 1:雍 | 和 | 宫的 | 荷花 | 开的 | 很好 | 。 (地名被拆散)
58+
错误切割 2:雍和 | 宫 | 的荷 | 花开 | 的很 | 好。 (词汇边界混乱)
4859
```
4960

5061
正确的分词结果对于后续的词性标注、实体识别、句法分析等任务至关重要。如果分词不准确,将直接影响到整个文本处理流程的效果。
@@ -196,6 +207,19 @@ NLP 的早期探索始于二战后,当时人们认识到将一种语言自动
196207

197208
然而,向量空间模型也存在很多问题。其中最主要的是数据稀疏性和维数灾难问题,因为特征项数量庞大导致向量维度极高,同时多数元素值为零。此外,由于模型基于特征项之间的独立性假设,忽略了文本中的结构信息,如词序和上下文信息,限制了模型的表现力。特征项的选择和权重计算方法的不足也是向量空间模型需要解决的问题。
198209

210+
VSM 方法词向量:
211+
212+
```python
213+
# "雍和宫的荷花很美"
214+
# 词汇表大小:16384,句子包含词汇:["雍和宫", "的", "荷花", "很", "美"] = 5个词
215+
216+
vector = [0, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ...]
217+
# ↑ ↑ ↑ ↑ ↑
218+
# 16384维中只有5个位置为1,其余16379个位置为0
219+
# 实际有效维度:仅5维(非零维度)
220+
# 稀疏率:(16384-5)/16384 ≈ 99.97%
221+
```
222+
199223
为了解决这些问题,研究者们对向量空间模型的研究主要集中在两个方面:一是改进特征表示方法,如借助图方法、主题方法等进行关键词抽取;二是改进和优化特征项权重的计算方法,可以在现有方法的基础上进行融合计算或提出新的计算方法.
200224

201225
### 1.4.2 语言模型

0 commit comments

Comments
 (0)