语言模型2:二元文法求句子概率代码
在上一篇博客里,简单的介绍了语言模型,其中举了一个例子,这里就用代码来实现实现目标句子出现概率的求值。
如果想再一次回顾语言模型的理论知识,可以直接点击语言模型(N-Gram)
语料库:
研究生物很有意思。
他是研究应用。
踏实研究生物的。
他实验救生物的。
他大学时代是研究生物的。
生物专业是他的首选目标。
P(s) = P(他|)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(|的)
= 3/6 * 1/4 * 2/3 * 3/4 * 3/5 * 3/4
代码展示 1、导入包
import jieba
import re
from zhon.hanzi import punctuation
from _overlapped import NULL
2、将句子变