首页 >> 大全

python财经数据接口工具_API数据接口_免费_数据采集_数据下载_文本挖掘

2023-12-16 大全 29 作者:考证青年

最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵()、互信息(point )和困惑值()等(不过这些概念我其实也还理解不深...只是nltk 提供了相应方法)。

我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。

中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词,所以必须要先对文本进行分词然后再用nltk 来处理(不需要用nltk 来做分词,直接用分词包就可以了。严重推荐结巴分词,非常好用)。

中文分词之后,文本就是一个由每个词组成的长数组:[word1, word2, word3…… wordn]。之后就可以使用nltk 里面的各种方法来处理这个文本了。比如用 统计文本词频,用 把文本变成双词组的形式:[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

再之后就可以用这些来计算文本词语的信息熵、互信息等。

再之后可以用这些来选择机器学习的特征,构建分类器,对文本进行分类(商品评论是由多个独立评论组成的多维数组,网上有很多情感分类的实现例子用的就是nltk 中的商品评论语料库,不过是英文的。但整个思想是可以一致的)。

另外还有一个困扰很多人的 中文编码问题。多次失败后我总结出一些经验。

解决中文编码问题基本可以用以下逻辑:

utf8(输入) ——> (处理) ——> (输出)utf8

里面处理的字符都是都是 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为()编码,然后输出时再编码()成所需编码。

由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用 处理的时候解码为(.('utf8')),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了)。

另外这篇文章也有很详细的讲到nltk 的中文应用,很值得参考:

1.NLTK

NLTK 在使用 处理自然语言的工具中处于领先的地位。它提供了 这种方便处理词汇资源的接口,以及分类、分词、词干提取、标注、语法分析、语义推理等类库。

网站

安装 NLTK: sudo pip -U nltk

安装 Numpy (可选): sudo pip -U numpy

安装测试: then type nltk

2.

拥有一系列的自然语言处理工具,比如说词性标注工具(Part-Of- ),N元搜索(n-gram ),情感分析( ),。它也支持机器学习的向量空间模型,聚类,向量机。

网站:

安装:

pip

3.

是一个处理文本数据的 库。它提供了一个简单的 api 来解决一些常见的自然语言处理任务,例如词性标注、名词短语抽取、情感分析、分类、翻译等等。

网站:

安装:

pip -U

4.

是一个 库,用于对大型语料库进行主题建模、文件索引、相似度检索等。它可以处理大于内存的输入数据。作者说它是“纯文本上无监督的语义建模最健壮、高效、易用的软件。”

网站:

安装:

pip -U

5.

它的全称是: 自然语言处理库( ,音发作: ) 是一个用于自然语言处理任务库。它集合了各种独立或松散互相关的,那些常见的、不常见的、对NLP 任务有用的模块。 可以用来处理 N 元搜索,计算频率表和分布,建立语言模型。它还可以处理向优先队列这种更加复杂的数据结构,或者像 Beam 搜索这种更加复杂的算法。

安装:

LInux:sudo apt-get pymol

:yum pymol

6.spaCy

这是一个商业的开源软件。结合了 和 优异的 NLP 工具。是快速的,最先进的自然语言处理工具。

网站:

安装:

pip spacy

7.

支持大规模多语言应用程序的处理。它支持165种语言的分词,196中语言的辨识,40种语言的专有名词识别,16种语言的词性标注,136种语言的情感分析,137种语言的嵌入,135种语言的形态分析,以及69种语言的翻译。

网站:

安装

pip

8.

是一个免费的、功能强大的、端到端的英文处理工具。在 输入原始英文文本 ,输出就会得到这段文本的语义解释。它适用于信息检索和提取,请求处理,问答系统。从英文文本中,它能提取出主动宾元组,形容词、名词和动词短语,人名、地名、事件,日期和时间等语义信息。

网站:

~hugo//

9.BLLIP

BLLIP (也叫做 - )是一个集成了生成成分分析器和最大熵排序的统计自然语言分析器。它包括命令行和接口。

10.Quepy

Quepy 是一个 框架,提供了将自然语言问题转换成为数据库查询语言中的查询。它可以方便地自定义自然语言中不同类型的问题和数据库查询。所以,通过 Quepy,仅仅修改几行代码,就可以构建你自己的自然语言查询数据库系统。

网站

人工智能大数据与深度学习

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了