python jieba

2021-01-28 22:16

阅读：708

标签：word 全面分词索引 port extra extract 中国科学院 join

pip install jieba

分词

import jieba 
seg_list = jieba.cut("我来到清华大学", cut_all=True)
# join 是 split 的逆操作
# 即使用一个拼接符将一个列表拼成字符感
print("/".join(seg_list) # 全模式
      
seg_list = jieba.cut("我来到清华大学", cut_all=False)
print("/".join(seg_list)) # 精确模式 默认
      
seg_list = jieba.cut_for_search("”小明硕士毕业于中国科学院计算所，后来在日本京都大学深造") # 搜索引擎模式
print("/".join(seg_list))

关键词提取

import jieba.analyse

content = """中国特色社会主义是我们党领导的伟大事业，全部推进党的建设新的伟大工程，是这
一伟大事业取得胜利的关键所在。党坚强有力，事业才能兴旺发达，阔家才能繁荣稳定，人民才能幸
桶安康。党的十八大以来，我们党坚持党要管党、从严治党， 1疑心聚力、直击积弊、扶正被邪，党的
建设开创新局面，党风政风呈现新气象。围绕从严管党治党提出一系列新的茧要思想，
为全面推进党的建设新的伟大工程进一步指明了方向。"""

# 第一个参数：待提取关键词的文本
# 第二个参数：返回关键词的数量，重要性从高到低排序
# 第三个参数：是否同时返回每个关键词的权重
# 使用 TF-IDF 提取关键词
keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True)
for key, weight in keywords:
    print(key, weight)

# 使用 TextRank 提取关键词
keywords = jieba.analyse.textrank(content, topK=20, withWeight=True)
for key, weight in keywords:
    print(key, weight)

停用词

from jieba import analyse
analyse.set_stop_words("stop_word.csv")

stop_word.csv

此后
恐怕
以及
你
我
他

python jieba

标签：word 全面分词索引 port extra extract 中国科学院 join

原文地址：https://www.cnblogs.com/iFanLiwei/p/12833830.html

上一篇：spring cloud 使用zipkin服务链路追踪

下一篇：使用JavaScript完成表单的校验

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：python jieba
文章链接：http://soscw.com/index.php/essay/48428.html

亲，登录后才可以留言！

python jieba

分词

关键词提取

停用词

评论

热门文章

推荐文章

最新文章

置顶文章