词频统计(python)
2021-05-17 21:29
标签:The and 字典 strong 主函数 dir out src with 1.读文件到缓冲区 4.设立主函数,用于测试 使用 4 个空格进行缩进 空格 在二元运算符两边各空一格 2.对A_Tale_of_Two_Cities.txt进行词频统计
四、性能分析结果及改进 为了更明显的看出差异,选择对Gone_with_the_wind.txt进行分析和改进 1.性能分析 (1)总运行时间 (2)执行时间、次数最多的部分代码 根据数据可以看出,如果除去函数中调用子函数的运行时间,执行次数最多且执行时间最多的代码是 2.代码改进 根据测试结果,最耗时间和次数最多的代码并不方便修改,我就从耗费时间第二多的replace 以及 split代码入手, 将原来的代码: 变为: 结果如下: 运行时间: 结果:比之前的0.669快了0.09秒,对于计算计而言已经算是非常漫长的时间了,在实验过程中我发现当我的电脑处于“繁忙”状态时,运行的总时间是0.97左右,有时候甚至高于1秒,当我把不用的软件关掉时,时间就会缩短,可见电脑性能也会影响实验结果。 词频统计(python) 标签:The and 字典 strong 主函数 dir out src with 原文地址:https://www.cnblogs.com/vahala/p/9745915.html一、程序分析
def process_file(dst): # 读文件到缓冲区
try: # 打开文件
file1 = open(dst, "r")
except IOError as s:
print(s)
return None
try: # 读文件到缓冲区
bvffer = file1.read()
except:
print("Read File Error!")
return None
file1.close()
return bvffer
2.处理缓冲区 bvffer的文件,统计每个单词的频率,存放在字典word_freqdef process_buffer(bvffer):
if bvffer:
word_freq = {}
# 下面添加处理缓冲区 bvffer代码,统计每个单词的频率,存放在字典word_freq
for i in ‘!"#$%&()*+-,-./:;?@“”[\\]^_{|}~‘:
bvffer = bvffer.replace(i, " ") # 替换特殊字符
bvffer = bvffer.lower() # 把大写字母转换为小写
words = bvffer.split() # 分割字符串
for word in words:
word_freq[word] = word_freq.get(word, 0)+1
return word_freq3.用输出函数将处理好的单词按词频排序,输出词频Top10 的单词
def output_result(word_freq):
if word_freq:
sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)
for item in sorted_word_freq[:10]: # 输出 Top 10 的单词
print("%-5s %d " % (item[0], item[1]))def main():
parser = argparse.ArgumentParser()
parser.add_argument(‘dst‘)
args = parser.parse_args()
dst = args.dst
bvffer = process_file(dst)
word_freq = process_buffer(bvffer)
output_result(word_freq)
5.用cProfile对代码性能进行测试if __name__ == "__main__":
import cProfile
import pstats
import argparse
cProfile.run("main()", "result")
# 直接把分析结果打印到控制台
p = pstats.Stats("result") # 创建Stats对象
p.sort_stats(‘calls‘).print_stats(10)
# 按照调用次数排序,打印前10函数的信息
p.strip_dirs().sort_stats("cumulative", "name").print_stats(10)
p.strip_dirs().sort_stats("cumulative").print_stats() # 按执行时间次数排序
p.print_callers(0.5, "process_file") # 得知哪些函数调用了process_file
p.print_callers(0.5, "process_buffer")
p.print_callers(0.5, "output_result") 二、代码风格
缩进
def process_buffer(bvffer):
if bvffer:
word_freq = {}[=,-,+=,==,>,in,is not, and]
bvffer = file1.read()
三、程序运行命令、运行结果截图
1.对Gone_with_the_wind.txt进行词频统计
for word in words:
word_freq[word] = word_freq.get(word, 0)+1 for i in ‘!"#$%&()*+-,-./:;?@“”[\\]^_{|}~‘:
bvffer = bvffer.replace(i, " ") # 替换特殊字符
bvffer = bvffer.lower() # 把大写字母转换为小写
words = bvffer.split() # 分割字符串 words = bvffer.lower().strip().split()
上一篇:初识c++