中文分词:正向匹配最大算法(FMM)
2021-06-06 03:01
                         标签:基于   表示   name   概率   代码   raw   实现   else   统计    中文分词:正向匹配最大算法(FMM) 标签:基于   表示   name   概率   代码   raw   实现   else   统计    原文地址:https://www.cnblogs.com/yangzilaing/p/14616517.html中文分词:正向匹配最大算法
正向最大匹配法,对于输入的一段文本从左至右、以贪心的方式切出当前位置上长度最大的词。正向最大匹配法是基于词典的分词方,其分词原理是:单词的颗粒度越大,所能表示的含义越确切。该算法主要分两个步骤:
代码实现
#使用正向最大匹配算法实现中文分词
words_dic = []
def init():
    ‘‘‘
    读取词典文件
    载入词典
    :return:
    ‘‘‘
    with open(r"C:\Users\lenovo\PycharmProjects\fenci\venv\dic\dic.txt","r",encoding="utf-8") as dic_input:
        for word in dic_input:
            words_dic.append(word.strip())#列表
    #实现正向匹配算法中的切词方法
def cut_words(raw_sentence,word_dict):
    #统计词典中最长的词
    max_length = max(len(word) for word in words_dic)
    sentence = raw_sentence.strip()
    #统计序列长度
    word_length = len(sentence)
    #存储切分好的词语
    cut_word_list = []
    while word_length > 0:
        max_cut_length = min(max_length,word_length)#判断最长词语与句子的长度
        subsentence = sentence[0:max_cut_length] #子句与就是最大的长度
        while max_cut_length > 0:
            if subsentence in word_dict:#如果句子是长的,那么从头便取最大词的长度,如果在,首词便框住
                cut_word_list.append(subsentence) #如果不在词典岂不是完蛋了
                break
            elif max_cut_length == 1:
                cut_word_list.append(subsentence)
                break
            else:
                max_cut_length = max_cut_length-1 #大概率是不在的,因此切得长度减1
                subsentence = subsentence[0:max_cut_length]
        sentence = sentence[max_cut_length:]
        words_length = word_length - max_cut_length
        if words_length == 0:
            break
    words = "/".join(cut_word_list)
    return words
def main():
    ‘‘‘
    与用户交互接口
    :return:
    ‘‘‘
    init()
    while True:
        print("请输入要分词序列:")
        input_str = input()
        if not input_str:
            break
        result = cut_words(input_str,words_dic)
        print("分词结果")
        print(result)
if __name__=="__main__":
    main()
上一篇:windows快捷键
下一篇:Java基础:数组拓展