C# Net 比较2个字符串的相似度(使用余弦相似度)
标签:trim math sim 字符 分词 style sum name 天气
C# Net 比较2个字符串的相似度(使用余弦相似度)
复制代码使用:
///
/// 比较2个字符串的相似度(使用余弦相似度)
///
///
///
/// 0-1之间的数
public static double SimilarityCos(string str1, string str2)
{
str1 = str1.Trim();
str2 = str2.Trim();
if (string.IsNullOrEmpty(str1) || string.IsNullOrEmpty(str2))
return 0;
Liststring> lstr1 = SimpParticiple(str1);
Liststring> lstr2 = SimpParticiple(str2);
//求并集
var strUnion = lstr1.Union(lstr2);
//求向量
Listint> int1 = new Listint>();
Listint> int2 = new Listint>();
foreach (var item in strUnion)
{
int1.Add(lstr1.Count(o => o == item));
int2.Add(lstr2.Count(o => o == item));
}
double s = 0;
double den1 = 0;
double den2 = 0;
for (int i = 0; i )
{
//求分子
s += int1[i] * int2[i];
//求分母(1)
den1 += Math.Pow(int1[i], 2);
//求分母(2)
den2 += Math.Pow(int2[i], 2);
}
return s / (Math.Sqrt(den1) * Math.Sqrt(den2));
}
///
/// 简单分词(需要更好的效果,需要这里优化,比如把:【今天天气很好】,分成【今天,天气,很好】,同时可以做同义词优化,【今天】=【今日】效果更好)
///
public static Liststring> SimpParticiple(string str)
{
Liststring> vs = new Liststring>();
foreach (var item in str)
{
vs.Add(item.ToString());
}
return vs;
}
C# Net 比较2个字符串的相似度(使用余弦相似度)
标签:trim math sim 字符 分词 style sum name 天气
原文地址:https://www.cnblogs.com/ping9719/p/11904458.html
评论