数据结构与算法专题——第四题 字符串相似度
2021-03-30 15:26
标签:== mamicode lse strong 情况下 string mat 最小值 有用 对于两个字符串 A 和 B,通过基本的增删改将字符串 A 改成 B,或者将 B 改成 A,在改变的过程中使用的最少步骤称之为: 编辑距离。比如如下的字符串:我们通过种种操作,痉挛之后编辑距离为3,不知道你看出来了没有? 可能大家觉得有点复杂,不好理解,我试着把这个大问题拆分掉,将 字符串 vs 字符串,分解成 字符 vs 字符串,再分解成字符 vs 字符。 1. 字符 vs 字符 这种情况是最简单的了,比如 A 与 B 的编辑距离很显然是1。 2. 字符 vs 字符串 A 改成 AB 的编辑距离为1,A 与 ABA 的编辑距离为2。 3. 字符串 vs 字符串 ABA 和 BBA 的编辑距离为1,仔细发现可以得出如下结论,ABA 是由2^3个子序列与 BBA 字符串求的的编辑距离集合中取出的最小编辑距离,也就是说在这种情况下我们出现了重复计算的情况,我在求子序列 AB 和 BBA 的编辑距离时,我是由子序列 A 和 BBA 与 B 和 BBA 之间的编辑距离中选出一个最小值,然而序列A和序列B早之前我已经计算过了,这种重复计算的问题有点像 斐波那契,正好满足动态规划中的最优子结构和重叠子问题,所以我决定采用动态规划来解决。 跟最长公共子序列一样,可以采用一个二维数组来保存字符串 X 和 Y 当前的位置的最小编辑距离。现有两个序列X={x1,x2,x3,...xi},Y={y1,y2,y3,....,yi}。 设一个C[i,j]: 保存Xi与Yj的当前最小的LD。 当 Xi = Yi 时,则C[i,j]=C[i-1,j-1]; 最终我们的C[i,j]一直保存着最小的LD。 数据结构与算法专题——第四题 字符串相似度 标签:== mamicode lse strong 情况下 string mat 最小值 有用 原文地址:https://blog.51cto.com/huangxincheng/2525501一:概念
二:解析
三:公式
四:代码
using System;
namespace ConsoleApplication2
{
public class Program
{
static int[,] martix;
static string str1 = string.Empty;
static string str2 = string.Empty;
static void Main(string[] args)
{
while (true)
{
str1 = Console.ReadLine();
str2 = Console.ReadLine();
martix = new int[str1.Length + 1, str2.Length + 1];
Console.WriteLine("字符串 {0} 和 {1} 的编辑距离为:{2}\n", str1, str2, LD());
}
}
///
文章标题:数据结构与算法专题——第四题 字符串相似度
文章链接:http://soscw.com/index.php/essay/70041.html