NetCore 使用 iTextSharp 读取 PDF 中的文字信息
2021-02-13 12:16
标签:content leo page array nis github while simple mac 问题描述:使用默认 iTextSharp 读取文字没有问题,代码如下: 但是默认5.X不支持NetCore平台。。。 解决方案: 引用大佬写的新包 读取的方法如下: 参考地址:https://github.com/VahidN/iTextSharp.LGPLv2.Core/blob/master/src/iTextSharp.LGPLv2.Core.FunctionalTests/PdfReaderTests.cs NetCore 使用 iTextSharp 读取 PDF 中的文字信息 标签:content leo page array nis github while simple mac 原文地址:https://www.cnblogs.com/wangbg/p/13019997.htmlPdfReader reader = new PdfReader(strFileName);
var totalPageCount = reader.NumberOfPages;
for (int i = 0; i )
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(reader, i + 1, strategy);
var tempContent = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
}
PdfReader reader = new PdfReader(strFileName);
var totalPageCount = reader.NumberOfPages;
for (int i = 0; i )
{
var streamBytes = reader.GetPageContent(i + 1);
var tokenizer = new PrTokeniser(new RandomAccessFileOrArray(streamBytes));
var stringsList = new Liststring>();
while (tokenizer.NextToken())
{
if (tokenizer.TokenType == PrTokeniser.TK_STRING)
{
stringsList.Add(tokenizer.StringValue);
}
}
var tempaaa = string.Join("", stringsList);
}
文章标题:NetCore 使用 iTextSharp 读取 PDF 中的文字信息
文章链接:http://soscw.com/essay/54850.html