博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
C# 使用 iTextSharp 将 PDF 转换成 TXT 文本
阅读量:6976 次
发布时间:2019-06-27

本文共 823 字,大约阅读时间需要 2 分钟。

1             var pdfReader = new PdfReader("xxx.pdf"); 2              3             StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create)); 4  5             int pageCount = pdfReader.NumberOfPages; 6             for (int pg = 1; pg <= pageCount; pg++) 7             { 8                 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); 9                 var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);10                 value = value.Replace(" ", "");11                 Console.WriteLine(value);12                 output.Write(value);13             }14 15             output.Flush();16             output.Close();17             Console.Write("处理完毕");18             Console.ReadLine();

 

该方法读出的汉字不会乱码。

转载于:https://www.cnblogs.com/Aaxuan/p/10545961.html

你可能感兴趣的文章
使用sudo进入root权限,以及防止root密码被恶意篡改
查看>>
Android 多媒体综述
查看>>
route命令相关整理
查看>>
关于VS2012如何安装Windows Phone Toolkit
查看>>
Forefront for OCS2007之部署
查看>>
IBM Thinkpad T43-44U 升级到 2G 内存后少了 66M
查看>>
【No.1_sizeof与strlen】
查看>>
SMO学习笔记(二)——还原(恢复)篇之完整恢复
查看>>
Windows Server 2003 AD升级到Windows Server 2008 AD的方法及详细步骤
查看>>
设置php-fpm使用socket文件
查看>>
用 Label 控制 Service 的位置 - 每天5分钟玩转 Docker 容器技术(106)
查看>>
Android美工坊:Selector选择器的使用
查看>>
Nginx&Apache&PHP参数汇总
查看>>
Android重绘ListView高度
查看>>
centos6 防火墙iptables操作整理
查看>>
Android 中文 API (25) —— ZoomControls
查看>>
转载:python原生态的输入窗口抖动+输入特效
查看>>
给 Windows 驱动程序安装提速
查看>>
提高mysql性能的开源软件
查看>>
ExtJs 备忘录(3)—— Form表单(三) [ 数据验证 ]
查看>>