温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

利用Java怎么对PDF中的文本与图片进行读取

发布时间:2021-01-16 10:34:10 来源:亿速云 阅读:283 作者:Leah 栏目:编程语言

利用Java怎么对PDF中的文本与图片进行读取?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

Jar文件获取导入:

方法1:通过官网下载jar文件包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序。导入后如下图:

利用Java怎么对PDF中的文本与图片进行读取

方法2: 可通过maven仓库安装导入。

Java代码示例

import com.spire.pdf.*; import javax.imageio.ImageIO; import java.awt.image.BufferedImage; import java.io.File; import java.io.FileWriter; import java.io.IOException; public class ExtractText {   public static void main(String[]args) throws Exception {     //加载测试文档     PdfDocument pdf = new PdfDocument("sample.pdf");     //实例化StringBuilder类     StringBuilder sb = new StringBuilder();     //定义一个int型变量     int index = 0;     //遍历PDF文档中每页     PdfPageBase page;     for (int i= 0; i<pdf.getPages().getCount();i++) {       page = pdf.getPages().get(i);       //调用extractText()方法提取文本       sb.append(page.extractText(true));       FileWriter writer;       try {         //将StringBuilder对象中的文本写入到txt         writer = new FileWriter("ExtractText.txt");         writer.write(sb.toString());         writer.flush();       } catch (IOException e) {         e.printStackTrace();       }       //调用extractImages方法获取图片       for (BufferedImage image : page.extractImages()) {           //指定输出图片名,指定图片格式           File output = new File(String.format("Image_%d.png", index++));           ImageIO.write(image, "PNG", output);       }     }     pdf.close();   } }

关于利用Java怎么对PDF中的文本与图片进行读取问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI