每日python之PDF转为Word文档

Hello！！大家吼啊，这里是百科菌的每日python时间。相信大家在日常生活中都遇到过需要将pdf文件转换为Wrod文档的时候，而每次需要用到这个功能的时候呢，又会发现转换的平台不是收费，就是每天都有次数限制且转换速度苦不堪言，用起来着实不爽，所以为啥不自己写个代码来实现这一功能呢？又没有次数限制，也不用下载多余的程序，还没有文件泄露的危险。那么今天要给大家介绍的是基于python自带PyPDF2和python-docx库的PDF转为Word文档的代码。按照惯例来个简单的python介绍～

Python拥有强大的标准库为python提供了大量的工具和模块，涵盖了许多常用任务，如文件 I/O、网络编程、GUI 编程等。也正是因为如此可以让开发者或是编程爱好者快速上手，来实现那些趣的功能。

1、代码部分

import os
import io
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage
from docx import Document

def pdf_to_docx(pdf_path, docx_path):
    # Open PDF file, read it with PDFMiner
    with open(pdf_path, 'rb') as pdf_file:
        rsrcmgr = PDFResourceManager()
        retstr = io.StringIO()
        codec = 'utf-8'
        laparams = pdfminer.layout.LAParams()
        device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # Iterate through pages and extract text
        for page in PDFPage.get_pages(pdf_file):
            interpreter.process_page(page)
            text = retstr.getvalue()

        # Create a new Word document and add the text
        document = Document()
        document.add_paragraph(text)

        # Save the Word document
        document.save(docx_path)

    print('PDF converted to Word document!')

# Example usage
pdf_to_docx('example.pdf', 'example.docx')

2、效果展示

首先写一个用于测试的pdf文件命名为test11

创建命名为test11的pdf文件

将文件地址写入代码中如图所示，后方转换的地址为自己选择的地址，运行代码会自动生成word文件

将文件地址写入

输出上述语句表明代码运行成功

在指定目录生成转换后的word文件。百科菌呢因为选择的是桌面，所以可以在桌面看到这个文件

转换成功

打开转换的word查看效果

注意事项

运行代码可能会出现没能找到模块的报错，这里是需要安装的模块指令

安装pdfminer模块

pip install pdfminer

安装docx模块

pip install python-docx

本次的pdf转换word文档是一个简单的示范代码，可能无法处理所有类型的PDF文件。具体而言，它可能会遇到一些具有复杂布局或嵌入式图像的PDF文件，这些文件可能需要更复杂的解决方案。

欢迎大家使用，来体验一下用自己写的代码转换文档的快感吧！

展开阅读全文

页面更新：2024-05-19

标签：文档可能会模块百科次数桌面代码地址功能文件

1 2 3 4 5

每日python之PDF转为Word文档

画质ai具体操作教程，有AI配音软件吗？

打起来了！多家代工大厂降价抢客，三星台积电还能撑多久？

python中pandas读取excel单列及连续多列数据

不仅仅是华为，28家我国科技企业也被美列入“实体清单”

SEAPRWire拓展全球业务，为AI创业公司提供亚洲顶级媒体分发服务

ChatGPT加速数字永生的到来

华为新机即将发布，Mate 50开启“降价模式”，现在买也很值！

中通打响末端之战，仍采取低价策略，“快递+商业”模式不被看好

2600公里大单，车费才3300元，司机抢下来问乘客加价1万才去！

一加Ace2V真机上手：旗舰芯+大运存+高端质感，价格屠夫实锤

iPhone 15 Pro 要起飞，按着安卓锤！

B站做错了什么？

盘点全球十大骨科机器人手术公司及其行业发展趋势

工业富联打败了多少价值投资者和长期主义！

超10项重点标准“急用先行” 一张地图对智能汽车有多重要？

微软确认Win11今年会有23H2年度功能更新

TCL推出全新「灵控桌面」，好看更好用，还能“私人订制”！

不管兄弟姐妹关系再好，也不要互相帮这3个忙，可能会反目

设计师提取出黄色版iPhone 14/14 Plus的新壁纸（附下载

Google 云端硬盘、文档、表格和幻灯片焕然一新

深夜刷屏！西安一份文件刷爆，德国检察院传来北溪重磅！人民

两会之后，这6个方面可能会有所调整，看看哪些与你有关

60岁以上农民工全部清退？中央一号文件：5个方面保证农民

代码生成 - 放开双手，专注业务，一键生成项目基础结构 +

linux常用功能-后台运行