Hello!!大家吼啊,这里是百科菌的每日python时间。相信大家在日常生活中都遇到过需要将pdf文件转换为Wrod文档的时候,而每次需要用到这个功能的时候呢,又会发现转换的平台不是收费,就是每天都有次数限制且转换速度苦不堪言,用起来着实不爽,所以为啥不自己写个代码来实现这一功能呢?又没有次数限制,也不用下载多余的程序,还没有文件泄露的危险。那么今天要给大家介绍的是基于python自带PyPDF2和python-docx库的PDF转为Word文档的代码。按照惯例来个简单的python介绍~
Python拥有强大的标准库为python提供了大量的工具和模块,涵盖了许多常用任务,如文件 I/O、网络编程、GUI 编程等。也正是因为如此可以让开发者或是编程爱好者快速上手,来实现那些趣的功能。
1、代码部分
import os
import io
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage
from docx import Document
def pdf_to_docx(pdf_path, docx_path):
# Open PDF file, read it with PDFMiner
with open(pdf_path, 'rb') as pdf_file:
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = pdfminer.layout.LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Iterate through pages and extract text
for page in PDFPage.get_pages(pdf_file):
interpreter.process_page(page)
text = retstr.getvalue()
# Create a new Word document and add the text
document = Document()
document.add_paragraph(text)
# Save the Word document
document.save(docx_path)
print('PDF converted to Word document!')
# Example usage
pdf_to_docx('example.pdf', 'example.docx')
2、效果展示
首先写一个用于测试的pdf文件命名为test11
将文件地址写入代码中如图所示,后方转换的地址为自己选择的地址,运行代码会自动生成word文件
在指定目录生成转换后的word文件。百科菌呢因为选择的是桌面,所以可以在桌面看到这个文件
注意事项
运行代码可能会出现没能找到模块的报错,这里是需要安装的模块指令
安装pdfminer模块
pip install pdfminer
安装docx模块
pip install python-docx
本次的pdf转换word文档是一个简单的示范代码,可能无法处理所有类型的PDF文件。具体而言,它可能会遇到一些具有复杂布局或嵌入式图像的PDF文件,这些文件可能需要更复杂的解决方案。
欢迎大家使用,来体验一下用自己写的代码转换文档的快感吧!
页面更新:2024-05-19
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号