python爬pdf的曲线_科学网—Python爬PDF - 胡鹏程的博文

 2023-09-13 阅读 28 评论 0

摘要:最近用Python爬了两本书,分享下代码,仅作为交流和分享。#下载#import requests #先导入库import re #正则表达式import os #创建路径import random #导入随机函数(0-1)#import string#输入储存路径和书名root = input("Root_path = ")name =

最近用Python爬了两本书,分享下代码,仅作为交流和分享。

#下载#

import requests #先导入库

import re #正则表达式

import os #创建路径

import random #导入随机函数(0-1)

#import string

#输入储存路径和书名

root = input("Root_path = ")

name = input("Book_name = ")

path = root+'/'+name

isExists=os.path.exists(path) #判断是否存在

if isExists: # 如果目录存在则不创建,并提示目录已存在

print(path+' 目录已存在')

else:

os.makedirs(path)# 如果不存在则创建目录

print(path+' 创建成功')

#输入获取图片的src地址,有些src是分开的,所以需要注意下

src = input("src = ")

url = src

#这里不分享自动获取网页内容的代码了,仅提供单页下载保存方式

#开始请求网址并下载

page = 0001#第一页的图片名称

filename = 'D:\\Downloads\\'+name+'\\'+page+'.png' #存储位置

try:

#爬的时候建议设置下相应时间,毕竟爬虫会增加网站的负荷

response = requests.get(link[url],timeout=(random.random()*random.random()*30))

file = open(filename[i],'wb')

file.write(response.content) #写入文件

file.close()#关闭操作

except:

print("下载完成!")

#各种图片融合成一个pdf#

from PIL import Image

import os

import re

path = root+'/'+name+'/'

Files = os.listdir(path)

#转化

file_list = sorted(os.listdir(path))

pic_name = []

im_list = []

for x in file_list:

if "jpg" in x or 'png' in x or 'jpeg' in x:

pic_name.append(x)

new_pic = []

for x in pic_name:

if "jpg" in x:

new_pic.append(x)

for x in pic_name:

if "png" in x:

new_pic.append(x)

im1 = Image.open(os.path.join(path,new_pic[0]))

new_pic.pop(0)

for i in new_pic:

img = Image.open(os.path.join(path,i))

img.getpalette()

if img.mode == "RGBA":

img = img.convert('RGB')

im_list.append(img)

else:

im_list.append(img)

save_path = input("保存路径 = ")

pdf_name = name

im1.save(save_path+pdf_name+'.pdf', "PDF", resolution=100.0, save_all=True, append_images=im_list)

print(pdf_name+"已经生成!")

部分代码主要源于网络引用,对此表示感谢。

有些未能溯源找到原网址,表示歉意,若有侵权请与我联系,也欢迎读者指出引用出处,我将其链接附上。

图片融合成PDF:转载本文请联系原作者获取授权,同时请注明本文来自胡鹏程科学网博客。

链接地址:http://blog.sciencenet.cn/blog-3422975-1247282.html

上一篇:快毕业了,此文纪念一下

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/2/49831.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息