最近用Python爬了两本书,分享下代码,仅作为交流和分享。
#下载#
import requests #先导入库
import re #正则表达式
import os #创建路径
import random #导入随机函数(0-1)
#import string
#输入储存路径和书名
root = input("Root_path = ")
name = input("Book_name = ")
path = root+'/'+name
isExists=os.path.exists(path) #判断是否存在
if isExists: # 如果目录存在则不创建,并提示目录已存在
print(path+' 目录已存在')
else:
os.makedirs(path)# 如果不存在则创建目录
print(path+' 创建成功')
#输入获取图片的src地址,有些src是分开的,所以需要注意下
src = input("src = ")
url = src
#这里不分享自动获取网页内容的代码了,仅提供单页下载保存方式
#开始请求网址并下载
page = 0001#第一页的图片名称
filename = 'D:\\Downloads\\'+name+'\\'+page+'.png' #存储位置
try:
#爬的时候建议设置下相应时间,毕竟爬虫会增加网站的负荷
response = requests.get(link[url],timeout=(random.random()*random.random()*30))
file = open(filename[i],'wb')
file.write(response.content) #写入文件
file.close()#关闭操作
except:
print("下载完成!")
#各种图片融合成一个pdf#
from PIL import Image
import os
import re
path = root+'/'+name+'/'
Files = os.listdir(path)
#转化
file_list = sorted(os.listdir(path))
pic_name = []
im_list = []
for x in file_list:
if "jpg" in x or 'png' in x or 'jpeg' in x:
pic_name.append(x)
new_pic = []
for x in pic_name:
if "jpg" in x:
new_pic.append(x)
for x in pic_name:
if "png" in x:
new_pic.append(x)
im1 = Image.open(os.path.join(path,new_pic[0]))
new_pic.pop(0)
for i in new_pic:
img = Image.open(os.path.join(path,i))
img.getpalette()
if img.mode == "RGBA":
img = img.convert('RGB')
im_list.append(img)
else:
im_list.append(img)
save_path = input("保存路径 = ")
pdf_name = name
im1.save(save_path+pdf_name+'.pdf', "PDF", resolution=100.0, save_all=True, append_images=im_list)
print(pdf_name+"已经生成!")
部分代码主要源于网络引用,对此表示感谢。
有些未能溯源找到原网址,表示歉意,若有侵权请与我联系,也欢迎读者指出引用出处,我将其链接附上。
图片融合成PDF:转载本文请联系原作者获取授权,同时请注明本文来自胡鹏程科学网博客。
链接地址:http://blog.sciencenet.cn/blog-3422975-1247282.html
上一篇:快毕业了,此文纪念一下
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态