python爬取暖享图片

 2023-09-16 阅读 26 评论 0

摘要:目标网页:http://www.axlcg.com/wmxz/1.html 首先取得第一页每一个图集的urlpython爬虫教程。 可以看到图集的url实在ul class 为homeboy-ul clearfix line-dot底下的li中的a标签里面,所以我们要 一层一层地接近目标。 allsoup = BeautifulSoup(allurldigit

目标网页:http://www.axlcg.com/wmxz/1.html

  1. 首先取得第一页每一个图集的url

python爬虫教程。

可以看到图集的url实在ul class 为homeboy-ul clearfix line-dot底下的li中的a标签里面,所以我们要 一层一层地接近目标。

        allsoup = BeautifulSoup(allurldigit)  # 得到解析后的htmlallpage = allsoup.find('ul', attrs={'class': 'homeboy-ul clearfix line-dot'})allpage2 = allpage.find_all('a') #一步找到所有的a标签for allpage2index in allpage2:allpage3 = allpage2index['href'] #拿到urlif allpage3 not in allurl: #判断一下是否已经在容器里了,不在的话才加入allurl.append(allpage3) #存到allurl这个list容器里
复制代码
  1. 获取每一页的url 只获取一页怎么可以叫爬虫呢,我们要的是获取多页。

可以看到下一页的url就在ul为information-page-ul clearfix底下的一个li中,这时候发现所有的li标签都是相同的,那我们怎么才能找到下一页的url呢?

爬虫python入门,下一页的标签中的文字内容写着下一页,因此我们可以判断li中的文本内容是不是下一页,是的话跳到下一页去,爬取下一页的所有图集。

  1. 获取真正想要的img地址

随便点击一个图集进去,这时候我们可以看到图片的地址了。

python爬虫爬取图片、复制一下,验证是否正确。

发现确实是我们想要的。

python爬虫获取图片保存图片,按同样的方法去获得图片的url并放到一个集合里,一个图集里也要跳到下一页的url,获取图片url,因为每一个页面只有一张。

  1. 下载图片到本地
        urllib.request.urlretrieve(m, "D:/Desktop//image/" + str(count) + ".jpg")
复制代码

第一个参数是img的url,第二个参数是路径+图片的文件名。

  1. 结果

  2. 代码

# !/usr/bin/env python
# encoding=utf-8# python爬取 http://www.axlcg.com/ 暖享
import requests
from bs4 import BeautifulSoup
import urllib.requestallurl = []
img = []
count= 0#伪装成浏览器
def download_page(url):return requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3236.0 Safari/537.36'}).content# 爬取所有图集的url,放到一个list里
def get_all_url():firsturl = "http://www.axlcg.com/wmxz/"pageindex = 0while 1 and pageindex < 20:allurldigit = download_page(firsturl)  # 首页面格式化allsoup = BeautifulSoup(allurldigit)  # 得到解析后的htmlallpage = allsoup.find('ul', attrs={'class': 'homeboy-ul clearfix line-dot'})allpage2 = allpage.find_all('a')for allpage2index in allpage2:allpage3 = allpage2index['href']if allpage3 not in allurl:allurl.append(allpage3)# 找下一页的urlnext_page1 = allsoup.find('ul', attrs={'class': 'information-page-ul clearfix'})next_page2 = next_page1.find_all('li')for next_page2_index in next_page2:# print(next_page2)next_page3 = next_page2_index.find('a')# print(next_page3)if next_page3.getText() == "下一页" and next_page3.get("href") != None:firsturl = next_page3.get("href")pageindex = pageindex + 1print("总页面" + firsturl)print(allurl)print(len(allurl))# 对每一个url进行下载图片
def main():get_all_url();i = 91pagecount = 0;  # 最多八页index = 0url = download_page(allurl[i])soup = BeautifulSoup(url)i = i + 1while index < 1000 and i < len(allurl):# print(allpage)# print(soup)page0 = soup.find("div", attrs={'class': 'slideBox-detail'})# print(page0)page = page0.find_all("li")# print(page)for pageindex in page:page2 = pageindex.find("img");# print(page2)img.append(page2['src'])next = soup.find('ul', attrs={'class': 'information-page-ul clearfix'})next2 = next.find_all('li')for next_url in next2:# print(next_url)next_page = next_url.find("a")if (pagecount < 7 and next_page.getText() == "下一页" and next_page != None and next_page.get("href") != None):# print(next_page.get("href"))url = next_page.get('href')pagecount = pagecount + 1url = download_page(url)soup = BeautifulSoup(url)break;elif (pagecount >= 7):url = download_page(allurl[i])soup = BeautifulSoup(url)pagecount = 0print(len(img))download()print("新的页面" + allurl[i])i = i + 1break
def download():#print(len(img))global img,countprint("开始下载图片")for m in img:urllib.request.urlretrieve(m, "D:/Desktop//632/" + str(count) + ".jpg")count = count+1print("正在下载第"+str(count)+"张")img = []print("下载完毕")if __name__ == '__main__':main()#download();复制代码

转载于:https://juejin.im/post/5a33b4076fb9a0451e3fdc80

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/4/68898.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息