python調用瀏覽器打開網頁,python偽裝瀏覽器https_Python3 偽裝瀏覽器的方法示例

 2023-12-06 阅读 35 评论 0

摘要:python 的 Python3 偽裝瀏覽器的方法示例一、偽裝瀏覽器python調用瀏覽器打開網頁。對于一些需要登錄的網站,如果不是從瀏覽器發出的請求,則得不到響應。所以,我們需要將爬蟲程序發出的請求偽裝成瀏覽器正規軍。具體實現:自定義網頁請求報頭。二、

python 的 Python3 偽裝瀏覽器的方法示例

一、偽裝瀏覽器

python調用瀏覽器打開網頁。對于一些需要登錄的網站,如果不是從瀏覽器發出的請求,則得不到響應。所以,我們需要將爬蟲程序發出的請求偽裝成瀏覽器正規軍。

具體實現:自定義網頁請求報頭。

二、使用Fiddler查看請求和響應報頭

python代碼庫?打開工具Fiddler,然后再瀏覽器訪問“https://www.douban.com/”,在Fiddler左側訪問記錄中,找到“200 HTTPS www.douban.com”這一條,點擊查看其對應的請求和響應報頭具體內容:

三、訪問豆瓣

我們自定義請求報頭與上圖Request Headers相同內容:

python 爬蟲?'''''

偽裝瀏覽器

對于一些需要登錄的網站,如果不是從瀏覽器發出的請求,則得不到響應。

Python瀏覽器?所以,我們需要將爬蟲程序發出的請求偽裝成瀏覽器正規軍。

具體實現:自定義網頁請求報頭。

'''

#實例二:依然爬取豆瓣,采用偽裝瀏覽器的方式

import urllib.request

#定義保存函數

def saveFile(data):

path = "E:\\projects\\Spider\\02_douban.out"

f = open(path,'wb')

f.write(data)

f.close()

#網址

url = "https://www.douban.com/"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/51.0.2704.63 Safari/537.36'}

req = urllib.request.Request(url=url,headers=headers)

res = urllib.request.urlopen(req)

data = res.read()

#也可以把爬取的內容保存到文件中

saveFile(data)

data = data.decode('utf-8')

#打印抓取的內容

print(data)

#打印爬取網頁的各類信息

print(type(res))

print(res.geturl())

print(res.info())

print(res.getcode())

四、輸出的結果結果(截取部分)

結果文件內容

代碼鏈接

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/5/189138.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息