python爬取網頁詳細教程,Python使用標準庫urllib模擬瀏覽器爬取網頁內容

 2023-10-04 阅读 33 评论 0

摘要:爬取網頁內容的第一步是分析目標網站源代碼結構,確定自己要爬取的內容在哪里,這要求對HTML代碼有一定了解,對于某些網站內容的爬取還需要具有一定的Javascript基礎。但是,如果目標網站設置了反爬機制,就需要一些特殊的手段了,本文

爬取網頁內容的第一步是分析目標網站源代碼結構,確定自己要爬取的內容在哪里,這要求對HTML代碼有一定了解,對于某些網站內容的爬取還需要具有一定的Javascript基礎。但是,如果目標網站設置了反爬機制,就需要一些特殊的手段了,本文介紹一種使用爬蟲程序模擬瀏覽器來對抗反爬機制的簡單用法。

以下面的網頁為例,使用瀏覽器可以正常瀏覽,也可以正常查看網頁源代碼。

python爬取網頁詳細教程?

然而,使用Python去讀取網頁源代碼時卻顯示403錯誤,禁止訪問。

使用urllib.request.urlopen()打開一個URL時,服務器端只會收到一個單純的對于該頁面訪問的請求,但是服務器并不知道發送這個請求使用的瀏覽器、操作系統、硬件平臺等信息,而缺失這些信息的請求往往都是非正常的訪問,很可能是爬蟲,然后拒絕訪問,返回403錯誤。

python爬取網站所有鏈接內容,對抗這種反爬機制比較簡單的方式是,添加UserAgent信息,讓程序假裝自己是瀏覽器。

--------圖書大優惠--------

1)《Python程序設計(第2版)》(2018年8月第8次印刷)

簡述python開發環境的建立過程、清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.33.24a52226InbLT2&id=534581929248&rn=2925c5faf17252719ab36155de9bef46&abbucket=6

2)《Python可以這樣學》(2018年7月第6次印刷)(本書已發行繁體版)

原價69元,特價48.3元,每人限購5本,清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.27.24a52226InbLT2&id=544817105410&rn=2925c5faf17252719ab36155de9bef46&abbucket=6

簡述python語言的特點,3)《Python程序設計基礎(第2版)》(2018年8月第4次印刷)

清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.35.24a52226InbLT2&id=565581275846&rn=2925c5faf17252719ab36155de9bef46&abbucket=6

4)《中學生可以這樣學Python》2018年5月第2次印刷)

python第三方庫怎么安裝、清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.37.24a52226InbLT2&id=560808221053&rn=2925c5faf17252719ab36155de9bef46&abbucket=6

5)《Python程序設計開發寶典》(2018年2月第3次印刷)

原價69元,特價48.3元,每人限購5本,清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.71.24a52226InbLT2&id=556093887133&rn=2925c5faf17252719ab36155de9bef46&abbucket=6

6)《玩轉Python輕松過二級》(2018年7月第3次印刷)

原價49元,特價34.3元,每人限購5本,清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.31.24a52226InbLT2&id=569250004069&rn=2925c5faf17252719ab36155de9bef46&abbucket=6

7)《Python程序設計基礎與應用》(2018年9月上架)

董付國老師6本Python系列圖書閱讀指南

董付國老師6本Python系列教材被北大、復旦等近百所高校選作教材

熱烈慶祝《Python可以這樣學》在臺灣發行繁體版

董老師127課免費視頻地址: https://pan.baidu.com/s/1jJeAs8Q 密碼: px59

----------相關閱讀----------

教學課件

1900頁Python系列PPT分享一:基礎知識(106頁)

1900頁Python系列PPT分享二:Python序列(列表、元組、字典、集合)(154頁)

1900頁Python系列PPT分享三:選擇與循環結構語法及案例(96頁)

1900頁Python系列PPT分享四:字符串與正則表達式(109頁)

1900頁Python系列PPT分享五:函數設計與應用(134頁)

1900頁Python系列PPT分享六:面向對象程序設計(86頁)

1900頁Python系列PPT分享七:文件操作(132頁)

1900頁Python系列PPT分享八:異常處理結構與程序調試、測試(70頁)

報告PPT(163頁):基于Python語言的課程群建設探討與實踐

非計算機專業《Python程序設計基礎》教學參考大綱

計算機相關專業“Python程序設計”教學大綱(參考)

報告PPT(123頁):Python編程基礎精要

《Python程序設計》實驗指導書(30個實驗)

系列題庫分享

1000道Python題庫系列分享一(17道)

1000道Python題庫系列分享二(48道)

1000道Python題庫系列分享三(30道)

1000道Python題庫系列分享四(40道)

1000道Python題庫系列分享五(40道)

1000道Python題庫系列分享六(40道)

1000道Python題庫系列分享七(30道)

1000道Python題庫系列分享八(29道)

1000道Python題庫系列分享九(31道)

1000道Python題庫系列分享十(37道)

1000道Python題庫系列分享十一(9道)

1000道Python題庫系列分享十二(9道編程題)

1000道Python題庫系列分享13(22道填空題)

1000道Python題庫系列分享14(1道代碼閱讀題)

相關閱讀

Python爬蟲基礎:常用HTML標簽和Javascript入門

Python+selenium+PhantomJS獲取百度搜索結果真實鏈接地址

Python 3.6模擬輸入并爬取百度前10頁密切相關鏈接

手把手教你使用Python+scrapy爬取山東各城市天氣預報

Python爬蟲系列:使用selenium+Edge查詢指定城市天氣情況

Python爬蟲系列:判斷目標網頁編碼的幾種方法

BeautifulSoup解析庫select方法實例——獲取企業信息

Python批量爬取微信公眾號文章中的圖片

Python裸奔也瘋狂:批量爬取中國工程院院士信息

Python爬蟲擴展庫scrapy選擇器用法入門(一)

Python使用Scrapy爬蟲框架爬取天涯社區小說“大宗師”全文

Python不使用scrapy框架而編寫的網頁爬蟲程序

Python爬蟲擴展庫BeautifulSoup4用法精要

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/3/112623.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息