爬取網頁內容的第一步是分析目標網站源代碼結構,確定自己要爬取的內容在哪里,這要求對HTML代碼有一定了解,對于某些網站內容的爬取還需要具有一定的Javascript基礎。但是,如果目標網站設置了反爬機制,就需要一些特殊的手段了,本文介紹一種使用爬蟲程序模擬瀏覽器來對抗反爬機制的簡單用法。
以下面的網頁為例,使用瀏覽器可以正常瀏覽,也可以正常查看網頁源代碼。
python爬取網頁詳細教程?
然而,使用Python去讀取網頁源代碼時卻顯示403錯誤,禁止訪問。
使用urllib.request.urlopen()打開一個URL時,服務器端只會收到一個單純的對于該頁面訪問的請求,但是服務器并不知道發送這個請求使用的瀏覽器、操作系統、硬件平臺等信息,而缺失這些信息的請求往往都是非正常的訪問,很可能是爬蟲,然后拒絕訪問,返回403錯誤。
python爬取網站所有鏈接內容,對抗這種反爬機制比較簡單的方式是,添加UserAgent信息,讓程序假裝自己是瀏覽器。
--------圖書大優惠--------
1)《Python程序設計(第2版)》(2018年8月第8次印刷)
簡述python開發環境的建立過程、清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.33.24a52226InbLT2&id=534581929248&rn=2925c5faf17252719ab36155de9bef46&abbucket=6
2)《Python可以這樣學》(2018年7月第6次印刷)(本書已發行繁體版)
原價69元,特價48.3元,每人限購5本,清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.27.24a52226InbLT2&id=544817105410&rn=2925c5faf17252719ab36155de9bef46&abbucket=6
簡述python語言的特點,3)《Python程序設計基礎(第2版)》(2018年8月第4次印刷)
清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.35.24a52226InbLT2&id=565581275846&rn=2925c5faf17252719ab36155de9bef46&abbucket=6
4)《中學生可以這樣學Python》2018年5月第2次印刷)
python第三方庫怎么安裝、清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.37.24a52226InbLT2&id=560808221053&rn=2925c5faf17252719ab36155de9bef46&abbucket=6
5)《Python程序設計開發寶典》(2018年2月第3次印刷)
原價69元,特價48.3元,每人限購5本,清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.71.24a52226InbLT2&id=556093887133&rn=2925c5faf17252719ab36155de9bef46&abbucket=6
6)《玩轉Python輕松過二級》(2018年7月第3次印刷)
原價49元,特價34.3元,每人限購5本,清華大學出版社官方鏈接:https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-18452336119.31.24a52226InbLT2&id=569250004069&rn=2925c5faf17252719ab36155de9bef46&abbucket=6
7)《Python程序設計基礎與應用》(2018年9月上架)
董付國老師6本Python系列圖書閱讀指南
董付國老師6本Python系列教材被北大、復旦等近百所高校選作教材
熱烈慶祝《Python可以這樣學》在臺灣發行繁體版
董老師127課免費視頻地址: https://pan.baidu.com/s/1jJeAs8Q 密碼: px59
----------相關閱讀----------
教學課件
1900頁Python系列PPT分享一:基礎知識(106頁)
1900頁Python系列PPT分享二:Python序列(列表、元組、字典、集合)(154頁)
1900頁Python系列PPT分享三:選擇與循環結構語法及案例(96頁)
1900頁Python系列PPT分享四:字符串與正則表達式(109頁)
1900頁Python系列PPT分享五:函數設計與應用(134頁)
1900頁Python系列PPT分享六:面向對象程序設計(86頁)
1900頁Python系列PPT分享七:文件操作(132頁)
1900頁Python系列PPT分享八:異常處理結構與程序調試、測試(70頁)
報告PPT(163頁):基于Python語言的課程群建設探討與實踐
非計算機專業《Python程序設計基礎》教學參考大綱
計算機相關專業“Python程序設計”教學大綱(參考)
報告PPT(123頁):Python編程基礎精要
《Python程序設計》實驗指導書(30個實驗)
系列題庫分享
1000道Python題庫系列分享一(17道)
1000道Python題庫系列分享二(48道)
1000道Python題庫系列分享三(30道)
1000道Python題庫系列分享四(40道)
1000道Python題庫系列分享五(40道)
1000道Python題庫系列分享六(40道)
1000道Python題庫系列分享七(30道)
1000道Python題庫系列分享八(29道)
1000道Python題庫系列分享九(31道)
1000道Python題庫系列分享十(37道)
1000道Python題庫系列分享十一(9道)
1000道Python題庫系列分享十二(9道編程題)
1000道Python題庫系列分享13(22道填空題)
1000道Python題庫系列分享14(1道代碼閱讀題)
相關閱讀
Python爬蟲基礎:常用HTML標簽和Javascript入門
Python+selenium+PhantomJS獲取百度搜索結果真實鏈接地址
Python 3.6模擬輸入并爬取百度前10頁密切相關鏈接
手把手教你使用Python+scrapy爬取山東各城市天氣預報
Python爬蟲系列:使用selenium+Edge查詢指定城市天氣情況
Python爬蟲系列:判斷目標網頁編碼的幾種方法
BeautifulSoup解析庫select方法實例——獲取企業信息
Python批量爬取微信公眾號文章中的圖片
Python裸奔也瘋狂:批量爬取中國工程院院士信息
Python爬蟲擴展庫scrapy選擇器用法入門(一)
Python使用Scrapy爬蟲框架爬取天涯社區小說“大宗師”全文
Python不使用scrapy框架而編寫的網頁爬蟲程序
Python爬蟲擴展庫BeautifulSoup4用法精要
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态