零基礎學python爬蟲，python爬蟲框架源碼_python爬蟲的基本框架

2023-10-04 阅读 31 评论 0

摘要：1.爬蟲的基本流程：零基礎學python爬蟲？通過requests庫的get方法獲得網站的url 瀏覽器打開網頁源碼分析元素節點通過BeautifulSoup或者正則表達式提取想要的數據儲存數據到本地磁盤或者數據庫 2.正式開工啦 url = “http://www.jianshu.com” page = reques

1.爬蟲的基本流程：

零基礎學python爬蟲？通過requests庫的get方法獲得網站的url

瀏覽器打開網頁源碼分析元素節點

通過BeautifulSoup或者正則表達式提取想要的數據

儲存數據到本地磁盤或者數據庫

2.正式開工啦

url = “http://www.jianshu.com”

page = requests.get(url) #發現返回狀態碼403，說明有問題出現（除200外，其他的都是有問題的）

#這個時候查看一下爬蟲的robots協議，的確有些問題，解決方案如下：

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}獲取html頁面

page = requests.get(url, headers = headers)

demo = page.text