python從網頁中提取數據，python網頁內容獲取記錄pkg

2023-11-12 阅读 30 评论 0

摘要：最近為了獲取網頁數據，積累了一些經驗，這里記錄一下。網頁內容獲取用python真的是很好用，編寫代碼也快，偶爾有一些Bug需要調一下。這里記錄一下常用的包 bs4-----網頁內容解析，還有一個好用的：xpath requests----請求下載網頁內容

最近為了獲取網頁數據，積累了一些經驗，這里記錄一下。網頁內容獲取用python真的是很好用，編寫代碼也快，偶爾有一些Bug需要調一下。這里記錄一下常用的包

bs4-----網頁內容解析，還有一個好用的：xpath

requests----請求下載網頁內容，一般和bs4配合使用

webbroswer---打開一個網頁，可以選擇指定瀏覽器，不可以下載網頁內容。python從網頁中提取數據、

selenium---模擬網頁操作，點擊，滾動網頁等，基本和人為操作差不多。還可以截圖。

有了這些工具，就可以自動化實現網頁內容獲取。pkgj無法獲取列表、但是有些網頁做得比較扎實，很難獲取里面的內容，比如有些僅支持網頁顯示，不支持獲取下載，怎么辦。

思路：使用網頁截圖工具，將接下來的圖保存起來，然后從圖片中提取文字，提取文字。

pytesseract----從圖片提取文字

好了，今天就記錄到這里，謝謝您的瀏覽關注！！！