python中init，python中urlLib的使用

2023-09-23 阅读 23 评论 0

摘要：urlLIb包使用来操作web网页的url，可以利用它来进行爬取网页数据 urlLib 包包含以下几个模块： urllib.request- 打开和读取 URL。urllib.error- 包含 urllib.request 抛出的异常。urllib.parse- 解析 URL。urllib.robotparser- 解析 robots.txt 文件。 python中

urlLIb包使用来操作web网页的url，可以利用它来进行爬取网页数据

urlLib 包包含以下几个模块：

urllib.request - 打开和读取 URL。
urllib.error - 包含 urllib.request 抛出的异常。
urllib.parse - 解析 URL。
urllib.robotparser - 解析 robots.txt 文件。

python中__init__、

urllib.request

urllib.request 可以模拟浏览器的一个请求发起过程。

语法：

python3 urllib，

实例：

read() - 读取网页整页内容

# 使用read()  - 读取网页整页内容
from urllib.request import urlopen          # 从urllib包的request模块中导入urlopen模块myURL = urlopen("https://www.runoob.com/")  # 请求网页
# 获取网页的 HTML 实体代码。
print(myURL.read())                         # 输出 在read方法的括号中可以指定读取行数默认是整页

python中get。输出：

python安装urllib2、readline() - 读取文件的一行内容

from urllib.request import urlopenmyURL = urlopen("https://www.runoob.com/")
line = myURL.readline() # 读取网页一行内容
print(line)

输出：

python中的、

readlines() - 读取文件的全部内容，它会把读取的内容赋值给一个列表变量。

from urllib.request import urlopenmyURL = urlopen("https://www.runoob.com/")
lines = myURL.readlines() # 读取文件的全部内容，它会把读取的内容赋值给一个列表变量。
for i in lines:            # 用for循环将其遍历print(i)

输出：

getcode() - 函数获取网页状态码

返回 200 说明网页正常，返回 404 说明网页不存在

实例：

import urllib.requestmyURL1 = urllib.request.urlopen("https://www.baidu.com/")
print(myURL1.getcode())   # 200try:myURL2 = urllib.request.urlopen("https://www.baidu.com/aa")
except urllib.error.HTTPError as e:if e.code == 404:print(404)   # 404

输出：