爬蟲爬取文本，python爬蟲數據存儲文本_Python爬蟲開發系列之五》數據存儲為TXT、JSON格式

2023-11-30 阅读 29 评论 0

摘要：在上一篇中我們介紹了Beautiful Soup解析庫的使用方法，用解析出數據之后，接下來就是存儲數據的問題了。數據保存的方式多種多樣，最簡單的形式是直接保存成文本文件，比如txt/json/csv....另外還可以保存到數據庫----關系型數據庫--Mysql MSsql,非關

在上一篇中我們介紹了Beautiful Soup解析庫的使用方法，用解析出數據之后，接下來就是存儲數據的問題了。數據保存的方式多種多樣，最簡單的形式是直接保存成文本文件，比如txt/json/csv....另外還可以保存到數據庫----關系型數據庫--Mysql MSsql,非關系型數據庫 MongoDB、Redis........

爬蟲爬取文本，一、以txt文本文件存儲

from bs4 import BeautifulSoup

import requests

r=requests.get('https://www.baidu.com')

soup=BeautifulSoup(r.content,'lxml')

for bq in soup.select('#u1'):

print(bq.get_text())

with open('hj.txt','w+') as xr:

xr.write(bq.get_text())

##打開方式

r:以只讀模式打開文件，默認模式。

rb:以二進制只讀模式打開一個文件。

r+:以讀寫方式打開一個文件。

rb+:以二進制讀寫方式打開一個文件。文件指針將會放在文件的開頭。

w:以寫入的方式打開一個文件，如果該文件以存在，則將其覆蓋。

wb:以二進制寫入的方式打開一個文件，如果該文件以存在，則將其覆蓋。

w+:以讀寫方式打開一個文件，如果該文件以存在，則將其覆蓋。

a:以追加方式打開一個文件，如果該文件以存在，文件指南將會放在文件結尾。

ab:以二進制追加方式打開一個文件。

a+：以讀寫方式打開一個文件。

ab+:以二進制追加方式打開一個文件，如果該文件已經存在，則文件指針將會放在文件結尾。如果該文件不存在，則創建新文件用于讀寫。

二、JSON文件存儲

JSON：通過對象和數組的組合來表示數據，構造簡潔，是一種輕量級的數據交換格式。

import json

file_name = 'D:/json_file.txt'

nums = [3, 4, 5, 7, 1, 9]

# nums = {"name": "Mike", "age": 12}

with open(file_name, 'w') as file_obj:

'''寫入json文件'''

json.dump(nums, file_obj)

print("寫入json文件：", nums)

with open(file_name) as file_obj:

'''讀取json文件'''

numbers = json.load(file_obj) # 返回列表數據，也支持字典

print("讀取json文件：", numbers)

###下一篇介紹非關系型數據庫MongoDB的使用

版权声明：本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接：https://hbdhgg.com/4/186853.html

上一篇：maven安裝，centos安裝rabbitmq_SpringCloud之RabbitMQ安裝

下一篇：pip 清華大學鏡像_pip源很慢,更改成清華的鏡像地址

标签：爬蟲爬取文本爬蟲保留文字 python爬蟲接單網爬蟲 python有什么用 python3 python如何讀取文本中的數據并處理 python爬蟲項目

爬蟲爬取文本

2023-11-30爬蟲爬取文本，python爬蟲數據存儲文本_Python爬蟲開發系列之五》數據存儲為TXT、JSON格式

最新文章

阅读排行

猜你喜欢

本站为非赢利网站，部分文章来源或改编自互联网及其他公众平台，主要目的在于分享信息，版权归原作者所有，内容仅供读者参考，如有侵权请联系我们删除！

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息

我要关灯
我要开灯
客户电话
工作时间：8:00-18:00
客服电话
电子邮件
admin@qq.com
官方微信
扫码二维码
获取最新动态
返回顶部