python爬取动态网页，用python爬取东方财富网网页信息_爬取东方财富网数据的网页分析-基礎知識庫-匯編語言學習筆記

python爬取动态网页，用python爬取东方财富网网页信息_爬取东方财富网数据的网页分析

2023-09-22 阅读 28 评论 0

摘要：自学Python已有3个月之多，浏览无数大神的佳作，收获颇丰。当初自学python就是为了学习爬虫，爬取网站上好看妹子的图片……[流口水][流口水]言归正传，近期学习量化交易知识，发现东方财富网(eastmoney.com)提供的特色数据相当不错，在投

自学Python已有3个月之多，浏览无数大神的佳作，收获颇丰。当初自学python就是为了学习爬虫，爬取网站上好看妹子的图片……[流口水][流口水]

言归正传，近期学习量化交易知识，发现东方财富网(eastmoney.com)提供的特色数据相当不错，在投资组合页面，看看周冠军，月冠军等排行榜上那诱人的红色数字，那要是我的操作该有多好啊。

东方财富网投资组合首页

后来一想，我可以把每周的排行榜爬取下来，选出比较厉害的人，跟踪学习别人的操作，那我是不是也可以在A股中分一杯羹呢？想想就诱人……

月度高手排行榜

python爬取动态网页。说干就干，先分析下网页，点开月度高手页面，来到投资组合排行榜。在chorme浏览器中打开网页调试工具(按F12即可)，重新加载页面，看到如下图所示

月度高手排行榜分析页面

在调试工具中，选择JS，可以看到网页加载过程中的各种数据。每个页面点开，也没发现什么有价值的信息。最后在Private_Rank_Sort.js的页面中发现url信息的蛛丝马迹，如上图红方框和红色箭头所指部分。这个url是不是我要找的排行榜的页面呢？于是保存Private_Rank_Sort.js页面，查看JS代码。

URL信息的组合

查看js代码，发现GetDat函数中的这个URL是由几部分组成，中间有两个变量type和callbackName。分析上下文可以看出callbackName是由字符串“CallBack”+type+8位随机数组成。那type变量的结构就是关键了，找到了type，整个URL的信息就能拼凑出来。继续在该文件中查找，在尾部发现这么一句：

var type=$(this).attr("sortvalue")

python爬取网站，再后面是调用GetDat(type)函数

JS代码分析type

总算是找到type的出处了，那他的具体赋值呢。于是又开始搜索网页，最后再网页源码中找到了“sortvalue”属性的数据。如下图

网页源码

原来type=8101、8102、8104、8105、8106、8107分别代表不同的意思(怎么没有8103呢，我也不知道，不管它了，继续正题……)

取type一个值 8102 日收益吧，把URL拼凑出来

python爬虫网页，URL完整信息

把拼凑号的url地址复制到浏览器地址栏，回车。见证奇迹的时刻到了……

网站返回结果

一个Json结构的数据，拿来和网页对比一下，很容易猜出字典中Key的含义。

至此万里长征的第一步总算走完了，后面就可以用python中requests模块Get数据了。