屏幕抓取建议:交互式图表
Screen scraping advice: Interactive graph
我最近跟随了一些关于如何使用Python的BeautifulSoup的教程,并学会了如何从网页中简单地抓取文本和url。我现在正试图从以下链接中抓取数据,
http://www.study.cam.ac.uk/undergraduate/apply/statistics/在页面底部有一个交互式图形生成器,我想从它刮掉所有的数据,而不必花费许多小时从所有可能生成的图形中繁琐地手写下来的值。我试着使用我微不足道的初学者技术,但对我来说,在HTML中图形数据来自哪里并不明显-此外,HTML似乎是动态的,这取决于我的鼠标在屏幕上的位置。
问题:是否有可能使用这些工具抓取这些数据,如果有可能,如何?
使用浏览器开发工具,您可以看到,当您点击Show Graph
按钮时,有一个POST
请求前往http://www.study.cam.ac.uk/undergraduate/apply/statistics/data.php。结果是一个JSON
对象,包含了构建图形所需的所有数据。
requests
模块:
import requests
URL = "http://www.study.cam.ac.uk/undergraduate/apply/statistics/data.php"
HEADERS = {'X-Requested-With': 'XMLHttpRequest'}
data = {
'when': 'year',
'year': 2014,
'applications': 'on',
'offers': 'on',
'acceptances': 'on',
'groupby': 'college',
'for-5-years-what': 'university'
}
response = requests.post(URL, data=data, headers=HEADERS)
print response.json()
这里不需要BeautifulSoup
。至少从你的问题中我了解到是这样的。
相关文章:
- 同源策略目的|用户数据与基本页面数据|客户端页面抓取
- VBA正在抓取不在HTML源文件中的生成内容
- 尝试使用Node.js动态路由从IMDB中抓取电影内容.但是在我的output.json文件中没有定义
- 如何从网站上抓取链接和图片
- 用jquery抓取图像SRC-attr
- Javascript Regex-从价格中抓取分隔符
- 使用网络服务器的IP地址而不是域名对其进行屏幕抓取
- Javascript:如何从URL中抓取片段并将其写入一些PHP
- 使用htmlunit抓取动态网页
- 如何抓取URL的一部分并将其粘贴到页面上的某个位置
- Html抓取网站加载错误的J汤Java
- 如何获取网站所有页面的链接以进行数据抓取
- 如何使用AJAX和JSON从一个页面抓取PHP变量到另一个页面
- 我可以使用RubyonRails抓取URL的源代码吗?还是应该使用PHP
- 我如何从一个无限滚动的网站抓取图像,其中api是隐藏的,我无法通过使用Inspect Element获得它->网络
- 淘汰从选项中抓取类
- 在Python中抓取javascript渲染的文本的最快解决方案
- 什么是处理JavaScript的最简单的网络抓取工具
- 屏幕抓取建议:交互式图表
- 使用必应定位API抓取坐标并使用它创建交互式地图