使用 HTML5<输入>字段抓取动态生成的网页
Scraping a dynamically generated webpage with HTML5 <input> field
我想从这个页面收集数据。我有要在搜索框中输入的关键字,该关键字定义为带有根据查询动态更改页面的eventlistener
的 HTML5 <input>
。
例如,我想要一个脚本,该脚本在搜索字段中输入术语"hello world",然后抓取动态生成的内容,例如出现的集合的名称。由于同源策略,我无法使用JavaScript,我花了3个小时研究Python,但在那里找不到任何东西。
我不知道这是否如此明显,没有人写/问它,或者这是一种不让脚本从您的网站抓取的聪明方法。
在Chrome的调试器或Firefox中的Firebug中打开页面,查看"网络"选项卡,找出JavaScript在输入字段中输入文本时正在执行的AJAX请求。
然后使用以下任何一种方式编写网络爬虫:
- https://pypi.python.org/pypi/requests
- https://pypi.python.org/pypi/spyda
- https://pypi.python.org/pypi/scrapy
相关文章:
- Matplotlib;动态网页
- 使用htmlunit抓取动态网页
- 如何为动态网页创建谷歌放大器
- 动态网页的SEO
- 动态网页的快捷方式
- 动态网页从数据库中检索数据的速度很慢
- 将动态网页存储为对象的最佳方法是什么
- 在 Java 中读取动态网页内容
- 如何使用jQuery自动更改动态网页上的文本
- 将动态网页(Kibana)的一部分嵌入到我自己的网站中
- jQuery/Javascript不适用于动态网页
- 检查动态网页是否已完全加载的最佳方法是什么
- 具有持久客户端更改的动态网页界面
- 从动态网页中提取文本
- 抓取动态网页的数据使用scrapy
- 屏幕抓取动态网页在python与Ghost.py
- 是否可以缓存动态网页?
- 如何从动态网页中获取内容
- 如何制作以JSON ID为URL的动态网页-谷歌图表、Fusiontables、Jquery
- 如何在node-js环境中使用phantomjs进行动态网页抓取