使用 HTML5<输入>字段抓取动态生成的网页

Scraping a dynamically generated webpage with HTML5 <input> field

本文关键字:动态 网页 抓取 HTML5 输入 使用 字段      更新时间:2023-09-26

我想从这个页面收集数据。我有要在搜索框中输入的关键字,该关键字定义为带有根据查询动态更改页面的eventlistener的 HTML5 <input>

例如,我想要一个脚本,该脚本在搜索字段中输入术语"hello world",然后抓取动态生成的内容,例如出现的集合的名称。由于同源策略,我无法使用JavaScript,我花了3个小时研究Python,但在那里找不到任何东西。

我不知道这是否如此明显,没有人写/问它,或者这是一种不让脚本从您的网站抓取的聪明方法。

Chrome的调试器Firefox中的Firebug中打开页面,查看"网络"选项卡,找出JavaScript在输入字段中输入文本时正在执行的AJAX请求。

然后使用以下任何一种方式编写网络爬虫:

  • https://pypi.python.org/pypi/requests
  • https://pypi.python.org/pypi/spyda
  • https://pypi.python.org/pypi/scrapy