抓取浏览器扩展程序 ID
crawler to grab chrome extension id's
我如何为Google chrome扩展程序网站编写爬虫? https://chrome.google.com/webstore/category/extensions
我正在对chrome扩展程序进行一些安全研究。每个类别大约有 100 个扩展,我现在遇到的问题是编写一个爬虫来至少抓取 UID。该网站似乎是通过javascript更新的。如果我要抓取 html,我什么也得不到,因为该网站似乎在稍后阶段加载了页面的其余部分。换句话说,我需要的核心内容(即带有所有扩展元素的 DOM)似乎在使用 python 抓取 HTML 后加载。有什么想法吗?
是的,网页不包含数据 - 它是单独下载的。使用像这样的 URL:
https://chrome.google.com/webstore/ajax/item?pv=1389738107&count=100&category=app/7-productivity
请注意,这必须是 POST 请求(没有任何 POST 数据),出于安全原因,其他请求将被拒绝。您必须删除文件开头的")]}'"
并在其他各个位置"[]'n"
- 然后您应该获得可以通过 json.loads
解析的正确 JSON。数据不是很结构化,但应该足以进行爬网。
请注意,pv
参数看起来可能很快就会更改(此 Unix 时间对应于四天前的日期),您可以使用 Chrome 开发者工具的网络标签查看当前请求参数。category
参数是类别的标识符 - 它是https://chrome.google.com/webstore/category/
在网上应用店链接之后的 URL 部分。
- Twitter引导程序Typeahead-Id&标签
- 如何在使用$(“#id”).off()后启用事件处理程序;
- MongoDB 2.0.0 驱动程序,按 ID 检索记录时出现问题
- 分配后,您可以更改Facebook应用程序ID吗?
- 页面的类似facebook按钮的应用程序id
- 通过Couchdb中的更新处理程序添加id和author字段
- 正在获取GCM流星应用程序的注册ID
- 可以't将事件处理程序添加到ID为的按钮中
- 从引导程序3删除模式向laravel控制器传递行id
- 在单页应用程序中使用敲除绑定进行id导航
- 我需要使用mongodb本机驱动程序来查找按时间戳字段排序的不同id
- 在多个域上使用Facebook应用程序ID
- 从Flash AS3 Android应用程序调用Java脚本函数以检索设备ID和序列号
- 在应用程序中获取多个 ID 实例
- 如何使用php创建应用程序ID后从Facebook获取用户详细信息
- 使用 Javascript SDK,当用户尚未授权我的应用程序时,如何获取 Facebook 用户 ID
- 抓取浏览器扩展程序 ID
- 在jQuery点击处理程序中获取选择器父ID
- 为什么当我在 Emberjs 中最后用“id”刷新 url 时,我得到一个空白应用程序
- 我需要使用他们的Facebook id javascript将Facebook照片流放入我的应用程序中