抓取浏览器扩展程序 ID

crawler to grab chrome extension id's

本文关键字：ID 程序扩展浏览器抓取更新时间：2023-09-26

我如何为Google chrome扩展程序网站编写爬虫？ https://chrome.google.com/webstore/category/extensions

我正在对chrome扩展程序进行一些安全研究。每个类别大约有 100 个扩展，我现在遇到的问题是编写一个爬虫来至少抓取 UID。该网站似乎是通过javascript更新的。如果我要抓取 html，我什么也得不到，因为该网站似乎在稍后阶段加载了页面的其余部分。换句话说，我需要的核心内容（即带有所有扩展元素的 DOM）似乎在使用 python 抓取 HTML 后加载。有什么想法吗？

是的，网页不包含数据 - 它是单独下载的。使用像这样的 URL：

https://chrome.google.com/webstore/ajax/item?pv=1389738107&count=100&category=app/7-productivity

请注意，这必须是 POST 请求（没有任何 POST 数据），出于安全原因，其他请求将被拒绝。您必须删除文件开头的")]}'"并在其他各个位置"[]'n" - 然后您应该获得可以通过 json.loads 解析的正确 JSON。数据不是很结构化，但应该足以进行爬网。

请注意，pv参数看起来可能很快就会更改（此 Unix 时间对应于四天前的日期），您可以使用 Chrome 开发者工具的网络标签查看当前请求参数。category参数是类别的标识符 - 它是https://chrome.google.com/webstore/category/在网上应用店链接之后的 URL 部分。