R: 网站抓取器的想法

R: Site Scraper Ideas

本文关键字：抓取网站更新时间：2023-09-26

在这里过得很艰难。请导航到http://www.cbioportal.org/public-portal/index.do

底部写着："从示例基因集中选择"。如果你点击其中任何一个集合，它上面会出现一个基因列表。我想为列表中的每个项目抓取基因，但列表不在源HTML中。

有什么想法吗？

谢谢！

网页实际上使用JSON来提取包含的数据，您可以使用rjson轻松地抓取所有这些数据。此代码将读取所有数据：

library(rjson)
json=fromJSON(file='http://www.cbioportal.org/public-portal/portal_meta_data.json')
user_genes = json$gene_sets[2:length(json$gene_sets)] # Remove first 'header' entry
df = data.frame(do.call(rbind,user_genes))
row.names(df) = NULL # Strip off ugly row names