R: 网站抓取器的想法

R: Site Scraper Ideas

本文关键字:抓取 网站      更新时间:2023-09-26

在这里过得很艰难。请导航到http://www.cbioportal.org/public-portal/index.do

底部写着:"从示例基因集中选择"。如果你点击其中任何一个集合,它上面会出现一个基因列表。我想为列表中的每个项目抓取基因,但列表不在源HTML中。

有什么想法吗?

谢谢!

网页实际上使用JSON来提取包含的数据,您可以使用rjson轻松地抓取所有这些数据。此代码将读取所有数据:

library(rjson)
json=fromJSON(file='http://www.cbioportal.org/public-portal/portal_meta_data.json')
user_genes = json$gene_sets[2:length(json$gene_sets)] # Remove first 'header' entry
df = data.frame(do.call(rbind,user_genes))
row.names(df) = NULL # Strip off ugly row names