R: 网站抓取器的想法
R: Site Scraper Ideas
在这里过得很艰难。请导航到http://www.cbioportal.org/public-portal/index.do
底部写着:"从示例基因集中选择"。如果你点击其中任何一个集合,它上面会出现一个基因列表。我想为列表中的每个项目抓取基因,但列表不在源HTML中。
有什么想法吗?
谢谢!
网页实际上使用JSON来提取包含的数据,您可以使用rjson轻松地抓取所有这些数据。此代码将读取所有数据:
library(rjson)
json=fromJSON(file='http://www.cbioportal.org/public-portal/portal_meta_data.json')
user_genes = json$gene_sets[2:length(json$gene_sets)] # Remove first 'header' entry
df = data.frame(do.call(rbind,user_genes))
row.names(df) = NULL # Strip off ugly row names
相关文章:
- 如何从网站上抓取链接和图片
- Html抓取网站加载错误的J汤Java
- 如何获取网站所有页面的链接以进行数据抓取
- 我如何从一个无限滚动的网站抓取图像,其中api是隐藏的,我无法通过使用Inspect Element获得它->网络
- PHP:如何基于Javascript抓取网站内容
- 以类似于谷歌机器人的方式抓取网站html和javascript
- 如何抓取使用直接Web远程处理(DWR)返回操纵页面的Javascript的网站's的HTML
- 用Ruby抓取一个Javascript很重的网站
- 试图在网站上抓取谷歌地图api生成的动态数据,但正常抓取返回空白
- JS滑块网站 - 谷歌抓取
- 如何使用无限滚动抓取网站
- 抓取网站.无法在抓取期间自动执行用户单击
- 抓取网站失败是因为javascript没有启用
- 如何抓取网站内容(*COMPLEX* iframe, javascript提交)
- 使用zombie.js抓取网站的问题
- Python抓取网站得到Apache Tomcat/6.0.36 -错误报告
- 抓取网站's的每一个页面与谷歌应用程序脚本
- 如何使用phantomjs抓取网站
- 抓取网站并将表格插入到我自己的 HTML 文档中
- 如何使用node.js与ASP和AJAX抓取网站