从 URL 中抓取文本和媒体
Scrape text and media from URL
我正在寻找一些有用的红宝石用于抓取目的。基本上,我希望能够从页面上抓取主体。也就是说,只有主体及其媒体(图像)。没有侧边栏或页脚或导航栏类型的东西。
我知道抓取需要很多特殊性,例如了解类和 id 等。所以我想知道是否有一个工具可以做这样的事情?
一个很好的例子是在iOS上时Safari中的"读者视图可用"选项。它只显示页面中的原始内容。带有所需的标题和段落。
使用 Nokogiri
您还可以使用 Css 选择器小工具来查找您的类。这应该有助于找到正确的标头和正文类或 id。
阅读器视图不节省带宽
相关文章:
- 是否可以自动拉取“随机”;标签“;从一长串文本中提取
- 检查选择器在jQuery中是否包含文本(即不是媒体)
- 在Python中抓取javascript渲染的文本的最快解决方案
- 使用 jQuery 从选择标签中抓取文本
- 使用 casperjs 抓取文本节点的最快方法
- 如何分析 XML 文件和抓取文本值
- 从 URL 中抓取文本和媒体
- 如何从URL中抓取文本并放置在JS数组中
- JS从文本框中抓取文本,传递给asp.net mvc ActionResult,但ActionResult参数显示为nu
- 如何在事件onclick中抓取文本
- 如何从文本src抓取文本
- 从span标签中抓取文本
- jQuery迭代类元素,抓取文本,插入别处
- 从多个输入字段抓取文本
- 使用casperjs从灯箱中抓取文本
- 从文本字段抓取文本并用它更新数据库
- 如何使用thymeleaf抓取文本区域数据
- 调用一个网站,并使用javascript抓取文本
- 如何使用python从javascript生成的页面中抓取文本
- 未拉取文本区域输入控件的 JSON 数据