从 URL 中抓取文本和媒体

Scrape text and media from URL

本文关键字：媒体取文本抓取 URL 更新时间：2023-09-26

我正在寻找一些有用的红宝石用于抓取目的。基本上，我希望能够从页面上抓取主体。也就是说，只有主体及其媒体（图像）。没有侧边栏或页脚或导航栏类型的东西。

我知道抓取需要很多特殊性，例如了解类和 id 等。所以我想知道是否有一个工具可以做这样的事情？

一个很好的例子是在iOS上时Safari中的"读者视图可用"选项。它只显示页面中的原始内容。带有所需的标题和段落。

使用 Nokogiri

您还可以使用 Css 选择器小工具来查找您的类。这应该有助于找到正确的标头和正文类或 id。

阅读器视图不节省带宽