从 URL 中抓取文本和媒体

Scrape text and media from URL

本文关键字:媒体 取文本 抓取 URL      更新时间:2023-09-26

我正在寻找一些有用的红宝石用于抓取目的。基本上,我希望能够从页面上抓取主体。也就是说,只有主体及其媒体(图像)。没有侧边栏或页脚或导航栏类型的东西。

我知道抓取需要很多特殊性,例如了解类和 id 等。所以我想知道是否有一个工具可以做这样的事情?

一个很好的例子是在iOS上时Safari中的"读者视图可用"选项。它只显示页面中的原始内容。带有所需的标题和段落。

使用 Nokogiri

您还可以使用 Css 选择器小工具来查找您的类。这应该有助于找到正确的标头和正文类或 id。

阅读器视图不节省带宽