提取一篇文章的主要内容(JavaScript)

Extraction of main content of an article (JavaScript)

本文关键字:JavaScript 文章 一篇 提取      更新时间:2023-09-26

我正在编写一个程序,读取一般的HTML"文章"页面(维基百科,纽约时报,雅虎新闻等)。从那个页面,我想去掉所有的"噪音"(广告,标题栏…任何不属于文章内容的内容。)换句话说,我想保留最重要的东西。(主要内容、标题、作者)

我想想出一个聪明的方法来找到一篇文章的主要内容。我有一些想法,但它们不是我想要的。我不想解析DOM中的每个节点。我目前的想法是使用元素的大小。

任何想法都很感激。从本质上讲,这是一个设计问题。

谢谢。

我认为自己设置解析器可能太复杂了。通常是没有语义元素和其他东西的糟糕标记。

你能做的是使用Readability中的Parser API。如果你正在使用NodeJS,你可以做一个http。get请求,如果你在浏览器中使用Javascript,你可以向API发出ajax请求

相关文章: