聚合器网站-镜像内容的变化与自动化

aggragator website - mirroring content changes with automation

本文关键字:变化 自动化 镜像 网站      更新时间:2023-09-26

我正在建立一个聚合器网站。以www.nbcnews.com为例,他们的"头号故事"是一幅带有一些文字的大图片。链接到实际的文章。我想镜像的图片和文字在我的网站上,以及。当然,我也可以在我的网站上设置一个静态链接到图像和文本。然而,当他们改变他们的"头号故事"时,我的故事仍然是与旧故事的静态链接。有没有一种方法可以使这个过程自动化?每当他们的"头号"新闻更新时,我希望我的"头号"新闻也能反映出这种变化。

是否有一个php或java解决方案,不使用网页刮板??

下面是一个空白页面的示例,其中设置了我所说的静态链接。

顺便说一句,没有RSS提要和API。这也是合法的,因为合理使用法和事实,当你点击,它链接回作者的网站。

<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>Untitled Document</title>
</head>
<div style="height: 400px; width: 900px; border: 2px red solid"><a href="http://www.nbcnews.com/politics/2016-election/donald-trump-s-strange-surprise-last-minute-jaunt-mexico-n640686"><img src="http://media4.s-nbcnews.com/j/newscms/2016_35/1690621/160831-trump-pena-nieto-mn-0851_697c23fc65b3e981f879e0302b490899.nbcnews-fp-600-320.jpg" width="100%" height="100%" alt=""/></a> 
</div>
<body>
</body>
</html>

如果你仔细想想,这并不难做到。首先,我已经在python中完成了它,我只需要两个库来使它工作。请求和lxml python库。请求被用来访问实际的网页,lxml被用来从网站上删除html片段的一部分,你需要编写一个函数来将返回值从lxml库转换为你可以在网站上使用的数据结构。