聚合器网站-镜像内容的变化与自动化
aggragator website - mirroring content changes with automation
我正在建立一个聚合器网站。以www.nbcnews.com为例,他们的"头号故事"是一幅带有一些文字的大图片。链接到实际的文章。我想镜像的图片和文字在我的网站上,以及。当然,我也可以在我的网站上设置一个静态链接到图像和文本。然而,当他们改变他们的"头号故事"时,我的故事仍然是与旧故事的静态链接。有没有一种方法可以使这个过程自动化?每当他们的"头号"新闻更新时,我希望我的"头号"新闻也能反映出这种变化。
是否有一个php或java解决方案,不使用网页刮板??
下面是一个空白页面的示例,其中设置了我所说的静态链接。
顺便说一句,没有RSS提要和API。这也是合法的,因为合理使用法和事实,当你点击,它链接回作者的网站。
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>Untitled Document</title>
</head>
<div style="height: 400px; width: 900px; border: 2px red solid"><a href="http://www.nbcnews.com/politics/2016-election/donald-trump-s-strange-surprise-last-minute-jaunt-mexico-n640686"><img src="http://media4.s-nbcnews.com/j/newscms/2016_35/1690621/160831-trump-pena-nieto-mn-0851_697c23fc65b3e981f879e0302b490899.nbcnews-fp-600-320.jpg" width="100%" height="100%" alt=""/></a>
</div>
<body>
</body>
</html>
如果你仔细想想,这并不难做到。首先,我已经在python中完成了它,我只需要两个库来使它工作。请求和lxml python库。请求被用来访问实际的网页,lxml被用来从网站上删除html片段的一部分,你需要编写一个函数来将返回值从lxml库转换为你可以在网站上使用的数据结构。
相关文章:
- 单击页面上的链接后高度发生变化
- React redux初始化功能,无论状态变化如何
- 角度ng变化或ng点击选择can'不起作用
- 每个选择器的Jquery css颜色都在变化,但字体大小却没有变化
- 如何使用jquery从下拉列表(javascript)中选择192.168.3.0进行测试自动化
- 错误:自动化服务器可以't创建对象
- JS幻灯片与CSS背景颜色变化
- 重新加载页面时Javascript变量发生变化
- 如何获得Bootstrap Datepicker的年和月,因为它在变化
- 如何用jquery替换字符串中可能变化的字符
- 检测数据的变化
- 如何检测和打印变化变量LESS
- 当文本不断变化时,如何避免在按钮内移动文本
- 当数据库中的某些内容发生变化时调用HTTP方法Meteor.js
- jQuery将侦听器的大小调整为只触发宽度的变化
- 根据元素高度和宽度的百分比变化增加或减少字体大小
- 调用$.each()函数时上下文发生变化
- Webscratching自动化如何在没有链接TAG的情况下模拟点击HREF链接
- 文件的节点自动化移动到另一个文件夹中
- 聚合器网站-镜像内容的变化与自动化