如何从其他人那里提取标题,图像'在自己的网站上发表博客文章

How to extract title, image from others' blog posts and publish on own site

本文关键字:网站 自己的 文章 那里 其他人 提取 标题 图像      更新时间:2023-09-26

我计划建立一个网站,在那里我可以分享我精心挑选的内容,我不能把我的头在不通过API获得这些数据输入到我的网站的基本想法。

我首先想到也许我应该检查我想要嵌入在我的网站上的页面的源HTML,并访问它与$('div.post').find('img').attr('src')。但我无法想象自己每次都这样做,所以我想一定有更好的方法。

这就是Google+对他们的帖子所做的。一旦你添加了一个url链接,一秒钟后,它会从链接页面中提取有特色的图像和一些文本片段。

许多网站使用Open graph协议来获取任何url的元标题、元描述、图像等。

例如打开:viewsource:https://blog.kissmetrics.com/open-graph-meta-tags/并搜索"open Graph Protocol Meta"

它们包含在页面源代码中。您必须向您想要抓取的URL发送请求,并通过Regular Expr/HTML解析器读取适当的元标记。

你不能用javascript做到这一点。您需要一个服务器端脚本来下载所需的页面,然后使用DOM解析器对其进行解析。

使用PHP,您可以通过cURL获取一个URL的内容。

看到更多:http://php.net/manual/es/book.curl.php