由于字体来自printing.com,Spiderable包偶尔会工作[更新]

Spiderable package working very sporadically due to fonts from typography.com [UPDATE]

本文关键字:偶尔 包偶尔 工作 更新 Spiderable com 字体 于字体 printing      更新时间:2023-09-26

更新

好的,我已经找到错误了!我使用的字体来自http://www.typography.com/如果我从<head>中删除了指向字体的链接(甚至把它放在正文中(,每次都会正确地提取网站!

摘要 :如果您使用的是从远程域加载的网络字体(同时还需要进行某种许可证审批过程(,那么可蜘蛛化的包就会崩溃


原问题:

所以我用metro.js构建了一个简单的网站。它在Digital Ocean上,使用metro-up部署(启用了phantomjs(,并使用spiderable包。

这是网站,这是一个简单的投资组合。

现在,例如,当我做curl http://portfolio.new-doc.com/?_escaped_fragment_=时,它将首先返回一个空的天体(没有蜘蛛行为的经典流星(,但如果我在几秒钟内做同样的旋度,它将返回正确的结果。(如果我在我的机器上卷曲localhost:3000也是如此(。

因此,首先,可蜘蛛程序包不起作用,然后它起作用了。感觉就像在第一个curl上,它返回空站点(但加载服务器上的所有发布/订阅(,而在第二个curl上,它使用现在加载的订阅并返回正确的结果。

谷歌网站管理员工具也是如此。我的第一个fetch as google bot返回一个空正文,第二个(如果在第一个之后快速生成(返回正确的页面。

该网站只有一个发布和一个订阅。发布从订阅返回一个或多个页面,或者运行this.stop()。订阅是在应用程序唯一的铁路由器路由中的waitOn功能中设置的。这里没有复杂的东西。

由于curl命令有时会返回正确的结果,我认为错误不在publish/subs?

我过去已经让蜘蛛侠包发挥了作用,但我也花了很多时间来对抗它
非常令人沮丧。

有什么想法吗?谢谢

更新

好的,我已经找到错误了!我使用的字体来自http://www.typography.com/如果我从中删除了指向字体的链接(甚至把它放在正文中(,网站每次都会被正确提取!

摘要: 如果您使用的是从远程域加载的网络字体(同时还需要进行某种许可证审批过程(,那么可抓取的包将崩溃