由于字体来自printing.com，Spiderable包偶尔会工作[更新]

Spiderable package working very sporadically due to fonts from typography.com [UPDATE]

本文关键字：偶尔包偶尔工作更新 Spiderable com 字体于字体 printing 更新时间：2023-09-26

更新

好的，我已经找到错误了！我使用的字体来自http://www.typography.com/如果我从<head>中删除了指向字体的链接(甚至把它放在正文中(，每次都会正确地提取网站！

摘要：如果您使用的是从远程域加载的网络字体(同时还需要进行某种许可证审批过程(，那么可蜘蛛化的包就会崩溃

原问题：

所以我用metro.js构建了一个简单的网站。它在Digital Ocean上，使用metro-up部署(启用了phantomjs(，并使用spiderable包。

这是网站，这是一个简单的投资组合。

现在，例如，当我做curl http://portfolio.new-doc.com/?_escaped_fragment_=时，它将首先返回一个空的天体(没有蜘蛛行为的经典流星(，但如果我在几秒钟内做同样的旋度，它将返回正确的结果。(如果我在我的机器上卷曲localhost:3000也是如此(。

因此，首先，可蜘蛛程序包不起作用，然后它起作用了。感觉就像在第一个curl上，它返回空站点(但加载服务器上的所有发布/订阅(，而在第二个curl上，它使用现在加载的订阅并返回正确的结果。

谷歌网站管理员工具也是如此。我的第一个fetch as google bot返回一个空正文，第二个(如果在第一个之后快速生成(返回正确的页面。

该网站只有一个发布和一个订阅。发布从订阅返回一个或多个页面，或者运行this.stop()。订阅是在应用程序唯一的铁路由器路由中的waitOn功能中设置的。这里没有复杂的东西。

由于curl命令有时会返回正确的结果，我认为错误不在publish/subs？

我过去已经让蜘蛛侠包发挥了作用，但我也花了很多时间来对抗它
非常令人沮丧。

有什么想法吗？谢谢

更新

好的，我已经找到错误了！我使用的字体来自http://www.typography.com/如果我从中删除了指向字体的链接(甚至把它放在正文中(，网站每次都会被正确提取！

摘要： 如果您使用的是从远程域加载的网络字体(同时还需要进行某种许可证审批过程(，那么可抓取的包将崩溃