由于字体来自printing.com,Spiderable包偶尔会工作[更新]
Spiderable package working very sporadically due to fonts from typography.com [UPDATE]
更新
好的,我已经找到错误了!我使用的字体来自http://www.typography.com/如果我从<head>
中删除了指向字体的链接(甚至把它放在正文中(,每次都会正确地提取网站!
摘要 :如果您使用的是从远程域加载的网络字体(同时还需要进行某种许可证审批过程(,那么可蜘蛛化的包就会崩溃
原问题:
所以我用metro.js构建了一个简单的网站。它在Digital Ocean上,使用metro-up部署(启用了phantomjs(,并使用spiderable包。
这是网站,这是一个简单的投资组合。
现在,例如,当我做curl http://portfolio.new-doc.com/?_escaped_fragment_=
时,它将首先返回一个空的天体(没有蜘蛛行为的经典流星(,但如果我在几秒钟内做同样的旋度,它将返回正确的结果。(如果我在我的机器上卷曲localhost:3000也是如此(。
因此,首先,可蜘蛛程序包不起作用,然后它起作用了。感觉就像在第一个curl
上,它返回空站点(但加载服务器上的所有发布/订阅(,而在第二个curl
上,它使用现在加载的订阅并返回正确的结果。
谷歌网站管理员工具也是如此。我的第一个fetch as google bot
返回一个空正文,第二个(如果在第一个之后快速生成(返回正确的页面。
该网站只有一个发布和一个订阅。发布从订阅返回一个或多个页面,或者运行this.stop()
。订阅是在应用程序唯一的铁路由器路由中的waitOn
功能中设置的。这里没有复杂的东西。
由于curl命令有时会返回正确的结果,我认为错误不在publish/subs?
我过去已经让蜘蛛侠包发挥了作用,但我也花了很多时间来对抗它
非常令人沮丧。
有什么想法吗?谢谢
更新
好的,我已经找到错误了!我使用的字体来自http://www.typography.com/如果我从中删除了指向字体的链接(甚至把它放在正文中(,网站每次都会被正确提取!
摘要: 如果您使用的是从远程域加载的网络字体(同时还需要进行某种许可证审批过程(,那么可抓取的包将崩溃
- 偶尔结结巴巴地说“;堆叠的”;translate()上的转换(v4.0.0-alpha40)
- 为什么PHP MySQL INSERT通过AJAX调用只是偶尔发生
- JSON偶尔未定义-我该如何检查
- AngularJS摘要周期偶尔无法更新范围
- 谷歌应用程序脚本:使用mailapp.sendmail服务发送只有偶尔附件的邮件
- Jquery SlideDown偶尔工作
- 输入值偶尔变化
- Imgur API偶尔403禁止
- Durandal View偶尔加载不正确,而且总是在缩小时加载不正确
- 为什么这个茉莉花测试在 Firefox 中偶尔会失败
- 石头剪刀布蜥蜴斯波克游戏逻辑偶尔会输出错误的赢家,我不知道为什么
- WebSocket 事件不会偶尔触发
- 为什么我对
“onload”事件处理程序的使用偶尔工作
- Jquery post偶尔不调用成功或错误函数
- $(document).on(“click”)..只是偶尔工作
- iPhone/Android浏览器偶尔会关注链接href,而不是jQuery onclick事件
- 事件似乎只是偶尔发生
- Jquery偶尔会在图像上返回零高度和零宽度
- .getElements()偶尔会获取一个数字
- 由于字体来自printing.com,Spiderable包偶尔会工作[更新]