我如何使网页内容私人的人,但公开的搜索引擎
How Do I Make Webpage Content Private To Humans But Public To Search Engines?
当你点击我的客户的搜索结果在谷歌(或任何其他搜索引擎),你被带到你正在寻找的URL,但呈现的内容是一个标准的"使用条款"页面。
人类需要通过点击JS的"ok"链接来接受"使用条款",这激活了一个cookie,然后他们被允许看到实际的页面内容。
问题是这使得页面的内容私有,搜索引擎因此索引"使用条款"的内容。
我正在寻找某种妥协,将满足法律鹰和我的客户的SEO需求。
我不是开发人员,但我目前想到的是…
他们可以为来自已知搜索引擎(使用http://www.user-agents.org/index.shtml和/或www.iplists.com/nw/)的请求设置cookie,并允许这些请求访问内容。
这将使私人内容公开,所以他们也需要不存档这些页面,这样人们就不能跳过接受"使用条款",只是通过谷歌的缓存访问内容。
我相信这将允许搜索引擎评估页面的内容并对其进行相应的排名,同时仍然要求人们接受网站的"使用条款"?
我第一次遇到这个问题…任何关于如何实现/更好的替代解决方案/实例的建议都是值得赞赏的。
[有一个模糊类似的问题,但我正在寻找一些更具体的请。]
非常感谢!
一个足够聪明的人可以伪装成谷歌机器人…你向机器人展示的任何东西都可以被人类看到。这对expertSexchange来说是件好事——答案是在付费墙后面的,但如果你点击谷歌的缓存链接,你就可以看到所有的答案。
所以简而言之:它行不通
首先,没有办法安全地识别一个请求来自搜索引擎,所以任何你让搜索引擎看到的东西都可以被任何有进取心的网络冲浪者看到。我想说的是,你必须做的第一件事就是确保客户理解这一点。你可以为不试图绕过系统控制的"默认"用户做一些工作,但如果你要让搜索引擎在没有身份验证的情况下查看内容,那么普通用户也可以遵循这条路径(有点独创性)。
第二,假设搜索爬虫将完全支持cookie是不明智的。如果你只针对一个特定的搜索引擎,你可以测试它,看看它是否支持cookie,但从我所读到的,大多数不支持,因为这只是更多的家务,他们想要索引的东西是免费的。所以,你不能使用cookie来跟踪搜索引擎的请求。
我所知道的唯一可以让搜索引擎进入,而不是常规的默认查看器的方法是嗅探请求代理的用户代理字符串。每个搜索引擎都将唯一地标识自己,您可以查看您收到的每个请求并决定是否允许它们绕过正常限制。但是,要让您和您的客户知道,任何普通用户都可以配置他们的浏览器来包含该用户代理字符串,并且您可以让他们直接进入-您无法真正区分其中的区别。Safari浏览器具有控制用户代理字符串的能力(它可以帮助web开发人员进行自己的测试,但它也可以用于其他方式)。
在某些情况下,可以查看请求的IP地址,看看它是否符合您对搜索引擎的期望,但除非搜索引擎发布了他们将使用的IP地址范围,并在某种程度上保证这些IP地址将被遵守,否则依赖这是一个有风险的提议。
另一种选择可能是完全取消"使用条款"登陆页,并像大多数网站一样-有一个网站使用警告:
By continuing to use this site, you agree to the
<a href="ToU.htm">Terms of Use</a>
如果它真的很突出,你可以把它做成类似于页面顶部的Stackoverflow通知栏。
- 如何在没有文本区域或文本字段的浏览器中编辑网页内容
- 通过javascript在同一个打开的选项卡中重新加载新的网页内容
- 如何使用Perl访问JavaScript驱动的网页内容
- 重新调整网页内容的大小
- 无需ajax即可实时更改网页内容
- 将网页内容调整在固定大小的 iframe 上
- 需要了解跟踪代码在网页内容中的工作方式
- 在 Java 中读取动态网页内容
- 用于重复获取网页内容的程序
- 如何格式化从javascript加载的网页内容
- 用AJAX响应中的内容替换网页内容
- 在网页上选择一个超链接,并使用CasperJS将生成的网页内容存储在文本文件中
- 整合网页内容页面上的灯箱
- 使用什么技术可以在不刷新网页的情况下更新网页内容?
- 从下拉菜单中过滤网页内容的最简单方法是什么?
- 使用Bootstrap 3正确定位在动画背景之上获取网页内容
- 网页内容转换成JSON
- 从给定网页内容的字典中查找单词的最佳实践
- Facebook喜欢和分享按钮javascript更新我的网页内容,如重新加载页面
- 我如何使网页内容私人的人,但公开的搜索引擎