无法筛选刮削网站
Cannot screen scrape site
我正在尝试筛选下一页的内容(列出所有医学专业)和本页中包含的链接的内容(提供特定专业培训的所有大学)。这是所有特色菜的主页:https://services.aamc.org/eras/erasstats/par/index.cfm
页面上的第一个链接是青少年医学(儿科)专业,URL是https://services.aamc.org/eras/erasstats/par/display8.cfm?NAV_ROW=PAR&SPEC_CD=321
当我尝试直接导航到上面的URL时,服务器会将我重定向回主页。然而,点击青少年医学的链接会将我带到我想要访问的页面。
我很困惑为什么点击链接会把我带到正确的页面,但导航到同一个URL却不会。以下是我的想法:
-
Javascript问题-我禁用了JS,但我仍然被重定向到主页。此外,单击表中的链接仍然可以将我带到正确的页面。
-
Cookie-我禁用了所有Cookie,但在尝试使用直接URL访问青少年医学页面时仍然遇到了同样的问题。有趣的是,在禁用所有cookie的情况下,使用表链接进行导航仍然有效。
-
HTTPS-不确定如何检查这是否导致了问题。
我花了很多时间在Chrome上查看开发人员的控制台,却找不到为什么我不能使用直接URL访问专业页面的原因。任何帮助或指导都将不胜感激!
关键是确保设置了适当的标头。此服务器显然需要一个有效的用户代理和正确的引用程序集。一旦我设置了下面显示的标题,它就起作用了!
headers = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, sdch',
'Accept-Language':'en-US,en;q=0.8',
'Connection':'keep-alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
'referer' : 'https://services.aamc.org/eras/erasstats/par/index.cfm'
}
相关文章:
- 如何识别我的网站中的慢速设备
- 用Javascript更改我网站上的字体大小
- 有任何可能将facebook实时信使整合到一个网站中
- 将电视直播频道从网站嵌入我的网站
- 使用AngularJS中的筛选器更新给定的表
- Windows 8固定的网站互动程序
- 淘汰搜索/筛选
- 门户网站:当地时间有多有用
- 正在删除node.js中已验证的网站
- 为什么在这个网站上不能通过JS访问元素
- AngularJS单选筛选不适用于Name、Description和Field4复选框值
- 需要使用谷歌应用程序脚本列出谷歌域下的所有网站
- 为什么只有工厂在棱角分明的网站上被提及
- Angular JS Filter-通过3个复选框进行筛选
- 从应用程序脚本检查谷歌网站访问权限
- 使用谷歌网站翻译器自动翻译网页
- 使用node.js制作网站
- 谷歌如何确定网站加载时间
- 带有url的单页网站导航
- 无法筛选刮削网站