从页面抓取时遇到麻烦
Trouble in scraping from a page
参考我之前的问题之一,我必须抓取酒店的评论(所有评论),例如这家酒店
通过使用BeautifulSoap
,我所做的是,我首先从具有类BVRRPager BVRRPageBasedPager
的div中的分页中获取所有评论页面链接,然后从所有页面中抓取评论。BeautifulSoap的问题是div.BVRRRatingSummary
中的内容没有出现(尝试在禁用JS的情况下讨厌该页面)
抓取了评论,但我的客户不想使用 Selinium,因为它加载了带有 JS 和图像的整页
我想知道他们可能使用什么样的流程来加载审核?有什么方法可以BeautifulSoap
抓取div.BVRRRatingSummary
中的内容吗?
你可以尝试使用Firefox和Firebug addon。 加载网页时打开Firebug,然后转到Net,然后单击XHR。 这将显示正在加载哪些 json 文件。 然后,您可以尝试直接获取这些文件,并使用像simplejson这样的库来处理这些文件。
相关文章:
- 使用JavaScript获取Google地图上显示的所有推文时遇到麻烦
- 在 Javascript 中添加数字时遇到麻烦
- 使用 Coffeescript 和 Express .js 将变量传递给 Jade 时遇到麻烦
- 编写正确的 jQuery 插件时遇到麻烦
- 在三.js中更改纹理时遇到麻烦
- 从 javascript 中的函数返回时遇到麻烦
- 理解 $.ajax() 参数以获取 PHP 变量时遇到麻烦
- 比较数组时遇到麻烦
- 使 JavaScript 函数工作时遇到麻烦
- 在Firefox和IE中获取CSS属性时遇到麻烦
- 将 Blueimp Gallery 与 HTML 和 Bootstrap 集成时遇到麻烦
- 将jQuery导入WordPress时遇到麻烦
- 在解决来自 coderbyte 的 JavaScript 编码挑战时遇到麻烦
- 从页面抓取时遇到麻烦
- 让jQuery在Wordpress中工作时遇到麻烦
- 在codeigniter框架中添加css和js文件时遇到麻烦
- 处理由dayClick返回的日期时遇到麻烦
- 在使用jQuery更改依赖于滚动位置的类时遇到麻烦
- 在使用javascript加速滚动动画时遇到麻烦
- 在跨域jquery/Ajax服务调用中遇到麻烦