从页面抓取时遇到麻烦

Trouble in scraping from a page

本文关键字:遇到 麻烦 抓取      更新时间:2023-09-26

参考我之前的问题之一,我必须抓取酒店的评论(所有评论),例如这家酒店

通过使用BeautifulSoap,我所做的是,我首先从具有类BVRRPager BVRRPageBasedPager的div中的分页中获取所有评论页面链接,然后从所有页面中抓取评论。BeautifulSoap的问题是div.BVRRRatingSummary中的内容没有出现(尝试在禁用JS的情况下讨厌该页面)

我已经使用 Selinium

抓取了评论,但我的客户不想使用 Selinium,因为它加载了带有 JS 和图像的整页

我想知道他们可能使用什么样的流程来加载审核?有什么方法可以BeautifulSoap抓取div.BVRRRatingSummary中的内容吗?

你可以尝试使用Firefox和Firebug addon。 加载网页时打开Firebug,然后转到Net,然后单击XHR。 这将显示正在加载哪些 json 文件。 然后,您可以尝试直接获取这些文件,并使用像simplejson这样的库来处理这些文件。