从页面抓取时遇到麻烦

Trouble in scraping from a page

本文关键字：遇到麻烦抓取更新时间：2023-09-26

参考我之前的问题之一，我必须抓取酒店的评论（所有评论），例如这家酒店

通过使用BeautifulSoap，我所做的是，我首先从具有类BVRRPager BVRRPageBasedPager的div中的分页中获取所有评论页面链接，然后从所有页面中抓取评论。BeautifulSoap的问题是div.BVRRRatingSummary中的内容没有出现（尝试在禁用JS的情况下讨厌该页面）

我已经使用 Selinium

抓取了评论，但我的客户不想使用 Selinium，因为它加载了带有 JS 和图像的整页

我想知道他们可能使用什么样的流程来加载审核？有什么方法可以BeautifulSoap抓取div.BVRRRatingSummary中的内容吗？

你可以尝试使用Firefox和Firebug addon。加载网页时打开Firebug，然后转到Net，然后单击XHR。这将显示正在加载哪些 json 文件。然后，您可以尝试直接获取这些文件，并使用像simplejson这样的库来处理这些文件。