如何使用python从javascript生成的页面中抓取文本

How to use python to scrape the text from a page generated by javascript?

本文关键字：抓取取文本 python 何使用 javascript 更新时间：2023-09-26

我正在Linux上寻找一种方法来编写一个脚本，该脚本可以从Javascript生成的页面中抓取文本（特别是etherbad，例如。http://www.board.net)。理想情况下，我想使用现有的工具，但我还没有找到合适的工具（例如lynx，但它不支持javascript或Selenium，但它在浏览器中运行）。欢迎提出建议。

如果没有合适的东西（对于这样一个简单的需求来说，这似乎很令人惊讶），也许我可以用Python自己写一些东西。对于这样的东西，有哪些有用的Python类？

一种选择是仍然使用Selenium，但使用无头PhantomJS。

另请参阅：

用Python和PhantomJS进行无头硒测试

示例（使用firefox网络驱动程序）：

from selenium import webdriver
url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)
element = driver.find_element_by_id('padcontent')
print element.text

打印：

Here is some text I'd like to scrape
 I wonder how to go about it?