如何使用python从javascript生成的页面中抓取文本

How to use python to scrape the text from a page generated by javascript?

本文关键字:抓取 取文本 python 何使用 javascript      更新时间:2023-09-26

我正在Linux上寻找一种方法来编写一个脚本,该脚本可以从Javascript生成的页面中抓取文本(特别是etherbad,例如。http://www.board.net)。理想情况下,我想使用现有的工具,但我还没有找到合适的工具(例如lynx,但它不支持javascript或Selenium,但它在浏览器中运行)。欢迎提出建议。

如果没有合适的东西(对于这样一个简单的需求来说,这似乎很令人惊讶),也许我可以用Python自己写一些东西。对于这样的东西,有哪些有用的Python类?

一种选择是仍然使用Selenium,但使用无头PhantomJS。

另请参阅:

  • 用Python和PhantomJS进行无头硒测试

示例(使用firefox网络驱动程序):

from selenium import webdriver
url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)
element = driver.find_element_by_id('padcontent')
print element.text

打印:

Here is some text I'd like to scrape
 I wonder how to go about it?