如何使用python从javascript生成的页面中抓取文本
How to use python to scrape the text from a page generated by javascript?
我正在Linux上寻找一种方法来编写一个脚本,该脚本可以从Javascript生成的页面中抓取文本(特别是etherbad,例如。http://www.board.net)。理想情况下,我想使用现有的工具,但我还没有找到合适的工具(例如lynx,但它不支持javascript或Selenium,但它在浏览器中运行)。欢迎提出建议。
如果没有合适的东西(对于这样一个简单的需求来说,这似乎很令人惊讶),也许我可以用Python自己写一些东西。对于这样的东西,有哪些有用的Python类?
一种选择是仍然使用Selenium,但使用无头PhantomJS。
另请参阅:
- 用Python和PhantomJS进行无头硒测试
示例(使用firefox网络驱动程序):
from selenium import webdriver
url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)
element = driver.find_element_by_id('padcontent')
print element.text
打印:
Here is some text I'd like to scrape
I wonder how to go about it?
相关文章:
- 在Python中抓取javascript渲染的文本的最快解决方案
- 使用 jQuery 从选择标签中抓取文本
- 使用 jQuery 将 HTML 文本抓取到 JSON 中,但由于循环引用而无法字符串化
- Beautifulsoup抓取数据,其中有js文本在中间
- 如何使用rangy从iframe中抓取选定的文本
- 使用 casperjs 抓取文本节点的最快方法
- 如何分析 XML 文件和抓取文本值
- 从 URL 中抓取文本和媒体
- Rails 3 - 从文本区域中识别属性并抓取它(如果可用)
- 如何抓取页面上的某些文本
- 如何从URL中抓取文本并放置在JS数组中
- JS从文本框中抓取文本,传递给asp.net mvc ActionResult,但ActionResult参数显示为nu
- React Native TextInput抓取高亮显示的文本,并在我点击时保持高亮显示
- 如何在事件onclick中抓取文本
- 使用 jQuery 抓取跨度文本并作为查询传递
- 使用Python和Selenium抓取Javascript文本
- 使用Python从网页中抓取Javascript文本
- 使用jQuery从标记字符串中抓取一些文本
- 如何使两个骨干取取调用并合并
- 从一个网站抓取纯文本并显示在另一个网站上