Python爬网Pastebin(JavaScript渲染的网页）

Python Crawling Pastebin (JavaScript rendered webpages)

本文关键字：网页 JavaScript 爬网 Pastebin Python 更新时间：2024-05-12

我在尝试抓取JavaScript渲染的页面时遇到了一个问题。

我正在使用python-qt4模块，遵循本教程：https://impythonist.wordpress.com/2015/01/06/ultimate-guide-for-scraping-javascript-rendered-web-pages/

在本教程中，所有内容都与示例页面完美配合：http://pycoders.com/archive

但我正在用pastebin尝试这个，网址是：

http://pastebin.com/search?q=ssh

我正在尝试的是获得所有的链接，以便点击它们，并能够关注页面（我还不知道我要使用什么，也许是Scrapy，但我想看看其他选项）。

问题是我无法提取链接，这是我的代码：

import sys  
from PyQt4.QtGui import *  
from PyQt4.QtCore import *  
from PyQt4.QtWebKit import *  
from lxml import html 
#Take this class for granted.Just use result of rendering.
class Render(QWebPage):  
  def __init__(self, url):  
    self.app = QApplication(sys.argv)  
    QWebPage.__init__(self)  
    self.loadFinished.connect(self._loadFinished)  
    self.mainFrame().load(QUrl(url))  
    self.app.exec_()  
  def _loadFinished(self, result):  
    self.frame = self.mainFrame()  
    self.app.quit()  
url = 'http://pastebin.com/search?q=ssh'  
r = Render(url)  
result = r.frame.toHtml()
formatted_result = str(result.toAscii())
tree = html.fromstring(formatted_result)
archive_links = tree.xpath('//a[@class="gs-title"]/@data-ctoring')
for i in archive_links:
    print i

结果是：我什么都没得到。

理想情况下，您应该研究使用Pastebin API——这里是Python包装器。

另一种方法是通过selenium实现浏览器自动化。打印搜索结果链接的工作代码：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Firefox()
driver.get("http://pastebin.com/search?q=ssh")
# wait for the search results to be loaded
wait = WebDriverWait(driver, 10)
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, ".gsc-result-info")))
# get all search results links
for link in driver.find_elements_by_css_selector(".gsc-results .gsc-result a.gs-title"):
    print(link.get_attribute("href"))