在python下使用javascript实现网页浏览的自动化
automatization of web browsing with JavaScripts under python
我正在寻找一个包/方式来自动化网页浏览。例如,我有这些搜索结果(对不起,俄语):http://www.consultant.ru/search/?q=N + 145 - 97 + % % D0%A4%D0 % D0%BE % D1 % 82 + 31.07.1998
我想检索变量"item"的值。N"(第399行)来自python?它看起来像是Javascript函数"onSearchLoaded"的内部变量,但是如果你把鼠标指针放在搜索结果上,你会看到n=160111——这就是item的值。n我正试着python中有哪些包可以帮助我做到这一点?
您不必提取javascript变量本身,只需提取它使用该变量的位置。在本例中,它被放置在从搜索返回的结果的href中。
有很多不同的库可以用于自动化。这取决于您希望看到的自动化程度。在我的例子中,我更喜欢对这些类型的自动化使用selenium。将其与核心python模块regex结合起来,您就可以创建一个基本示例。我能够使用selenium:
编写一个快速的模型。from selenium import webdriver
import re
url = "http://www.consultant.ru/search/?q=N+145-%D0%A4%D0%97+%D0%BE%D1%82+31.07.1998"
pattern = re.compile("n=('d+)")
xpath = '//div[@id = "baseSrch"]//a'
browser = webdriver.Firefox()
page = browser.get(url)
elements = browser.find_elements_by_xpath(xpath)
browser.close()
for element in elements:
match = re.search(pattern, element.get_attribute("href"))
if match:
print match.group(1)
收益率:
160111
但是这不是唯一的方法,你也可以用urllib、requests、lxml等来代替它。有很多不同的方法可以用来提取信息
相关文章:
- 如何正确地以无限滚动浏览网页
- 我可以'我无法让我的网页浏览JScript中选择列表中的trhorugh URL
- 实现PDF预览或从BLOB格式在网页中隐藏PDF的部分-Angular
- 如何在不知道域名的情况下跟踪网站的网页浏览量
- 欧芹js在触发虚拟网页浏览之前检查错误
- 最简单的实现方式是网页上的动态更新表(java/css)
- 谷歌分析当前网页浏览网址被事件覆盖
- 禁止全能 S.t() 调用在使用 iframe 的网站中生成“第二次”网页浏览
- 如何禁用谷歌分析网页浏览量跟踪,但保留事件跟踪
- 如何在Javascript网页中实现孤岛危机纳米服风格的菜单
- 在不使用 Flash 的情况下浏览网页中的 PDF
- Google Analytics(分析)跟踪网页浏览会自动向网址添加斜杠
- 如何使用c#在selenium webdriver ie中实现网页中的查找文本
- 如何从网页浏览文件夹并在页面上显示其内容
- 使用Node.js实现网页自动化
- 在python下使用javascript实现网页浏览的自动化
- myfonts如何跟踪网页浏览量为他们的网页字体
- 连接路径名与虚拟URL跟踪网页浏览量
- 网页浏览动态文件夹结构
- 谷歌分析核心报告 API 网页浏览标签