从源代码中没有的网页中提取数据
Extracting Data From Webpage That Isn't In the Source Code
我想在Excel中编写一个宏,从下面的网页中提取数据:
http://www.richmond.com/data-center/salaries-virginia-state-employees-2013/?appSession=673718284851033&RecordID=101177&PageID=3&PrevPageID=2&cpipage=1&CPIsortType=&CPIorderBy=&cbCurrentRecordPosition=1
我遇到的问题是员工信息数据不在页面源代码中,因此当我使用以下代码(其中 NextPage 设置为上述 URL)时,responseText
不包括我正在寻找的数据。
With CreateObject("msxml2.xmlhttp")
.Open "GET", NextPage, False
.Send
htm.body.innerHtml = .responseText
End With
我很可能错了,但我相信数据包含在页面的 DOM 中。有人可以帮助我了解如何使用 VBScript 下载显示的此页面的内容(即在应用 javascript 修改之后)吗?
使用 InternetExplorer.Application
COM 对象应该可以访问实际的 DOM 树:
url = "http://www.richmond.com/..."
Set ie = CreateObject("InternetExplorer.Application")
ie.Visible = True
ie.Navigate url
Do
WScript.Sleep 100
Until ie.ReadyState = 4
Set elem = ie.Document.getElementById("...")
如果这不起作用,您可能不得不求助于PhantomJS之类的东西。
相关文章:
- 如何在内联依赖项并将图像转换为dataURI的情况下完全提取网页
- 使用javascript从HTML网页中提取图像url
- VBA加载网页并提取内存中的数据
- 提取网页的源代码
- 提取并使用javascript / greasemonkey显示网页
- 避免Facebook从网页中提取og元标记数据/或抓取
- 使用用户脚本从网页中提取脚本标记
- 如何在python中使用真正的jquery从网页中提取数据
- 从网页中提取内容并使用Java进行比较
- UIWebView-如何从Facebook等网页中提取HTML代码
- 如何使用python在网页上提取动态时间计数器
- 如何从网页中提取javascript动态数据
- 从一系列网页中提取数据最简单的方法是什么?
- 如何使用jQuery阅读网页并提取某些链接
- 从动态网页中提取文本
- 从网页中提取图像源,其中img标签可能会在使用javascript etcq渲染页面时添加
- 解析网页以提取内容
- 从网页中提取电话号码
- 从网页中提取提要
- 从网页中提取数据