如何创建一个API来抓取特定的网页
How to create an API which crawls a specific webpage
我想设计/创建一个API,它抓取网页上的数据(网页链接将作为输入提供),并返回JSON/xml格式的数据。
我正在寻找一些帮助,以便我可以开始寻找一个特定的方向
这个问题不是很清楚,但是如果您只是想解析输入HTML页面并从中获取外链,您可以执行以下操作
- 获取HTML页面作为输入流
- 使用jtidy或任何其他HTML DOM解析器从它创建一个DOM。一旦你有了一个DOM,得到所有的
- , href,元素,你将有所有的外链。
相关文章:
- 使用htmlunit抓取动态网页
- 使用 HTML5<输入>字段抓取动态生成的网页
- 自动点击按钮和网页抓取
- Python/R中的网页抓取javascript
- 使用Python使用Javascript进行网页抓取
- Python 网页抓取 JavaScript 生成的内容
- 幻影中的变量事务,抓取网页
- 如何在单击按钮时在核心PHP中抓取网页特定区域的屏幕截图
- Python Selenium,抓取网页JavaScript表
- 等待Javascript网页抓取功能完成,然后再运行下一页
- 用幻影和rvest抓取网页
- 保存使用 casperjs 抓取网页时获得的表数据
- 在 c# asp.net 中执行 JavaScript 后抓取网页
- 如何使用jQuery和XPath抓取网页
- 抓取网页并检索javascript变量
- 如何点击“更多”按钮,当Tripadvisor使用selenium抓取网页时
- 无法在Google Apps Script日志中看到完整的抓取网页
- 用python抓取网页以获取onclick值
- 抓取网页没有进行ajax调用,但数据不在DOM中
- 如何在使用BeautifulSoup抓取网页时提取javascript中的内容