如何创建一个API来抓取特定的网页

How to create an API which crawls a specific webpage

本文关键字:抓取 网页 API 何创建 创建 一个      更新时间:2023-09-26

我想设计/创建一个API,它抓取网页上的数据(网页链接将作为输入提供),并返回JSON/xml格式的数据。

我正在寻找一些帮助,以便我可以开始寻找一个特定的方向

这个问题不是很清楚,但是如果您只是想解析输入HTML页面并从中获取外链,您可以执行以下操作

  1. 获取HTML页面作为输入流
  2. 使用jtidy或任何其他HTML DOM解析器从它创建一个DOM。一旦你有了一个DOM,得到所有的
  3. , href,元素,你将有所有的外链。
一般来说,当你说抓取时,它应该涉及多个页面,在一个图中,你使用这些链接从一个页面移动到另一个页面。所以爬行特定页面是不正确的