如何创建一个API来抓取特定的网页

How to create an API which crawls a specific webpage

本文关键字：抓取网页 API 何创建创建一个更新时间：2023-09-26

我想设计/创建一个API，它抓取网页上的数据(网页链接将作为输入提供)，并返回JSON/xml格式的数据。

我正在寻找一些帮助，以便我可以开始寻找一个特定的方向

这个问题不是很清楚，但是如果您只是想解析输入HTML页面并从中获取外链，您可以执行以下操作

获取HTML页面作为输入流
使用jtidy或任何其他HTML DOM解析器从它创建一个DOM。一旦你有了一个DOM，得到所有的
， href，元素，你将有所有的外链。

一般来说，当你说抓取时，它应该涉及多个页面，在一个图中，你使用这些链接从一个页面移动到另一个页面。所以爬行特定页面是不正确的

相关文章：

Javascript笔记网为您搜集整理了各种javascript使用过程中的问题.

最新更新：