PDF到DOM转换使用javascript

PDF to DOM conversion using javascript

本文关键字:javascript 转换 DOM PDF      更新时间:2023-09-26

我研究它已经有一段时间了,我所能发现的就是这个pdf2dom解析器,可能是它的一个反向工程版本。不管怎样,这是我的问题。对于任何渲染引擎,它的输入应该是一个数据流(在我的情况下是pdf内容),它的输出应该是一个选定的格式(在我的情况下是DOM, HTML &CSS)。

  1. 然而,而不是使用java或c++,是否有可能,我得到"pdf数据"的流(这是我不知道的东西)从服务器和存储到一个javascript变量,并使用javascript渲染它,并将其附加到DOM?

  2. 原始的"pdf数据"是如何出现的(有任何特定的格式…等)?

欢迎所有意见。

注意:应该是IE兼容的

已经完成了。结果是pdf格式的。请注意,它是通过将PDF呈现到画布上来工作的。这样才能保证结果;PDF的一些功能目前在画布之外是不可能的。

PDF通常是PostScript +选项的子集,用于嵌入flash, JavaScript和各种其他东西。

将PDF简单地翻译成HTML (/DOM),并以正确的方式呈现几乎是不可能的。例如,PDF使用JPEG图像,但在这里和那里有细微的变化,这意味着在使用其他地方之前必须转换它们。试着阅读一些PDF.js-guys的演示文稿,你会发现相当长的wtf列表。

然而,如果你只有简单的PDF文件(纯文本;没有图像等),并且不关心保留任何东西,但最简单的布局,您应该能够从PDF中刮出字符串数据并将其放入DOM。

然而,我个人认为,要么强迫用户使用插件(flash/acrobat/…),要么呈现PDF的服务器端并将其作为图像提供给浏览器,这样会更简单。