从chrome扩展中的pdf中提取文本
extract text from pdf in chrome extensions
我正在开发一个chrome扩展。我想实现的是弹出窗口可以显示pdf中的文本。我已经搜索了PDF.js,并在chrome扩展的backGround.js中编写了以下代码进行测试:
‘use strict’;
var pdf = PDFJS.getDocument('http://www.pacer.gov/documents/pacermanual.pdf');
var pdf = PDFJS.getDocument('pacermanual.pdf');
pdf.then(function(pdf) {
var maxPages = pdf.pdfInfo.numPages;
for (var j = 1; j <= maxPages; j++) {
var page = pdf.getPage(j);
// the callback function - we create one per page
var processPageText = function processPageText(pageIndex) {
return function(pageData, content) {
return function(text) {
// bidiTexts has a property identifying whether this
// text is left-to-right or right-to-left
for (var i = 0; i < text.bidiTexts.length; i++) {
str += text.bidiTexts[i].str;
}
if (pageData.pageInfo.pageIndex ===
maxPages - 1) {
// later this will insert into an index
console.log(str);
}
}
}
}(j);
var processPage = function processPage(pageData) {
var content = pageData.getTextContent();
content.then(processPageText(pageData, content));
}
page.then(processPage);
}
});
清单如下所示:
{
"name": "englishhelper",
"version": "0.0.1",
"description": "",
"permissions": [
"tabs", "http://*/*", "https://*/*"
],
"background":{
"script":["background.js","PDF.js"]
},
"browser_action":{
"default_icon":"icon_png",
"default_popup":"popup.html"
},
"manifest_version": 2
}
popup.html如下所示:
<!DOCTYPE html>
<html>
<head>
<link rel="stylesheet" type="text/css" href="popup.css">
<title></title>
</head>
<body>
<script src="background.js"></script>
<script src="PDF.js"></script>
</body>
</html>
控制台显示"PDFJS未定义"。"PDF.js"已经包含在popup.html中。chrome扩展是否可能使用PDF.js?
错误的加载顺序 (我们对此有规范问题吗?)
清单中的background.script
或content_scripts[i].js
键是一个数组,换句话说,是一个有序列表。
脚本是按照那里定义的顺序加载和执行的;您需要确保在使用库之前已加载库。
在你的情况下,你需要交换它们:
"background":{
"script": ["PDF.js", "background.js"]
},
这同样适用于HTML中<script>
标记的顺序,例如popup.html
相关文章:
- 使用 jQuery 从选择标签中抓取文本
- 如何从字符串中提取特定文本.最困难的部分是所需的文本会定期更改
- 使用 casperjs 抓取文本节点的最快方法
- 如何分析 XML 文件和抓取文本值
- 从 URL 中抓取文本和媒体
- Javascript从字符串中提取特定文本的最佳方法
- 使用 JavaScript 从锚标记中提取锚文本
- 用于从锚标签中提取锚文本的 Javascript
- 在提取的文本 JavaScript 中搜索关键字
- 从几乎相同的dom结构中提取内部文本
- 如何从URL中抓取文本并放置在JS数组中
- JS从文本框中抓取文本,传递给asp.net mvc ActionResult,但ActionResult参数显示为nu
- 如何在事件onclick中抓取文本
- 使用JavaScript书签从图像链接中提取alt文本
- 如何从文本src抓取文本
- 使用正则表达式提取特定文本
- Imacros从提取的文本中剪切TXT的一部分
- 从span标签中抓取文本
- jQuery迭代类元素,抓取文本,插入别处
- 从多个输入字段抓取文本