如何获取有关文档的最重要信息以及我在 MarkLogic / 查询控制台中搜索的单词周围的一些行

How can I just get the most important information about a document and some lines around the word I searched for in MarkLogic / Query Console?

本文关键字:控制台 查询 MarkLogic 搜索 单词周 获取 何获取 信息 最重要 文档      更新时间:2023-09-26

我是MarkLogic的新手,已经将一些PDF作为.xml文件加载并转换为我的数据库。

我的 10 个 PDF 每个大约 500 页长。如果我像这样在查询控制台中搜索一个单词,

cts.search("Infrastructurefunctions")

我将看到每个带有"Infrastructurefunctions"一词的文档及其整个正文/内容(约500页)。而且你看不到新文档从哪里开始。

我的目标是获得与您在Google上获得的结果相似的结果:

  • 仅文档的名称
  • 我搜索的单词突出显示了一些单词以获取上下文

谢谢你帮我:)

函数cts.search(以及所有其他 cts 函数)是一个低级工具。还有更多的抽象库会更好地为您工作。对于XQuery,我们有search:search函数和相关函数。对于 JavaScript,你有JSearch .我强烈建议您研究这些:

  • 搜索 API:http://docs.marklogic.com/guide/search-dev/search-api
  • JSearch: http://docs.marklogic.com/guide/search-dev/javascript

哼!

是的,有些库可以为您做到这一点,但我一直认为学习如何自己做一些事情很有趣/很重要。这为您提供了更大的灵活性。

因此,从您的结果来看:cts:walk

第二个例子是您可能正在考虑的可爱示例。