0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TET PDF IFilter支持所有相关风格的PDF输入

工程师邓生 来源:哲想软件 作者:哲想软件 2022-08-22 16:22 次阅读

接受的PDF输入

TET PDF IFilter 支持所有相关风格的PDF 输入:

直到 AcrobatDC 的所有 PDF版本,包括 ISO32000-1 和 32000-2(PDF 2.0)

无需密码即可打开文档的受保护PDF

修复损坏的 PDF文档

国际化

除了西文文本 TETPDF IFilter 完全支持中文、日文和韩文(CJK) 文本。识别所有CJK 编码;支持水平和垂直书写模式。自动检测文本的区域设置ID(语言和区域标识符)改进了Microsoft 的分词和词干算法的结果,这对于东亚文本尤其重要。

还支持从右到左的语言,例如希伯来语和阿拉伯语。上下文字符形式被规范化,文本按逻辑顺序传递。

PDF 不仅仅是一堆页面

TET PDF IFilter 将 PDF文档视为容器,其中可能包含比普通页面更多的信息。TETPDF IFilter 索引 PDF文档中的所有相关项目:

页面内容

书签、注释(评论)和表单域中的文本

元数据(见下文)

嵌入式 PDF 和PDF 包(组合)以递归方式处理,以便可以搜索所有嵌入式PDF 文档中的文本。

XMP 文档元数据和文档信息

TET PDF IFilter 中的高级元数据实现支持元数据的Windows 属性系统。它索引XMP 元数据以及标准或自定义文档信息条目。元数据索引可以在多个级别上配置:

文档信息条目、DublinCore 字段和其他常见XMP 属性映射到Windows shell 属性,例如标题、主题、作者。

TET PDF IFilter 添加了有用的特定于PDF 的伪属性,例如页面大小、PDF/A一致性级别、字体名称。

可以索引所有相关的预定义XMP 属性。

可以搜索用户定义的XMP 或基于PDF 的属性,例如公司特定的分类属性、数字签名或ZUGFeRD/Factur-X 一致性。

TET PDF IFilter 可选择将元数据集成到全文索引中。因此,即使是不支持元数据的全文搜索引擎(例如SQL Server)也可以搜索元数据。

Unicode 后处理

TET PDF IFilter 支持各种Unicode 后处理步骤,可用于改进提取的文本:

折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。

分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5069

    文章

    19023

    浏览量

    303433
  • 编码
    +关注

    关注

    6

    文章

    935

    浏览量

    54765
  • PDF
    PDF
    +关注

    关注

    1

    文章

    166

    浏览量

    33658

原文标题:​PDFlib TET PDF IFilter 5 功能

文章出处:【微信号:哲想软件,微信公众号:哲想软件】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    所有Window Watchdog Supervisors

    电子发烧友网站提供《所有Window Watchdog Supervisors.pdf》资料免费下载
    发表于 10-10 10:37 0次下载
    <b class='flag-5'>所有</b>Window Watchdog Supervisors

    如何从模拟输入设备切换到数字输入设备

    电子发烧友网站提供《如何从模拟输入设备切换到数字输入设备.pdf》资料免费下载
    发表于 09-26 10:41 0次下载
    如何从模拟<b class='flag-5'>输入</b>设备切换到数字<b class='flag-5'>输入</b>设备

    VCA810电路时按照pdf上的参数手工焊接搭建,输入信号为100mv,放大到8倍以上会出现自激干扰怎么解决?

    VCA810电路时按照pdf上的参数手工焊接搭建,输入信号为100mv,放大到8倍以上会出现自激干扰,将原有信号淹没。请问这该怎么办。
    发表于 09-24 08:25

    按照PDF文档上的接法做程控放大,为什么VCA810出不来?

    按照PDF文档上的接法做程控放大,为什么VCA810出不来,不是自激就是噪声,这是为什么?
    发表于 09-20 06:22

    ADS866x支持双极输入范围的12位500kSPS 4和8通道、单电源SAR ADC数据表

    电子发烧友网站提供《ADS866x支持双极输入范围的12位500kSPS 4和8通道、单电源SAR ADC数据表.pdf》资料免费下载
    发表于 07-30 10:03 0次下载
    ADS866x<b class='flag-5'>支持</b>双极<b class='flag-5'>输入</b>范围的12位500kSPS 4和8通道、单电源SAR ADC数据表

    微软六月全球PowerPoint推出自动分析PDF要点制作PPT功能

    据悉,Copilot功能将同时适用于桌面版及网页版PowerPoint,全球适用,操作简便。用户只需上传PDF文件,Copilot即可自动将其解析为适合风格的演示文稿,特别是针对已有明确框架和流程的PDF文件,可极大地节约用户时
    的头像 发表于 05-31 09:45 421次阅读

    三路同步降压转换器,支持4.5V至18V宽范围输入电压TPS65263数据表

    电子发烧友网站提供《三路同步降压转换器,支持4.5V至18V宽范围输入电压TPS65263数据表.pdf》资料免费下载
    发表于 03-25 09:42 0次下载
    三路同步降压转换器,<b class='flag-5'>支持</b>4.5V至18V宽范围<b class='flag-5'>输入</b>电压TPS65263数据表

    Vision_Board_schematic.pdf

    *附件:Vision_Board_schematic.pdf
    发表于 03-20 15:21

    RA8D1_User’s Manual.pdf

    *附件:RA8D1_User’s Manual.pdf
    发表于 03-20 15:20

    RA8D1_Datasheet.pdf

    *附件:RA8D1_Datasheet.pdf
    发表于 03-20 14:19

    MABA-007159-000000的PINTOPIN国产替代 CH-BMA-7159-MA PDF资料

    MABA-007159-000000的PINTOPIN国产替代 CH-BMA-7159-MA PDF资料
    发表于 02-27 10:58

    PDF输出时出现错误提醒的解决方案

    通过Output Job或Smart PDF创建PDF后,Adobe Acrobat Reader在打开文件时会出现以下错误消息:“An error exists on this page.
    的头像 发表于 01-12 09:50 1592次阅读
    <b class='flag-5'>PDF</b>输出时出现错误提醒的解决方案

    ad7699是否支持全差分的输入方式?

    异常(波形幅度表现为截底),可能的原因? 问题2:采用单端接入IN0时,在信号源和频率板之间接入了10k低通滤波器(用公司),大信号测试结果SNR为89 db,是否为ad7699单端接入时的真实水平?(PDF上SNR典型值为92.5 db) 问题3: ad7699是否支持
    发表于 12-13 06:56

    TCM2-43X+PINTOPIN替代CH-BTM243A PDF资料

    TCM2-43X+PINTOPIN替代CH-BTM243A PDF资料
    发表于 12-12 10:15

    请问AD7712 PDF中时间t35怎么确定?

    PDF中给出的Tclk-SCLK High 这个Sclk High是什么意思?
    发表于 12-06 06:49