(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 112800719 A(43)申请公布日 2021.05.14
(21)申请号 202011578098.0(22)申请日 2020.12.28
(71)申请人 北京思题科技有限公司
地址 1000 北京市海淀区上地十街1号院
1号楼13层1310(72)发明人 孟鑫 
(74)专利代理机构 北京世誉鑫诚专利代理有限
公司 11368
代理人 孙国栋(51)Int.Cl.
G06F 40/111(2020.01)G06F 40/114(2020.01)G06F 40/117(2020.01)G06F 40/151(2020.01)
权利要求书1页  说明书3页  附图2页
(54)发明名称
一种电子文档结构化方法(57)摘要
通过识本发明公开的电子文档结构化方法,
别电子文档的类型,根据该类型,对电子文档的内容进行标注,提高了效率及适用性,避免了垃圾数据的产生。
CN 112800719 ACN 112800719 A
权 利 要 求 书
1/1页
1.一种电子文档结构化方法,其特征在于,包括:识别电子文档的类型,其中,所述类型包括word类型、pdf类型、txt类型、jpg类型、png类型、bmp类型、zip类型;
根据所述类型,对所述电子文档的内容进行标注。2.根据权利要求1所述的电子文档结构化方法,其特征在于,根据所述类型,对所述电子文档的内容进行标注包括:
对Word、txt类型的电子文档,解析所述电子文档并提取所述电子文档中的文本;对特殊类型的电子文档,采用html标记的方式进行标识,生成所述电子文档的识别结果;
对于pdf类型的电子文档,生成相应的png图片,根据png图片的处理方式处理所述电子文档;
对于仅包含图片的zip类型的电子文档,将所述电子文档解压后,按照图片的方式处理所述电子文档;
对于jpg、png、bmp类型的电子文档,按照图片的方式处理所述电子文档。3.根据权利要求2所述的电子文档结构化方法,其特征在于,按照图片的方式处理所述电子文档包括:
将所述电子文档作为一页呈现在web界面上并对所述电子文档的结构进行标注,其中,标注的内容包括图片、行内图片、公式、清除块、页面拆分。
4.根据权利要求3所述的电子文档结构化方法,其特征在于,在对所述电子文档的结构进行标注之后,所述方法还包括:
根据标注的内容,对图片进行加工,包括:
将图片和行内图片中的内容转换为单张图片;
采用公式识别技术识别公式并将所述公式转换为成Latex语言描述的公式;将图片、行内图片、公式、清除块从原始图片中清除;根据页面拆分标注,将经过清除操作的原始图片一分为二,得到多张图片。5.根据权利要求4所述的电子文档结构化方法,其特征在于,在得到多张图片之后,所述方法还包括:
分别对所述多张图片进行文本识别,将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果。
6.根据权利要求5所述的电子文档结构化方法,其特征在于,在将得到的识别结果标注
所述方法还包括:的内容重新拼接成完整的电子文档识别结果之后,
实时对比所述电子文档识别结果与原始电子文档的内容,如有错误,则对所述电子文档识别结果进行编辑。
7.根据权利要求3所述的电子文档结构化方法,其特征在于,对所述电子文档的结构进行标注包括:
选择一个结构化字段;
在所述电子文档识别结果中拉选内容;
将拉选的内容呈现为已结构化标注的标记并建立拉选的内容已与所述结构化字段之间的关联关系。
2
CN 112800719 A
说 明 书
一种电子文档结构化方法
1/3页
技术领域
[0001]本发明涉及温度采集技术领域,具体涉及一种电子文档结构化方法。
背景技术
[0002]目前数据结构化有如下几种方案:[0003](1)直接在线编辑、手工录入:通过打字、复制粘贴的方式来实现数据的生成和结构化;[0004](2)通过在word文档中打标记,再经过word解析程序对word文档进行解析,最后对打标记时打的标签进行比对、识别,完成word文档中数据的结构化。[0005]该方案存在以下缺陷:[0006](1)支持文档格式少,仅支持word文档;[0007](2)手工在word文档中打标签容易出错,且出错后不能及时发现;[0008](3)Word文档因格式问题导致内容解析错误(串行、丢失、多内容等)不能及时发现;[0009]导致结(4)若文档中有与标签一致的内容是,会造成word解析程序对内容的误判,果不正确;[0010](5)只能等word内容解析完成且导入系统之后才能核对解析结果是否正确,且人工核对效率低;[0011](6)解析结果出问题时,需要调整word文档内容后再次导入,导致系统中垃圾数据越积越多。
发明内容
[0012]为解决现有技术的不足,本发明实施例提供了一种电子文档结构化方法,该方法包括以下步骤:
[0013]识别电子文档的类型,其中,类型包括word类型、pdf类型、txt类型、jpg类型、png类型、bmp类型、zip类型;[0014]根据所述类型,对所述电子文档的内容进行标注。[0015]优选地,根据所述类型,对所述电子文档的内容进行标注包括:[0016]对Word、txt类型的电子文档,解析所述电子文档并提取所述电子文档中的文本;[0017]对特殊类型的电子文档,采用html标记的方式进行标识,生成所述电子文档的识别结果;
[0018]对于pdf类型的电子文档,生成相应的png图片,根据png图片的处理方式处理所述电子文档;
[0019]对于仅包含图片的zip类型的电子文档,将所述电子文档解压后,按照图片的方式处理所述电子文档;[0020]对于jpg、png、bmp类型的电子文档,按照图片的方式处理所述电子文档。
3
CN 112800719 A[0021]
说 明 书
2/3页
优选地,按照图片的方式处理所述电子文档包括:
[0022]将所述电子文档作为一页呈现在web界面上并对所述电子文档的结构进行标注,其中,标注的内容包括图片、行内图片、公式、清除块、页面拆分。[0023]优选地,在对所述电子文档的结构进行标注之后,所述方法还包括:[0024]根据标注的内容,对图片进行加工,包括:
[0025]将图片和行内图片中的内容转换为单张图片;
[0026]采用公式识别技术识别公式并将所述公式转换为成Latex语言描述的公式;[0027]将图片、行内图片、公式、清除块从原始图片中清除;[0028]根据页面拆分标注,将经过清除操作的原始图片一分为二,得到多张图片。[0029]优选地,在得到多张图片之后,所述方法还包括:[0030]分别对所述多张图片进行文本识别,将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果。[0031]优选地,在将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果之后,所述方法还包括:
[0032]实时对比所述电子文档识别结果与原始电子文档的内容,如有错误,则对所述电子文档识别结果进行编辑。[0033]优选地,对所述电子文档的结构进行标注包括:[0034]选择一个结构化字段;
[0035]在所述电子文档识别结果中拉选内容;
[0036]将拉选的内容呈现为已结构化标注的标记并建立拉选的内容已与所述结构化字段之间的关联关系。
[0037]本发明实施例提供的电子文档结构化方法具有以下有益效果:[0038](1)可处理的文档类型多样,适用性强;[0039](2)识别结果出错时,能够及发现并改正,效率较高;[0040](3)将对比操作放在导入前,避免了垃圾数据的产生。附图说明
[0041]图1为本发明实施例提供的电子文档结构化方法结构示意图;[0042]图2为本发明实施例提供的电子文档的内容进行标注示意图;[0043]图3为本发明实施例提供的电子文档的结构进行标注示意图。
具体实施方式
[0044]以下结合具体实施例对本发明作具体的介绍。[0045]如图1所示,本发明提供的实施例提供的电子文档结构化方法包括以下步骤:[0046]S101,识别电子文档的类型,其中,该类型包括word类型、pdf类型、txt类型、jpg类型、png类型、bmp类型、zip类型;[0047]S102,根据该类型,对电子文档的内容进行标注。[0048]可选地,根据该类型,对电子文档的内容进行标注包括:[0049]对Word、txt类型的电子文档,解析电子文档并提取电子文档中的文本;
4
CN 112800719 A[0050]
说 明 书
3/3页
对特殊类型的电子文档,采用html标记的方式进行标识,生成电子文档的识别结
果,其中,特殊类型的电子文档包括公式、上下标、下划线;[0051]对于pdf类型的电子文档,生成相应的png图片,根据png图片的处理方式处理电子文档;
[0052]对于仅包含图片的zip类型的电子文档,将电子文档解压后,按照图片的方式处理所述电子文档;[0053]对于jpg、png、bmp类型的电子文档,按照图片的方式处理电子文档。[0054]可选地,按照图片的方式处理电子文档包括:
[0055]将电子文档作为一页呈现在web界面上并对电子文档的结构进行标注,其中,标注的内容包括图片、行内图片、公式、清除块、页面拆分。[0056]可选地,在对电子文档的结构进行标注之后,该方法还包括:[0057]根据标注的内容,对图片进行加工,包括:
[0058]将图片和行内图片中的内容转换为单张图片;
[0059]采用公式识别技术识别公式并将该公式转换为成Latex语言描述的公式;[0060]将图片、行内图片、公式、清除块从原始图片中清除;[0061]根据页面拆分标注,将经过清除操作的原始图片一分为二,得到多张图片。[0062]可选地,在得到多张图片之后,该方法还包括:[0063]分别对多张图片进行文本识别,将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果。[00]可选地,在将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果之后,该方法还包括:
[0065]实时对比电子文档识别结果与原始电子文档的内容,如有错误,则对电子文档识别结果进行编辑。[0066]可选地,对电子文档的结构进行标注包括:[0067]选择一个结构化字段;
[0068]在电子文档识别结果中拉选内容;
[0069]将拉选的内容呈现为已结构化标注的标记并建立拉选的内容已与结构化字段之间的关联关系。
[0070]本发明实施例提供的电子文档结构化方法,通过识别电子文档的类型,根据该类型,对电子文档的内容进行标注,提高了效率及适用性,避免了垃圾数据的产生。[0071]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。[0072]可以理解的是,上述方法及装置中的相关特征可以相互参考。[0073]以上仅为本申请的实施例而已,并不用于本申请。对于本领域技术人员来说,
凡在本申请的精神和原理之内所作的任何修改、等同替换、本申请可以有各种更改和变化。
改进等,均应包含在本申请的权利要求范围之内。
5
CN 112800719 A
说 明 书 附 图
1/2页
图1
图2
6
CN 112800719 A
说 明 书 附 图
图3
7
2/2页