来源:2019-10-23 23:23:43 热度:

接入百度大脑表格文字识别技术,快速降低信息电子化录入成本

AI中国网 h ttps://www.cnaiplus.com

使用表格文字识别技术,对个人、商品、公示内容等纸质信息登记表进行识别,快速实现表格内容的电子化,用于登记信息的结构化整理和统计,大幅度降低信息电子化工作的人力录入成本,提升信息管理的便捷性

一.平台接入

此步骤比较简单,不多阐述。可参照之前文档:

\"image.png\"

二.分析接口文档

1.打开API文档页面,分析接口要求

\"image.png\"

(1)接口描述

对图片中的表格文字内容进行提取和识别,结构化输出表头、表尾及每个单元格的文字内容。支持识别常规表格及含合并单元格表格,并可选择以JSON或Excel形式进行返回。

(2)请求说明

需要用到的信息有:

\"image.png\"

Body中放置请求参数,参数详情如下:

本接口为异步接口,分为两个API:提交请求接口、获取结果接口。这里有一个关键参数:is_sync,取值为“false”,需通过获取结果接口获取识别结果;取值为“true”,同步返回识别结果,无需调用获取结果接口。当然,能一次搞定的绝不用两次,只需设置该参数为“true”即可。

\"image.png\"

(3)返回参数

\"image.png\"

返回示例

\"image.png\"

2.获取access_token

\"image.png\"

\"image.png\"

三.识别结果

1.

\"image.png\"

识别结果:

\"image.png\"

2.

\"image.png\"

识别结果:

\"image.png\"

3.

\"image.png\"

识别结果:

\"image.png\"

4.

\"image.png\"

识别结果:

\"image.png\"

结论:

识别结果方面:

采用不同形式的复杂表格进行测试,识别结果比较准确,能够大大减少信息录入工作。

处理速度方面:

每张图片处理时间在3-5s,可以接受。

源码共享

四.

\"image.png\"

\"image.png\"

\"image.png\"

\"image.png\"

\"image.png\"

五.意见建议

1.整体识别效果还是不错的,识别结果的精确度还有待提高,细节处理还可以更完善。比如复杂表格识别文字串行,个别文字丢失或错误等。

2.对表格中有手写体文字的识别效果不好,建议增加对手写输入的识别。

AI中国网 h ttps://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com