java吧 关注:1,239,268贴子:12,710,335

技术求助贴

只看楼主收藏回复

最近公司给了一个需求:用户上传纸质文件扫描件pdf到系统,然后系统把pdf中的内容和现有的word模板做对比,检查没有填写内容的空缺项并提醒,扫描件内容有表格,有手写文字。
试了一下各家的ocr识别,对表格和手写汉字的识别率特别低,文字内容也会乱。
求助各位大佬,这种需求还有哪些可能的实现方式?


IP属地:湖南来自Android客户端1楼2024-10-15 18:57回复
    如果你能保证格式完全一致,可以考虑直接cv2模板匹配,计算差值,再手动标记一版需要填写的空位,看看位置上有没有文字


    IP属地:安徽来自Android客户端2楼2024-10-15 20:53
    收起回复
      实际上应该用特征匹配而不是模版匹配,因为不能保证用户的扫描件是无形变且是理想灰度的,你至少需要三个及以上不同位置的不共线的特征,实际上是特征数量越多越好,特征匹配最大的作用是可以计算出仿射矩阵,这样你可以将扫描件对齐到标准文档上,这时候就可以精准截取目标位置的局域图像,判断局域图像是否有文字可以借助阈值二值化,边缘检测,滑动窗口内方差是否有突变等,方法很多,这些方法可以买本c++ opencv书看看,讲得很细,实际用python写好,部署到docker里开个后台服务就行


      IP属地:江苏来自iPhone客户端3楼2024-10-16 03:38
      收起回复
        pdf实际很难


        IP属地:北京来自iPhone客户端4楼2024-10-16 08:47
        回复
          数据大模型


          IP属地:湖北来自Android客户端5楼2024-10-16 09:04
          回复
            直接上OCR不现实,你还要判断是否有表格,单层还是双层,有表格线条判断和补充又是咋样的


            IP属地:四川来自Android客户端6楼2024-10-16 10:38
            收起回复
              标记一下,看看楼主最终怎么解决的,解决了发一下解决方案,学习学习


              IP属地:江苏来自Android客户端7楼2024-10-16 11:35
              收起回复
                用python写功能,项目再调用


                IP属地:江苏来自Android客户端8楼2024-10-16 12:01
                收起回复
                  直接标记每个需要填写内容空格的位置,转成图片,检测对应位置像素是否全为255


                  IP属地:山西来自Android客户端9楼2024-10-16 12:45
                  收起回复
                    楼主最后解决了踢我一脚,学习学习


                    IP属地:山东来自Android客户端10楼2024-10-16 14:07
                    收起回复
                      JAVA吧遗风


                      IP属地:四川来自Android客户端11楼2024-10-16 14:26
                      回复
                        让客户用电子版写


                        IP属地:河北来自iPhone客户端12楼2024-10-16 18:40
                        收起回复
                          百度飞桨


                          IP属地:广东来自Android客户端13楼2024-10-16 19:33
                          回复
                            这个除了用现成的,自己实现的话黄花菜都凉了吧


                            IP属地:浙江来自Android客户端14楼2024-10-16 21:14
                            收起回复
                              抱歉,做不了


                              IP属地:广东来自iPhone客户端15楼2024-10-17 05:06
                              回复