Memos 广场 🎪
23:07 · 2025年3月29日 · 周六
用python从纯pdf提取信息遇到的坑:1.转图片用OCR识别,图像大小不好把握,而且似乎特耗CPU。2.使用表格识别模块会遇到没有闭合的线段,表格识别不成功。3.划分固定区域提取,不够灵活,遇到歪的就超出区域。4.使用某一点的相对位置来设置区域,参照点不好找,一样有前一个问题的问题。5.还有PDF内容生成不统一的问题,有的PDF按书写顺序制作,有的先模板再填充内容,两者提取内容排列顺序不同。6.多页翻页内容识别问题。#折腾
via
不亦乐乎
Home
Powered by
BroadcastChannel
&
Sepia