用python从纯pdf提取信息遇到的坑:1.转图片用OCR识别,图像大小不好把握,而且似乎特耗CPU。2.使用表格识别模块会遇到没有闭合的线段,表格识别不成功。3.划分固定区域提取,不够灵活,遇到歪的就超出区域。4.使用某一点的相对位置来设置区域,参照点不好找,一样有前一个问题的问题。5.还有PDF内容生成不统一的问题,有的PDF按书写顺序制作,有的先模板再填充内容,两者提取内容排列顺序不同。6.多页翻页内容识别问题。#折腾

via 不亦乐乎
想靠 AI 自己折腾个 python 识别 pdf 发票的东西,纯 pdf 无法去除红印章的干扰,转为图片位置定位又乱七八糟,模块装了一大堆搞不定,太难了。#折腾

via 不亦乐乎
修改了 hugo 博客的 feed 地址,添加了baseUrl 为 lms.im,并在 cloudflare 里把 www 301 到跟域名,现在 lms.im 没梯子完全打不开了,以前 www 还能漏网之鱼。#折腾

via 不亦乐乎
#折腾 电报频道关联群组后,对消息可以评论,这个方便~

via 林木木
#折腾 顺利给 Hugo 加装后台 Qexo,但还是有些复杂。也试用了 tina.io ,不好用…不然直接打开 GitHub 网页版。

via 林木木
 
 
Back to Top