Memos 广场 🎪
https://memobbs.app/
6 天前
用python从纯pdf提取信息遇到的坑:1.转图片用OCR识别,图像大小不好把握,而且似乎特耗CPU。2.使用表格识别模块会遇到没有闭合的线段,表格识别不成功。3.划分固定区域提取,不够灵活,遇到歪的就超出区域。4.使用某一点的相对位置来设置区域,参照点不好找,一样有前一个问题的问题。5.还有PDF内容生成不统一的问题,有的PDF按书写顺序制作,有的先模板再填充内容,两者提取内容排列顺序不同。6.多页翻页内容识别问题。
#折腾
via
不亦乐乎
折腾
22:05 · 2025年3月22日 · 周六
想靠 AI 自己折腾个 python 识别 pdf 发票的东西,纯 pdf 无法去除红印章的干扰,转为图片位置定位又乱七八糟,模块装了一大堆搞不定,太难了。
#折腾
via
不亦乐乎
折腾
18:33 · 2025年3月10日 · 周一
修改了 hugo 博客的 feed 地址,添加了baseUrl 为 lms.im,并在 cloudflare 里把 www 301 到跟域名,现在
lms.im
没梯子完全打不开了,以前 www 还能漏网之鱼。
#折腾
via
不亦乐乎
折腾
10:26 · 2023年4月16日 · 周日
#折腾
电报频道关联群组后,对消息可以评论,这个方便~
via
林木木
折腾
14:53 · 2023年4月15日 · 周六
#折腾
顺利给 Hugo 加装后台 Qexo,但还是有些复杂。也试用了
tina.io
,不好用…不然直接打开 GitHub 网页版。
via
林木木
折腾
Home
Powered by
BroadcastChannel
&
Sepia