用python从纯pdf提取信息遇到的坑

用python从纯pdf提取信息遇到的坑：1.转图片用OCR识别，图像大小不好把握，而且似乎特耗CPU。2.使用表格识别模块会遇到没有闭合的线段，表格识别不成功。3.划分固定区域提取，不够灵活，遇到歪的就超出区域。4.使用某一点的相对位置来设置区域，参照点不好找，一样有前一个问题的问题。5.还有PDF内容生成不统一的问题，有的PDF按书写顺序制作，有的先模板再填充内容，两者提取内容排列顺序不同。6.多页翻页内容识别问题。#折腾

via 不亦乐乎