Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

跨页长表格解析问题 #1344

Open
darvsum opened this issue Dec 22, 2024 · 3 comments
Open

跨页长表格解析问题 #1344

darvsum opened this issue Dec 22, 2024 · 3 comments
Labels
bug Something isn't working

Comments

@darvsum
Copy link

darvsum commented Dec 22, 2024

Description of the bug | 错误描述

当前跨页解析结果生成了多个表格,跨页的生成的表格没有表头数据。
希望跨页表格能生成一个表格或者可以生成多个表格,但是每个表格要有表头。

How to reproduce the bug | 如何复现

上传有跨页表格的文档

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.10.x

Device mode | 设备模式

cuda

@darvsum darvsum added the bug Something isn't working label Dec 22, 2024
@darvsum
Copy link
Author

darvsum commented Dec 22, 2024

这是minerU生成的表格内容
第一页

财务指标2014年度/2014年12月 31日2013年度/ 2013年12月31日2012年度/ 2012年12月31日
流动比率0.900.981. 36
速动比率0.560.670.91
资产负债率 (母公司)62.26%64.98%55.97%
应收账款周转率 (次/年)8.529.47.57

第二页

存货周转率 (次/年)4.885.154. 46
息税折旧摊销前利润 (万元) 利息保障倍数28,126.39 5.3424,490.55 6.6518,605.27
每股净资产 (元/股)2.662.3610. 47 2.03
每股经营活动现金净流量(元/ 股)0.420.720.18
每股净现金流量 (元/股)0.10-0.07-0. 06

@rockeodear
Copy link

我加了个手动处理的逻辑,判断相邻表格,如果表格间没有换行符之外的其他符号,且表格的最大列数一致,则认为这两个表格应该合并。
如果可以的话再加上model.json里边,判断两个表格不在同一页再合并。
不过,最好还是希望框架层面可以解决这个问题

@hyp530
Copy link

hyp530 commented Jan 9, 2025

我加了个手动处理的逻辑,判断相邻表格,如果表格间没有换行符之外的其他符号,且表格的最大列数一致,则认为这两个表格应该合并。 如果可以的话再加上model.json里边,判断两个表格不在同一页再合并。 不过,最好还是希望框架层面可以解决这个问题

可否咨询一下,如何添加手动处理的逻辑?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

3 participants