Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据质量Metric新增完整性校验 #466

Open
1 of 2 tasks
18859108815 opened this issue Oct 17, 2024 · 5 comments
Open
1 of 2 tasks

数据质量Metric新增完整性校验 #466

18859108815 opened this issue Oct 17, 2024 · 5 comments

Comments

@18859108815
Copy link

Search before asking

  • I had searched in the feature and found no similar feature requirement.

Description

后续能否新增基于数据日志的完整性检查,目前比较接近的检查方式包括“表行数检查”,“平均值检查”,但缺少完整性检查的metric,也即数据日志中记录了主数据的记录数,可以通过比较日志中的信息和计算出来的主数据记录数来比较数据是否完整。
感谢datavines开源团队。

Usage Scenario

No response

Related issues

No response

Are you willing to submit a PR?

  • Yes I am willing to submit a PR!
@zixi0825
Copy link
Member

zixi0825 commented Jan 2, 2025

你说的数据日志指的是什么?

@18859108815
Copy link
Author

你说的数据日志指的是什么?
我的数据业务场景是是这样的,源系统将数据文件和对应的校验文件放在SFTP目录下,其中校验文件中包含了数据文件的“记录数”、“数据时间”、”数据生成时间”,下游的数据中台首先会判断是否存在校验文件,在存在校验文件的前提下才会去采集校验文件中记录对应数据时间的数据文件,数据采集入库后会在数据中台登记该数据模型的数据时间(信息登记在数据日志中),数据质量完整性验证的时候,期望的方式是拿入库的文件记录数(select count(1) from test_table where dt=数据时间)和校验文件中的“记录数”进行比对,如果相等则代表完整,不相等则代表不相等。

@zixi0825
Copy link
Member

zixi0825 commented Jan 2, 2025

你说的数据日志指的是什么?
我的数据业务场景是是这样的,源系统将数据文件和对应的校验文件放在SFTP目录下,其中校验文件中包含了数据文件的“记录数”、“数据时间”、”数据生成时间”,下游的数据中台首先会判断是否存在校验文件,在存在校验文件的前提下才会去采集校验文件中记录对应数据时间的数据文件,数据采集入库后会在数据中台登记该数据模型的数据时间(信息登记在数据日志中),数据质量完整性验证的时候,期望的方式是拿入库的文件记录数(select count(1) from test_table where dt=数据时间)和校验文件中的“记录数”进行比对,如果相等则代表完整,不相等则代表不相等。

这个校验文件的数据能不能写到一张表里面呢?比如把文件里面表名、记录数。数据时间插到一张表里,然后期望值增加一种自定义脚本的类型,写SQL读取对应的记录数进行比较

@18859108815
Copy link
Author

实际上我们目前的系统里已经有这么一张表,我们成为“日志表”,希望能够根据“日志表”里的数据时间、数据表名称作为输入参数来查询本地数据库里的记录数,然后和“日志表”里的数据记录数来比较,以此来确定数据是否是完整的。

@zixi0825
Copy link
Member

zixi0825 commented Jan 9, 2025

那你可以使用数据对比检查中的两表值比对规则,通过写自定义SQL进行比较

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants