loader导入parquet文件的建议 #225

ghostmickey · 2021-08-04T03:47:36Z

目前loader读取parquet文件时，所有的列都读出来了，没有考虑field_mapping只用到了其中部分列的情况

例如如果原始表有 100 列，但是实际入图只需要 10 列，全部读取再从里面去把需要的10列捞出来，这样发挥不出来 parquet 列存储的优势，读取很慢，而且传递的 map 消耗了许多不必要的内存

The text was updated successfully, but these errors were encountered:

imbajin · 2021-08-04T05:55:11Z

感谢反馈, 后续确认一下问题会安排排期优化, 如果你有简单的优化方案, 欢迎贡献 PR 提交一下代码, 我们也会给出相应的建议 😃

ghostmickey · 2021-08-04T06:09:09Z

我看了代码，主要是HDFSFileReader类只拿到了source的信息，拿不到fieldMapping的信息，所以没法只读取需要的字段，得再InputReader.create就把顶点/边的mapping信息全部带过来才行，包括JDBC其实也一样，只需要select 需要的字段就行了

ghostmickey added the feature label Aug 4, 2021

imbajin added enhancement New feature or request and removed feature labels Aug 4, 2021

Provide feedback