fix(ingest): decrease ingest memory usage for large datasets #3505

anna-parker · 2025-01-08T08:53:09Z

resolves #

preview URL: https://ingest-memory-fixes.loculus.org/

Summary

When dealing with organisms with a large number of sequences (e.g. influenza A has 1.3M sequences) even just reading it the entire metadata is highly memory intensive - this PR switches to streaming metadata where ever possible and is similar to the change @corneliusroemer made in #2277 to stream sequences.

Note that in the case where segments are grouped the entire file still must be read into a dictionary.

Screenshot

PR Checklist

Improve batching: this still reads in both fasta and metadata and is thus the current memory bottleneck -> to remove this the input files need to be sorted
extend tests to ndjson files

anna-parker added 2 commits January 8, 2025 09:42

fix(ingest): switch to ndjson instead of json to stream grouped metadata

4376b69

fix

de8f652

anna-parker added the preview Triggers a deployment to argocd label Jan 8, 2025

anna-parker added 6 commits January 8, 2025 10:07

fix

742167c

change script to stream

a74c45c

fix tests

3c204ea

fix

3b9733e

fix

ac8d146

update tests

362a91a

anna-parker changed the title ~~Ingest memory fixes~~ fix(ingest): lower ingest memory usage for large datasets Jan 9, 2025

anna-parker changed the title ~~fix(ingest): lower ingest memory usage for large datasets~~ fix(ingest): decrease ingest memory usage for large datasets Jan 9, 2025

anna-parker added 3 commits January 9, 2025 19:50

fix

8cd8671

fix

b68095c

dont store unneeded data

e00f04f

anna-parker marked this pull request as ready for review January 9, 2025 20:08

anna-parker requested review from corneliusroemer and fhennig January 9, 2025 20:08

anna-parker added 2 commits January 12, 2025 13:03

fix tsv column order bug

39e82c2

fix

cf6c251

anna-parker removed request for fhennig and corneliusroemer January 12, 2025 21:03

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix(ingest): decrease ingest memory usage for large datasets #3505

fix(ingest): decrease ingest memory usage for large datasets #3505

anna-parker commented Jan 8, 2025 •

edited

Loading

fix(ingest): decrease ingest memory usage for large datasets #3505

Are you sure you want to change the base?

fix(ingest): decrease ingest memory usage for large datasets #3505

Conversation

anna-parker commented Jan 8, 2025 • edited Loading

Summary

Screenshot

PR Checklist

anna-parker commented Jan 8, 2025 •

edited

Loading