Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

11. Behemoth - A Flash-centric Training Accelerator for Extreme-scale DNNs #14

Open
neokkk opened this issue Aug 26, 2024 · 2 comments
Open

Comments

@neokkk
Copy link
Contributor

neokkk commented Aug 26, 2024

Motivation

최근 DNN 모델은 더욱 큰 메모리 공간을 요구한다. 하지만 GPU, TPU와 같은 전통적인 HBM 기반 DNN training platform은 불충분한 용량을 제공할 뿐 아니라, 추가적인 비용과 memory bandwidth 측면에서의 under-utilization을 유발한다.

Proposal

저자들은 비용 효율적인 flash memory based training platform인 Behemoth를 제안한다. 이는 SSD의 낮은 bandwidth와 endurance 문제를 특성에 따른 데이터 분리로 달성한다.

Result

Behemoth는 HBM 기반의 전통적인 DNN training platform보다 더 적은 메모리 비용을 달성한다.

@yeojin5
Copy link
Contributor

yeojin5 commented Aug 27, 2024

본 논문에서는 V-Stream과 NV-Stream으로 데이터 형식을 구분하여 각 스트림이 특정 데이터를 처리하는데 이때 load balance문제가 발생하나요?

@kbskbs1102
Copy link
Contributor

데이터의 특성에 따라 SSD의 공간을 나눠 NV-Stream, V-Stream을 따로 저장하는데, 이때 각 Stream이 저장되는 SSD의 물리적인 공간의 비율을 동적으로 조절하는지 궁금합니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants