GaLore_AdamW和LoRA的应用 #6487

YajieW99 · 2024-12-30T08:47:38Z

作者你好，注意到你在训练阶段所使用的优化器为GaLore_AdamW，了解到这是一种梯度低秩近似的方法，GaLore论文中作者将GaLore和LoRA作为两种独立方法进行应用和比较，那么在llama-factory框架下，GaLore_AdamW和LoRA两者间你是如何结合并应用的呢？

hiyouga · 2024-12-30T08:49:01Z

两个不需要一起用

YajieW99 · 2024-12-30T08:52:28Z

两个不需要一起用

那请问默认配置下，是用的LoRA+AdamW优化器吗？或者是别的什么？

hiyouga · 2024-12-30T08:56:16Z

是

YajieW99 · 2024-12-30T09:00:15Z

是

我在训练后生成的README中注意到，优化器使用的是adamw_torch，而adamw_torch在代码中对应为GaLore_AdamW，这个应该怎么理解？麻烦大佬把LoRA和优化器的使用讲清楚些

github-actions bot added the pending This problem is yet to be addressed label Dec 30, 2024

hiyouga closed this as completed Dec 30, 2024

hiyouga added solved This problem has been already solved and removed pending This problem is yet to be addressed labels Dec 30, 2024

Provide feedback