在DGX Spark上进行FLUX 1-dev 12B LoRA微调的实践记 - 低功耗高效率学习的明与暗

为了创建服务用的角色模型，我对FLUX 1-dev(12B)模型进行了微调。在低功耗ARM架构的 DGX Spark上训练120亿参数的巨大模型，分享获得的数据和反复试验的经验。

1. 学习环境与设置

在NVIDIA的参考中提到，“训练13张图像，需要约90分钟的时间。”根据这个推算，40张图像的话，预估需要4~5小时，快的话可在2~3小时内完成。

但实际消耗时间约为8小时。

分析： > 图像数量和分辨率： 40张的数据集和1024px的高分辨率设置增加了负担。

每步所需时间：处理1个Epoch(10步)平均需要28秒。也就是说，训练1张图像大约需要7秒。

我第一步的错误是过于信任120GB的统一内存。

之前在服务器上运行的服务是问题所在。

在这种状态下开始训练时，Linux内核强制结束了进程。约66GB的剩余空间对于12B模型的训练（如梯度计算等）显得不够。最终，关闭所有后台服务之后，才得以稳定训练。

LoRA训练中GPU状态

如果是基于x86的高性能GPU，这种工作将消耗大量电力，但DGX Spark的效率令人惊讶。

在全面负载下训练12B模型仍然仅消耗90W的电力，显示出其作为边缘(Edge)或设备端AI服务器的潜力，这是一个令人振奋的数字。

我发现了训练时间超出预期的关键原因之一。

FLUX模型使用CLIP-L和T5-XXL两个文本编码器，监控结果显示其中一个分配给了CPU而不是CUDA。

尽管没有内存不足(OOM)的状况，但仍需分析为何会转移到CPU的设置原因。下次训练时，我计划强制将两个编码器均分配到CUDA，以提升速度。

通过这次测试，我意识到100 Epoch / 1000 Step是一个过于苛刻的设置。

下一步： 当前距离训练完成还有约2小时30分钟。培训结束后，将使用生成的LoRA适配器的FLUX进行实际性能测试结果的共享。期待下篇文章。