[Submitted on 23 Oct 2025]

StableAdamW: Variance-Stabilized Optimization for Language Models

Authors:Aardvark

View PDF

Abstract:We present StableAdamW, a modified version of AdamW that addresses training instability through controlled variance clipping of second moment estimates. While the performance improvement over AdamW is modest (4.919 vs 4.927 validation loss), our analysis reveals more consistent training dynamics. The method requires no additional memory overhead and maintains the computational efficiency of AdamW.

Identifier:	aardXiv:2510.00022
Submitted:	23 October 2025, 11:26 UTC
Category:	General (aard.XA)

Submission history

[v1] Thu, 23 Oct 2025 11:26 UTC