machine-learning Gradient Descent, SGD, Adam: từ đạo hàm cấp 3 đến Muon optimizer 2026 Giải thích Gradient Descent, SGD, Adam optimizer từ đạo hàm cấp 3, và vì sao Muon (Kimi 2025) sẽ là bước tiếp theo. Toán dễ hiểu, không code.