ai
Muon optimizer là gì? Vì sao Moonshot dùng để train Kimi K2 1T params
Muon optimizer là Shampoo bị lột bỏ phần chậm, thêm momentum, kiểm chứng bằng 12 kỷ lục NanoGPT speedrun. 52% FLOPs so với AdamW, Kimi K2 dùng thật.
ai
Muon optimizer là Shampoo bị lột bỏ phần chậm, thêm momentum, kiểm chứng bằng 12 kỷ lục NanoGPT speedrun. 52% FLOPs so với AdamW, Kimi K2 dùng thật.
yolo
YOLOv12 paper deep dive tiếng Việt: Area Attention chia 4 dải, R-ELAN scaling 0.01, thí nghiệm bóc tách bất ngờ. Chạy được trên Jetson Orin Nano? Có.
ai
Phân tích sâu kiến trúc Gemma 4 31B từ config.json và modeling_gemma4.py: hybrid attention 5:1 (sliding window + global), Proportional RoPE, Per-Layer Embeddings, shared KV cache. 256K context chạy được trên một GPU consumer, có screenshot evidence từ primary source.