llm
1M context: bảy kiến trúc khác nhau dưới cùng một con số
Anthropic, Google, OpenAI, DeepSeek, Meta đều quảng cáo 1M token context. Cùng con số, 7 kiến trúc khác nhau bên dưới — và chỉ 3 lab có paper kiểm chứng được.
llm
Anthropic, Google, OpenAI, DeepSeek, Meta đều quảng cáo 1M token context. Cùng con số, 7 kiến trúc khác nhau bên dưới — và chỉ 3 lab có paper kiểm chứng được.
yolo
YOLOv12 paper deep dive tiếng Việt: Area Attention chia 4 dải, R-ELAN scaling 0.01, thí nghiệm bóc tách bất ngờ. Chạy được trên Jetson Orin Nano? Có.
deepseek-v4
Các bài về DeepSeek v4 đang được spam ầm ầm trên các group. Các bài đó đúng 80% nhưng 20% còn lại là sai hoặc gây hiểu nhầm. Và tôi nghĩ nếu bạn thật sự muốn hiểu thì bạn nên đọc bài viết này và paper gốc.
ai
Phân tích sâu kiến trúc Gemma 4 31B từ config.json và modeling_gemma4.py: hybrid attention 5:1 (sliding window + global), Proportional RoPE, Per-Layer Embeddings, shared KV cache. 256K context chạy được trên một GPU consumer, có screenshot evidence từ primary source.