llm - Omelet

llm

1M context: bảy kiến trúc khác nhau dưới cùng một con số

Anthropic, Google, OpenAI, DeepSeek, Meta đều quảng cáo 1M token context. Cùng con số, 7 kiến trúc khác nhau bên dưới — và chỉ 3 lab có paper kiểm chứng được.

ai

Muon optimizer là gì? Vì sao Moonshot dùng để train Kimi K2 1T params

Muon optimizer là Shampoo bị lột bỏ phần chậm, thêm momentum, kiểm chứng bằng 12 kỷ lục NanoGPT speedrun. 52% FLOPs so với AdamW, Kimi K2 dùng thật.

tech-industry-analysis

Việt Nam và foundation model AI: 3 tầng, 18 tháng, và cánh cửa hẹp đang đóng

Đường nào cho AI tại Việt Nam nhỉ ? Nghiên cứu hay cứ túc tắc viết ứng dụng thôi. Mà viết ứng dụng thì cần quái gì người giỏi AI quá =))

deepseek-v4

DeepSeek V4 deep dive: CSA, HCA, mHC và canh bạc 1 triệu token context

Các bài về DeepSeek v4 đang được spam ầm ầm trên các group. Các bài đó đúng 80% nhưng 20% còn lại là sai hoặc gây hiểu nhầm. Và tôi nghĩ nếu bạn thật sự muốn hiểu thì bạn nên đọc bài viết này và paper gốc.

Invisible Prompt Injection: Lỗ hổng AI 2 năm chưa fix

Invisible prompt injection dùng Unicode tag vô hình để giấu instruction trong LLM. Amazon Q, HackerOne Hai, Sourcegraph Amp đều dính. 2 năm, không ai fix.

ai

Phân tích kiến trúc Gemma 4 31B: hybrid attention 5:1, Proportional RoPE, Per-Layer Embeddings (đọc thẳng từ source code)

Phân tích sâu kiến trúc Gemma 4 31B từ config.json và modeling_gemma4.py: hybrid attention 5:1 (sliding window + global), Proportional RoPE, Per-Layer Embeddings, shared KV cache. 256K context chạy được trên một GPU consumer, có screenshot evidence từ primary source.

ai

Quantization: bài toán dịch thuật 70 năm tuổi mà mọi AI engineer đều đang dùng mà không biết

Từ Lloyd-Max 1957 đến GPTQ 2023 — lịch sử, toán học, và code chi tiết của quantization. Bạn đang dùng Q4_K_M mỗi ngày nhưng có hiểu bên trong là gì không?

ai

Harness Engineering - Buzzword Mới Hay Thật Sự Quan Trọng?

Từ Prompt Engineering đến Harness Engineering - mình mệt với buzzword mới. Nhưng trước khi chửi, mình ngồi đào. Đây là những gì mình tìm được.

ai-research

Idea2Story: Tại sao AI làm research vẫn chậm và hay sai?

AI Scientist của Sakana AI fail 42% experiments. Idea2Story đề xuất paradigm mới: thay vì runtime retrieval, xây Knowledge Graph offline. Liệu pre-computation có giải quyết được hallucination?

LLM-powered VEX generation for CVE vulnerability analysis

security

CVE Alert Fatigue? Để AI quyết định vulnerability nào thực sự nguy hiểm

TL;DR * Vấn đề: Q1/2025 có hơn 25,000 CVEs mới, nhưng chỉ 5.2% thực sự exploitable - security teams đang chìm trong biển alerts vô nghĩa * Giải pháp: VEX (Vulnerability Exploitability eXchange) cung cấp context để phân biệt "có vulnerability" và "vulnerability có thể exploit