AI security

Tại Sao AI Không An Toàn Như Bạn Nghĩ? ML Security Khác Hoàn Toàn Bảo Mật Truyền Thống

Một viễn tưởng tôi hack vào apple, đầu độc mô hình để phá khóa Iphone lấy kịch bản hài tết của Trấn Thành. Nếu câu hook này không thuyết phục được bạn thì tôi chịu. Xem tiktok tiếp đi.

Đầu tiên, đây là chuỗi bài Advanced của Advanced. Vì nó là Security cho các mô hình AI. Nhưng nếu bạn thích và đã tìm hiểu về lỗ đen và lượng tử thì đọc thôi, tôi nghĩ khẩu vị ta giống nhau.

Tại Sao AI Không An Toàn Như Bạn Nghĩ? ML Security Khác Hoàn Toàn Bảo Mật Truyền Thống

Mỗi ngày, 3 triệu email giả mạo vượt qua các bộ phân loại ML của các hệ thống bảo mật email hàng đầu (Proofpoint, 2024). Hệ thống tự lái của Tesla bị đánh lừa bởi vài miếng dán nhỏ trên mặt đường, khiến xe chuyển làn một cách nguy hiểm. Và mới đây, một lỗ hổng trong GitHub Copilot (CVE-2025-53773) cho phép thực thi mã độc từ xa với điểm CVSS 9.6 - chỉ bằng cách chèn prompt độc hại vào code context.

Đây không phải là những lỗi phần mềm bình thường. Đây là một loại lỗ hổng hoàn toàn khác, nằm sâu trong cách AI hoạt động.

Traditional Security vs ML Security - bugs in code vs properties of mathematics

Traditional Security và ML Security - Hai thế giới khác biệt

Trong bảo mật truyền thống, chúng ta đã quen với những lỗ hổng như buffer overflow, SQL injection, hay cross-site scripting. Những lỗ hổng này có điểm chung: chúng là lỗi trong code. Một lập trình viên viết sai, và chúng ta sửa lại. Patch được phát hành, hệ thống được cập nhật, vấn đề được giải quyết.

ML security là một câu chuyện khác hẳn.

Lỗ hổng trong ML không phải là bug trong implementation. Chúng là đặc tính cố hữu của toán học đằng sau mô hình. Bạn không thể "patch" được việc một neural network nhầm lẫn giữa một hình ảnh mèo và một hình ảnh mèo đã bị chỉnh sửa không thể nhận biết bằng mắt thường. Đó là cách mà phép toán tuyến tính trong không gian nhiều chiều hoạt động.

Ví dụ đơn giản về lỗ hổng bảo mật của AI thì ai cũng biết Iphone có nhận diện khuôn mặt rồi đúng không ? Nếu tôi đầu độc được mô hình của Apple bằng cách gắn khuôn mặt của tôi thành khuôn mặt của Trấn Thành thì tôi có thể đánh cắp iphone sau đó dùng nhận diện khuôn mặt để đọc trộm kịch bản phim hài tết của anh ấy (Yes, hoàn toàn xứng đáng).

Hãy nghĩ thế này: trong bảo mật truyền thống, bạn đang tìm lỗi chính tả trong một cuốn sách và sửa chúng. Trong ML security, bạn đang đối mặt với một vấn đề cơ bản của ngôn ngữ - không phải lỗi của người viết, mà là giới hạn của chính ngôn ngữ đó.

Tại sao AI dễ bị tấn công - Bản chất đến từ không gian đa chiều

Để hiểu tại sao AI dễ bị tấn công, bạn cần hiểu một khái niệm toán học quan trọng nhưng không quá phức tạp: tính tuyến tính trong không gian nhiều chiều.

Một hình ảnh 32x32 pixel với 3 kênh màu có 3,072 chiều. Một hình ảnh 224x224 có hơn 150,000 chiều. Mỗi pixel là một chiều trong không gian mà mô hình hoạt động.

Bây giờ, hãy tưởng tượng bạn đứng trước một chiếc xe hơi. Nếu bạn đẩy chiếc xe 1mm, nó không nhúc nhích. Nhưng nếu 1,000 người cùng đẩy, mỗi người chỉ đẩy 1mm theo cùng một hướng, chiếc xe sẽ di chuyển 1 mét.

Đây chính là nguyên lý đằng sau adversarial attacks. Trong không gian 1,000 chiều, một thay đổi nhỏ ở mỗi chiều - nhỏ đến mức không thể nhận ra bằng mắt thường - tích lũy thành một thay đổi lớn trong kết quả đầu ra của mô hình. Với hình ảnh 150,000 chiều, hiệu ứng này còn mạnh hơn gấp bội.

Công thức toán học đơn giản: nếu bạn thay đổi mỗi chiều một lượng epsilon, tổng thay đổi trong không gian có thể lên tới epsilon nhân căn bậc hai của số chiều. Với 150,000 chiều và epsilon = 0.01 (hoàn toàn không nhìn thấy), tổng thay đổi có thể đạt tới 3.87 - một con số đủ lớn để đảo ngược hoàn toàn quyết định của mô hình.

Đây không phải là lỗi của mô hình. Đây là toán học.

Decision Boundaries và Adversarial Subspaces

Mọi mô hình phân loại hoạt động bằng cách vẽ các đường ranh giới (decision boundaries) trong không gian nhiều chiều để phân tách các lớp dữ liệu. Một email là spam hay không spam, một hình ảnh là mèo hay chó, một giao dịch là bình thường hay gian lận.

Vấn đề là: trong không gian nhiều chiều, những đường ranh giới này không hoàn hảo. Chúng chứa các vùng mà mô hình "không chắc chắn" - gọi là adversarial subspaces. Đây là những vùng mà một thay đổi rất nhỏ trong đầu vào có thể đẩy kết quả sang phía bên kia của ranh giới.

Tưởng tượng bạn đang đứng trên một đường bằng kẻ giữa hai hệ thống. Chỉ cần bước một bước nhỏ, bạn đã ở phía bên kia. Adversarial subspaces là những "đường bằng kẻ" này trong không gian nhiều chiều, và chúng tồn tại ở khắp nơi, không phải là ngoại lệ hi hữu.

Nghiên cứu cho thấy rằng adversarial subspaces không phải là những điểm rời rạc mà là những vùng liên tục, có cấu trúc. Kẻ tấn công có thể di chuyển liên tục trong những vùng này trong khi vẫn duy trì hiệu quả của cuộc tấn công.

Gradient Leakage - Mô hình tự "chỉ đường" cho kẻ tấn công

Gradient Leakage - mỗi output là một kênh thông tin, mô hình tự chỉ đường cho kẻ tấn công

Một vấn đề khác của ML là gradient leakage. Mỗi khi mô hình trả về kết quả - dù là xác suất phân loại, confidence score, hay token tiếp theo trong LLM - nó đang vô tình tiết lộ thông tin về gradient của mình.

Gradient là gì? Trong toán học, gradient chỉ hướng mà hàm số thay đổi nhanh nhất. Trong ML, gradient chỉ hướng mà kẻ tấn công cần đi để làm mô hình sai lầm nhiều nhất.

Hãy nghĩ về một trò chơi "nóng lạnh": mỗi lần bạn đoán, người ra đề nói "nóng hơn" hay "lạnh hơn". Sau vài lần, bạn tìm ra đáp án. Tương tự, mỗi lần kẻ tấn công gửi một đầu vào và nhận kết quả, họ nhận được một mảnh thông tin về "hướng đi" để tấn công hiệu quả hơn.

Đây là lý do mà ngay cả các mô hình được triển khai như black-box (chỉ cho phép truy vấn input-output) vẫn có thể bị tấn công. Output của mô hình là một kênh thông tin mà kẻ tấn công có thể khai thác.

Phân loại tấn công theo NIST AI 100-2 E2025

Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ (NIST) đã phát hành tài liệu AI 100-2 E2025, cung cấp một taxonomy đầy đủ về các mối đe dọa đối với hệ thống AI. Taxonomy này chia tấn công thành hai nhóm chính:

Tấn công trong quá trình huấn luyện (Training-time attacks):

Data poisoning: chèn dữ liệu độc hại vào tập huấn luyện để làm sai lệch mô hình
Backdoor insertion: cài đặt cửa hậu để mô hình hoạt động bình thường nhưng kích hoạt hành vi độc hại khi gặp trigger cụ thể
Supply chain attacks: tấn công vào quy trình cung cấp dữ liệu hoặc mô hình pre-trained

Tấn công trong quá trình triển khai (Deployment-time attacks):

Evasion: tạo đầu vào đối kháng để vượt qua mô hình
Model extraction: sao chép chức năng của mô hình qua các truy vấn
Inference attacks: suy luận thông tin nhạy cảm từ output của mô hình
Prompt injection: chèn chỉ thị độc hại vào ngôn ngữ tự nhiên để điều khiển LLM
Model inversion: tái tạo dữ liệu huấn luyện từ mô hình

Phổ kiến thức của kẻ tấn công

Một yếu tố quan trọng ảnh hưởng đến mức độ nguy hiểm của cuộc tấn công là lượng thông tin mà kẻ tấn công có về mô hình mục tiêu:

Black-box: Kẻ tấn công chỉ có thể gửi đầu vào và quan sát đầu ra. Giống như thử nghiệm một chiếc hộp khóa - bạn không biết bên trong có gì, chỉ biết nút bấm nào cho kết quả gì. Đây là kịch bản phổ biến nhất khi tấn công các API thương mại như GPT, Claude, hay các hệ thống phân loại email.

Gray-box: Kẻ tấn công biết kiến trúc của mô hình (ví dụ: ResNet-50, GPT-2) nhưng không biết trọng số cụ thể. Giống như biết bản thiết kế của tòa nhà nhưng không có chìa khóa. Điều này xảy ra khi tổ chức sử dụng các kiến trúc phổ biến nhưng huấn luyện trên dữ liệu riêng.

White-box: Kẻ tấn công có toàn quyền truy cập - kiến trúc, trọng số, gradient. Giống như có bản thiết kế, chìa khóa, và cả mật khẩu của mọi phòng. Đây là kịch bản nguy hiểm nhất nhưng cũng ít xảy ra nhất trong thực tế - trừ khi mô hình bị lộ hoặc là open-source.

Attack Transferability - Hệ số nhân nguy hiểm

Và đây là phần đáng sợ nhất.

Adversarial examples được tạo trên Mô hình A có thể hoạt động trên Mô hình B, ngay cả khi kẻ tấn công không hề có quyền truy cập vào Mô hình B. Hiện tượng này gọi là attack transferability.

Tại sao lại như vậy? Vì các mô hình học trên cùng loại dữ liệu có xu hướng học các đặc trưng tương tự. Các decision boundaries, dù không giống hệt nhau, chia sẻ nhiều đặc điểm chung. Một adversarial example khai thác điểm yếu của Mô hình A có xác suất cao cũng khai thác điểm yếu tương tự của Mô hình B.

Điều này có ý nghĩa thực tế rất lớn: kẻ tấn công có thể tải một mô hình open-source về máy tính cá nhân, tạo adversarial examples trong môi trường white-box (dễ nhất và hiệu quả nhất), rồi sử dụng chính những mẫu đối kháng đó để tấn công các mô hình thương mại mà họ không hề có quyền truy cập.

Transfer attack xóa bỏ rào cản black-box. Nó biến mọi cuộc tấn công tiềm năng thành cuộc tấn công white-box.

Nghiên cứu cho thấy tỷ lệ chuyển giao có thể đạt 60-90% giữa các mô hình có cùng kiến trúc và 30-60% giữa các kiến trúc khác nhau. Với các kỹ thuật tăng cường transfer như ensemble attacks, tỷ lệ này còn cao hơn nữa.

Một lĩnh vực nghiên cứu đang bùng nổ

Tính đến nay, hơn 3,000 bài báo khoa học đã được xuất bản về adversarial robustness, và con số này tăng nhanh mỗi năm. Các hội nghị hàng đầu như NeurIPS, ICML, ICLR, và các hội nghị bảo mật như IEEE S&P, USENIX Security, NDSS đều có nhiều bài báo về chủ đề này.

Nhưng thực tế là: chúng ta vẫn chưa có giải pháp toàn diện. Adversarial training - phương pháp phòng thủ tốt nhất hiện nay - làm giảm accuracy trên dữ liệu sạch và không bảo vệ được trước mọi loại tấn công. Certified defenses chỉ hoạt động với các perturbation nhỏ và không scale được lên các mô hình lớn. Formal verification quá tốn kém tính toán cho các mạng lớn.

Đây không phải là một cuộc chiến mà chúng ta đang thắng. Đây là một cuộc chiến mà chúng ta mới bắt đầu hiểu.

Bạn nên làm gì?

Nếu bạn là developer hoặc security engineer đang làm việc với AI/ML, đây là những bước cụ thể bạn nên thực hiện ngay:

1. Thay đổi tư duy: Ngừng coi AI/ML như một phần mềm bình thường. Mô hình ML có một bề mặt tấn công hoàn toàn khác và cần được đánh giá bảo mật riêng biệt, không chỉ là kiểm tra code.

2. Hiểu rõ mô hình của bạn: Xác định rõ mô hình nào đang được sử dụng trong hệ thống, chúng đang ở chế độ nào (black-box API, fine-tuned, self-hosted), và thông tin nào đang bị lộ qua output.

3. Áp dụng nguyên tắc least privilege cho model output: Không trả về confidence scores, logits, hay bất kỳ thông tin nào ngoài kết quả cần thiết. Mỗi bit thông tin thêm là một mảnh gradient bị lộ cho kẻ tấn công.

4. Theo dõi NIST AI 100-2 E2025: Đọc và hiểu taxonomy tấn công của NIST. Đây là tài liệu tham khảo tốt nhất hiện nay để hiểu toàn cảnh mối đe dọa.

5. Kiểm tra transferability: Nếu bạn đang sử dụng mô hình thương mại, hãy thử tấn công bằng adversarial examples tạo từ các mô hình open-source tương tự. Nếu chúng hoạt động, đó là dấu hiệu cảnh báo nghiêm trọng.

6. Không tin tưởng tuyệt đối vào safety training: Như chúng ta sẽ thảo luận trong bài tiếp theo, ngay cả RLHF cũng không thể loại bỏ hoàn toàn backdoors. Defense-in-depth là bắt buộc.

Bài tiếp theo trong series này sẽ đi sâu vào các kỹ thuật tấn công cụ thể - từ data poisoning đến adversarial patches trên xe tự lái. Bạn sẽ thấy những khái niệm lý thuyết hôm nay biến thành những cuộc tấn công thực tế đáng sợ như thế nào.

Đây là bài đầu tiên trong series AI Security.
Bài tiếp theo: AI Bị Tấn Công Như Thế Nào? Từ Data Poisoning Đến Adversarial Patches Trên Xe Tự Lái