
Ứng dụng Học Máy trong Phát Hiện Phần Mềm Độc Hại
Trong bài toán học có giám sát, nhiệm vụ có thể được mô tả như sau: với tập dữ liệu đặc trưng XXX của một tập hợp đối tượng và nhãn tương ứng YYY (ví dụ: “phần mềm độc hại” hoặc “hợp lệ”), mô hình AI sẽ được huấn luyện để dự đoán chính xác nhãn Y′Y'Y′ cho các đối tượng chưa từng gặp X′X'X′.
- Dữ liệu đầu vào (XXX): có thể bao gồm các đặc điểm về nội dung hoặc hành vi của tệp tin (thống kê tệp, danh sách API được sử dụng, v.v.).
- Nhãn (YYY): có thể đơn giản là “malware” hoặc “benign,” hoặc chi tiết hơn như Virus, Trojan-Downloader, Adware, v.v.
- Trong học không giám sát, mô hình ML sẽ tập trung vào việc tìm kiếm các cấu trúc ẩn trong dữ liệu, chẳng hạn như nhóm các tệp tương tự hoặc các đặc trưng có mối tương quan cao.
Kaspersky đã triển khai một hệ thống bảo vệ đa tầng thế hệ mới, tích hợp AI và ML vào tất cả các giai đoạn của quy trình phát hiện mối đe dọa. Công nghệ này được thiết kế để đáp ứng các yêu cầu quan trọng trong thực tế, bao gồm tỷ lệ dương tính giả cực thấp, khả năng giải thích mô hình, và sự vững chắc trước các cuộc tấn công của kẻ xấu.
Các Công Nghệ AI/ML Quan Trọng trong Giải Pháp An Ninh Mạng của Kaspersky

1. Mô Hình Rừng Quyết Định (Decision Tree Ensemble)
Phương pháp này sử dụng tập hợp các cây quyết định (như Random Forest hoặc Gradient Boosted Trees).
- Cách hoạt động: Mỗi nút không phải lá của cây chứa câu hỏi liên quan đến đặc trưng của tệp tin. Khi kiểm tra, mô hình đi qua cây bằng cách trả lời các câu hỏi dựa trên đặc trưng của đối tượng.
- Lợi ích: Hệ thống sử dụng mô hình này trong giai đoạn bảo vệ chủ động trước khi thực thi (Pre-Execution Proactive Protection), chẳng hạn như công nghệ Cloud ML for Android để phát hiện mối đe dọa trên thiết bị di động.

2. Băm Tương Đồng (Similarity Hashing - Locality Sensitive Hashing)
Các phương pháp băm truyền thống rất nhạy cảm với những thay đổi nhỏ trong tệp tin, điều này bị hacker khai thác để tạo ra các biến thể malware mới thông qua kỹ thuật đa hình máy chủ (server-side polymorphism).
- Cách hoạt động: Hệ thống trích xuất các đặc trưng của tệp, sử dụng học chiếu trực giao (orthogonal projection learning) để chọn ra những đặc trưng quan trọng nhất. Sau đó, ML sẽ nén dữ liệu để biến các đặc trưng tương tự thành mẫu nhận dạng giống nhau.
- Lợi ích: Phương pháp này giúp giảm đáng kể kích thước cơ sở dữ liệu nhận diện, vì một bản ghi có thể phát hiện cả một họ malware đa hình.

3. Mô Hình Hành Vi (Behavioral Model)
Hệ thống giám sát sẽ ghi lại nhật ký hành vi—chuỗi sự kiện xảy ra trong quá trình thực thi của tiến trình và các tham số liên quan.
- Cách hoạt động: Chuỗi sự kiện này được mã hóa thành tập hợp các vector nhị phân, sau đó mô hình deep learning sẽ được huấn luyện để phân biệt giữa nhật ký “sạch” và “độc hại.”
- Ứng dụng: Kết quả phân loại từ mô hình này được sử dụng trong cả các mô-đun phát hiện tĩnh và động trong các sản phẩm bảo mật của Kaspersky.
AI Trong Hạ Tầng Xử Lý Malware của Kaspersky

1. Phân Cụm Luồng Dữ Liệu Đầu Vào (Incoming Stream Clustering)
Kaspersky sử dụng thuật toán phân cụm ML để xử lý hàng loạt tệp tin chưa được phân loại một cách hiệu quả. Một số cụm có thể được xử lý tự động dựa trên các đối tượng đã được gán nhãn trước đó.
2. Mô Hình Phân Loại Quy Mô Lớn (Large-Scale Classification Models)
Một số mô hình phân loại mạnh nhất (như Random Decision Forest lớn) đòi hỏi tài nguyên tính toán cao.
- Giải pháp: Các mô hình này được triển khai trong phòng thí nghiệm, sau đó dữ liệu đầu ra của chúng được sử dụng để huấn luyện các mô hình nhẹ hơn nhằm tối ưu hóa hiệu suất trên thiết bị đầu cuối.
An Ninh Trong Ứng Dụng AI/ML
Khi được triển khai thực tế, các mô hình ML có thể trở thành mục tiêu của nhiều loại tấn công:
- Poisoning Attack: Kẻ tấn công có thể tiêm nhiễm dữ liệu độc hại vào tập huấn luyện.
- Reverse Engineering: Hacker có thể phân tích và khai thác các điểm yếu của mô hình.
- Adversarial AI: Các hệ thống AI tấn công có thể tự động tạo ra hàng loạt mẫu tấn công để thử nghiệm và khai thác lỗ hổng của mô hình.
Giải pháp bảo mật của Kaspersky đối với AI trong an ninh mạng:
✅ Thực hiện kiểm thử bảo mật AI/ML (Red-Teaming, AI Security Audit).
✅ Xác định mức độ phụ thuộc vào dữ liệu và mô hình bên thứ ba (Threat Intelligence Feeds, AI Outsourcing).
✅ Sử dụng AI như một phần của hệ thống bảo vệ đa tầng thay vì coi nó như giải pháp duy nhất.
Kaspersky: Chuyên Gia Trong Việc Ứng Dụng AI Để Bảo Vệ Không Gian Mạng
Dù Kaspersky đã có nhiều thành tựu trong việc ứng dụng Học Máy và Deep Learning vào an ninh mạng, những công nghệ này vẫn chưa phải là Trí Tuệ Nhân Tạo Tổng Quát (Artificial General Intelligence - AGI). Máy móc vẫn cần đến chuyên gia con người để giám sát, tối ưu hóa và mở rộng khả năng của hệ thống theo thời gian.