Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm

Các tác giả

  • Bùi Công Thành*
  • Nguyễn Quang Uy
  • Hoàng Minh

Từ khóa:

bộ dữ liệu, hệ thống phát hiện xâm nhập, K-Means

Tóm tắt

Những năm qua, đã có rất nhiều nghiên cứu về học máy (Machine learning), học sâu (Deep learning) cho lĩnh vực phát hiện xâm nhập mạng máy tính (IDS - Intrusion Detection System), sử dụng các bộ dữ liệu để đánh giá, phân tích. Do sự đa dạng, phức tạp của các bộ dữ liệu nên vấn đề phân cụm, chia nhỏ bộ dữ liệu ra thành các tập con nhưng vẫn giữ được đặc trưng của chúng là rất cần thiết. Trong nghiên cứu này, các tác giả tập trung phân tích đặc điểm của các tập dữ liệu kiểm thử phổ biến. Đồng thời, tiến hành thực nghiệm để đánh giá tính phân cụm, xác định số cụm tối ưu mà một bộ dữ liệu nên được chia ra. Thực nghiệm được tiến hành trên 6 tập dữ liệu huấn luyện của NSL-KDD, UNSW-NB15, CTU-13 phiên bản 08, 09, 10 và 13. Kết quả theo phương pháp Elbow, Silhouetee khá đồng nhất và cho thấy một số bộ dữ liệu nên được tách thành 2, 3 cụm, tuy nhiên cũng có những bộ nên để nguyên.

Chỉ số phân loại

Tiểu sử tác giả

Bùi Công Thành*

Binh chủng Thông tin liên lạc

Nguyễn Quang Uy

Học viện Kỹ thuật Quân sự

Hoàng Minh

Học viện Khoa học, Công nghệ và Đổi mới sáng tạo

Tải xuống

Đã xuất bản

2020-01-25

Cách trích dẫn

Bùi, C. T., Nguyễn Quang Uy, & Hoàng Minh. (2020). Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm. Bản B của Tạp Chí Khoa học Và Công nghệ Việt Nam, 62(1). Truy vấn từ https://b.vjst.vn/index.php/ban_b/article/view/7

Số

Lĩnh vực

Khoa học Tự nhiên