Bu repository, ağ trafiği verileri kullanılarak makine öğrenmesi algoritmaları ile siber saldırı tespiti yapılmasını amaçlayan akademik bir çalışmayı içermektedir. Çalışmada, geçmiş saldırı davranışlarından öğrenilerek olası siber tehditlerin doğru şekilde tahmin edilmesi hedeflenmiştir.
- Ağ trafiği verileri üzerinden siber saldırı tespiti
- Denetimli makine öğrenmesi algoritmalarının kullanımı
- Farklı modellerin performans karşılaştırması
- İstatistiksel ve görsel değerlendirme yöntemleri
- Özellik seçimi ve model optimizasyonu
- Toplam 45 ağ trafiği özelliği
- Eğitim ve test verileri birleştirilerek kullanılmıştır
- İkili sınıflandırma (Saldırı / Normal)
- İçerilen saldırı türleri:
- Fuzzers
- Analysis
- Backdoors
- DoS
- Exploits
- Generic
- Reconnaissance
- Shellcode
- Worms
- Eğitim ve test veri setlerinin birleştirilmesi
- Gereksiz sütunların kaldırılması
- Kategorik değişkenlerin label encoding ile dönüştürülmesi
- Saldırı türlerinin görselleştirilmesi
- Verinin %70 eğitim – %30 test olacak şekilde bölünmesi
Aşağıdaki makine öğrenmesi algoritmaları uygulanmış ve karşılaştırılmıştır:
- Decision Tree
- Random Forest
- K-Nearest Neighbors (KNN)
- XGBoost
- LightGBM
Her model için uygun hiperparametre ayarlamaları yapılmıştır.
Modeller aşağıdaki metrikler kullanılarak değerlendirilmiştir:
- Accuracy (Doğruluk)
- Precision (Kesinlik)
- Recall (Hassasiyet)
- Specificity (Özgüllük)
- Confusion Matrix
- ROC Eğrisi ve AUC
Ayrıca modeller arasında anlamlı fark olup olmadığını incelemek için Wilcoxon testi uygulanmıştır.
- Random Forest, en yüksek performansı göstermiştir:
- Doğruluk ≈ %95
- Hassasiyet ≈ %96
- Özellik önem analizi ile en kritik ağ parametreleri belirlenmiştir
- Daha az özellik kullanılarak da yüksek doğruluk elde edilmiştir
- Sayısal özellikler için korelasyon analizi yapılmıştır
- En önemli 20 ve 10 özellik görselleştirilmiştir
- Seçilen özelliklerle modeller yeniden eğitilmiştir
- Makine öğrenmesi algoritmaları siber saldırı tespitinde yüksek başarı sağlamaktadır
- Veri ön işleme ve özellik seçimi model performansını doğrudan etkilemektedir
- Random Forest, doğruluk ve kararlılık açısından en başarılı model olmuştur
- Çalışma, akıllı siber güvenlik sistemleri için uygulanabilir bir temel sunmaktadır