Cemre Acar
Veri Ön İşleme Nedir ? Veri Temizleme

Veri Ön İşleme Nedir ? Veri Temizleme

Veri Ön İşleme (Data Preprocessing), veri hazırlamak, yani ham halde ve dağınık şekilde bulunan verileri analize hazır hale getirmek için yapılan çalışmadır.

Buradaki ham veriden kasıt, oluşturacağınız makine öğrenmesi modellerine elimizdeki veri seti sokulduğunda bize doğru bilgiyi vermeyecek bir veri topluluğudur. Yani, veri seti içerisinde normal olmayan ama aynı zamanda mümkün olabilecek tarzda bilgiler olabilir. Makine öğrenmesi modellerine elimizdeki veri setini bu şekilde soktuğumuzda bize farklı bir senaryo ortaya çıkaracağı kaçınılmaz.
Örneğin, bir çocuk bezinin ortalama fiyatı 10 $ olsun. Ancak bir firma var ki %100 pamuktan çocuk bezi üretiyor diyelim. Bu bezin fiyatı 50 $ . İşte burada bu bez bizim için bir aykırı gözlem ve veri setini bu şekilde modellemeye çalıştığımızda bizi yanlış yönlendirecektir. Doğru bir modelleme için çözüm modellemesine girecek verilerin bu modellemeye uygun hale getirilmesi gerekmektedir.

Yukarıdaki örnekte veri ön işleme adına yalnızca veriyi temizleme başlığı altında aykırı verilerin temizlenmesinden bahsettik. Veri temizleme, elimizdeki veri setine göre aykırı verilerin temizlenmesine ek olarak, gürültü verilerinin düzeltilmesi, tutarsızlıkların giderilmesi ve eksik değerlerin doldurulması gibi farklı temel işlemler de içerir.



Eksik Veri Nasıl Çözüme Kavuşur ?

Eksik verileri silmek ya da doldurmak için bir çok yöntem mevcuttur. Buna karar vermenin en iyi yolu veri setini anlamak ve ulaşmak istediğiniz hedefe uygun bir yöntem belirlemek olacaktır.

Silme Yöntemi : Veri setindeki bir ya da daha fazla kayıp veri içeren gözlemler listeden çıkartılarak sadece tam veri içeren durumlarda kullanılır.

Yaklaşık Değer Atama Yöntemi : Eksik değer içeren kısımları veri setinden çıkartamıyorsak eksik değer problemini çözmek için eksik değerlerin yerine kullanılabilecek değerler belirlememiz gerekiyor. Eksik değerlerin yerine atanacak veri, ortalama değer, medyan ya da kendi belirlediğimiz bir sabit değer olabilir.

Tahmine Dayalı Yöntem : Eksik değer barındıran satır ya da sütun eldeki verilere dayalı olarak en uygun değer ile doldurulabilir. Burada en uygun değerin belirlenmesi için regresyon ya da karar ağacı gibi teknikler kullanılabilir.



Aykırı Değerlerden Kurtulmak

Aykırı değerler, bir veri setindeki gözlemlerin diğer gözlemlere göre büyük ölçüde farklılık gösterdiği değerlerdir. Yani kısaca genel eğilimin dışına çıkan gözlemlerdir diyebiliriz. Veri setimizdeki aykırı değerlerden kurtulabilmek için ;

Aykırı Değerlerin Silinmesi : Veri setindeki aykırı değerler tespit edilir ve bu veriler veri setinden silinir.

Aykırı Değerlerin Ortalama ile Doldurulması : Aykırı değerlerin bulunduğu değişkenin ortalaması alınır ve ortalama değer aykırı gözlem birimine atanır.

Uç Değer Belirleme Yöntemi (IQR) : Betimsel istatistikde çeyrekler açıklığı sıralanmış bir veri dizisinin %50’sini kapsayan ve %75 ve %25 aralığını veya farkını yani Q3 - Q1 olarak ifade edilen bir istatistiksel yayılma ölçüsüdür.

Yöntemlerini sıkça kullanırız.
Veri Ön İşleme Nedir ? Veri Temizleme adlı yazımı burada sonlandırıyorum. Yazımda eksik ya da hatalı gördüğünüz bir kısım olursa yorumlarda belirtebilirsiniz. Sağlıkla Kalın.

Heyy ! Blog'a abone olup yazılarımdan ilk sen haberdar olmak ister misin ?

ABONE OL!

Yorumlar

Yorum Ekle

Yorumunuz onaylandıktan sonra yayınlanacaktır.