Cemre Acar
Python ile Aykırı Değerleri Çözüme Kavuşturmak

Python ile Aykırı Değerleri Çözüme Kavuşturmak

Bu yazımda Python ile Aykırı Değer Analizi adlı yazımda incelediğimiz ve uç değerleri tespit ettiğimiz verilerin çözüme kavuşturulurken nasıl bir yol izlememiz gerektiğinden bahsedeceğim. Python ile Aykırı Değer Analizi yazımdaki veri setimiz üzerinden ve orada gerçekleştirdiğim işlemler üzerinden anlatıma devam edeceğim. Eğer yazımı okumadıysanız buradan ulaşabilirsiniz.
Veri setimizdeki aykırı değerleri veri setinin durumuna göre direk olarak Aykırı Değerlerin Silinmesi ya da Aykırı Değerlerin Ortalama ile Doldurulması işlemlerini uygulayabiliriz.. Bu yazımda iki tekniği de görüyor olacağız. İlk olarak aykırı değere sahip verilerimizi silme yöntemi ile başlayalım.

Aykırı Değerleri Silme

import pandas as pd
islenmemis_fiyatlar[haric_veriler]

Bu işlemi bir önceki yazıda zaten yapıp aykırı değerlerimizi listelemiştik ve 209 adet aykırı değerimiz olduğunu görmüştük. Bu işlemin ardından ilk olarak elimizdeki verileri bir DataFrame haline getirelim. Şu andaki tipi sorgulayacak olursak Pandas Series olduğunu görebiliriz.

fiyatlar = pd.DataFrame(islenmemis_fiyatlar)


Şimdi bir önceki yazıda oluşturmuş olduğumuz yüksek_fiyatlar ve düsük_fiyatlar değişkenlerini göz önünde bulundurarak aykırı değerlerimizin dışında kalan değerlerimizi elde edelim. Yani bu işlemin sonucunda uç değerlere sahip olan verilerden tamamen kurtulmuş, onları silmiş olacağız.

clear_set = fiyatlar[((islenmemis_fiyatlar > düsük_fiyatlar) & (islenmemis_fiyatlar < yüksek_fiyatlar))]
clear_set

Böylelikle 209 adet uç değerimizi veri setimizden temizlemiş olduk. Yukarıda yaptığımız işlemi yaklaşık değer ifadesi olarak belirttiğimiz tilde(~) kullanarak daha kolay bir şekilde de yapabiliriz. Daha önceki yazıda belirlemiş olduğumuz haric_veriler değişkeninin başına tilde(~) işaretini koyduğumuzda bize uç değerlere sahip olan verilerimizin dışındaki istediğimiz temiz verileri getirmiş olacak. 

clear_set = fiyatlar[~(haric_veriler)]
clear_set

Görüldüğü gibi sonuç olarak iki yöntemde de 18040 satır aykırı olmayan verimiz kalmış oluyor.



Aykırı Değerlerin Ortalama ile Doldurulması

İlk olarak aykırı olan verilerimizi tekrar bir listeleyelim. Bunun için daha önce oluşturduğumuz haric_veriler değişkenimizi kullanalım.

islenmemis_fiyatlar[haric_veriler]

209 adet aykırı verimizin yerine veri setinin ortalamasını alıp koyacağımız için islenmemis_fiyatlar değişkenimizin yani fiyatlar'ın ortalamasını alalım.

islenmemis_fiyatlar.mean()

Sonuç : 1.4059784097758825

Son olarak da fiyatlar'ın ortalamasını aykırı değerlerin üzerine yazmak kaldı.

islenmemis_fiyatlar[haric_veriler] = islenmemis_fiyatlar.mean()

Bu işlemin ardından aykırı değerlerimizi tekrar kontrol ettiğimizde her değerin ortalama ile doldurulduğunu görebiliriz.

islenmemis_fiyatlar[haric_veriler]
11314    1.405978
11320    1.405978
11321    1.405978
11322    1.405978
11323    1.405978
           ...   
17433    1.405978
17434    1.405978
17514    1.405978
17515    1.405978
17568    1.405978

Python ile Aykırı Değerleri Çözüme Kavuşturmak adlı yazımı burada sonlandırıyorum. Bu yazının sonunda Portfolio kısmına Python ile Aykırı Gözlem Analizi adlı yazımdaki işlemler de dahil olmak üzere tüm işlemleri kapsayan Jupyter Notebook uzantılı bir dosya bırakıyorum. Yazımda eksik ya da hatalı gördüğünüz bir yer olursa yorum olarak belirtebilirsiniz. Sağlıkla Kalın.

Heyy ! Blog'a abone olup yazılarımdan ilk sen haberdar olmak ister misin ?

ABONE OL!

Yorumlar

Yorum Ekle

Yorumunuz onaylandıktan sonra yayınlanacaktır.