WEKA Araştırma Projesi Örneği

Bilgisayar anilbirgul 17.052

Weka Örnek ProjeAraştırmanın Amacı

Kullanacağımız veriler nadir görülen bir genetik bozukluğun taşıyıcılarını belirleyebilmek için yapmamız gereken bir araştırma sonucu ortaya çıkmıştır. Ölçümler m1, m2, m3, m4 kan örnekleri üzerinde yapılmıştır. Hastalık nadir olarak görüldüğünden sadece birkaç taşıyıcı bulunmaktadır. Hastalığın bazı verileri bulunmamaktadır. Çıkaracağımız sonuçta normal olan ve taşıyıcı olan hastaları tespit edebileceğiz.

Analiz amacıyla taşıyıcıları algılamak ve etkinliğini tespit etmek için bir tarama yöntemi sağlanmaktadır. Uzmanlar gençlerin daha yüksek ölçümlere maruz kaldığını söylemektedir. Hazırlanan laboratuar ölçümleri sürecinde zaman içerisinde değişiklikler olabilir. Bu etkilerden doğacak değişiklikler göz önünde bulundurulmalıdır.

Araştırmanın yapıldığı toplam hastalık bulgusu taşıyan kişi sayısı 209’dur. Bunlardan 134 tanesi normal ve 75 tanesinin taşıyıcı olduğu görülmüştür.

ARFF Dosyasındaki bulunan tüm veriler 1982 tarihinde, Amerika Birleşik Devletleri’nin Cincinnati eyaletinde American Statistical Association toplantısından elde edilmiştir.

Araştırma Raporu

Aşağıdaki grafiklerde göreceğiniz Mavi ve Kırmızı olmak üzere iki tane grafiğimiz vardır. Class hedef sınıfımızda Mavi ile gösterilen 75 taşıyıcı hasta ve Kırmızı ile gösterilen 134 normal hasta bulunmaktadır. Diğer bir niteliğimiz olan Observation Number yani gözlem numarasında 125’in içindeki Mavi ile gösterilenlerin hastanın taşıyıcı, kırmızı ile gösterilenlerin normal hastalara karşılık geldiğini görebiliriz. Diğer niteliklerde aynı bu şekilde tablolar ile kolaylıkla incelenebilir.

Yukarıdaki resimlerden anlaşılacağı üzere Weka yazılımında çıkan verilerden “CLASS” niteliği hedef sınıf değeri içermektedir.  Diğer niteliklerimiz Observation Number ( Gözlem Numarası ) , Hospital identification number for blood sample ( Kan örneği için hastane kimlik numarası), Age of Patient ( Hastanın Yaşı), Date That blood sample was taken (Kan örneğinin alındığı gün) ’dır . Bunlar bizim attributes’lerimizdir.

Observation Number ( Gözlem Numarası )

1’den 7’e kadar numaralar içermektedir. 1 numaralı gözlemde 125, 2 numaralı gözlemde 50, 3 numaralı gözlemde 25, 4 numaralı gözlemde 5, 5 numaralı gözlemde 2 , 6 numaralı gözlemde 1, 7 numaralı gözlemde 1 değerleri bulunmaktadır.

Hospital identification number for blood sample ( Kan örneği için hastane kimlik numarası)

Minimum 657 ,
Maximum 1538 ,
Ortalama 1054.852 ,
Standart Sapma 218.02 değerleri bulunmaktadır.

Age of Patient ( Hastanın Yaşı)

Hastanın yaşı Minimum 20 , Maksimum ise 61 olmaktadır.
Ortalama 32.158,
Standart Sapma 8.573 değerleri bulunmaktadır.

Date That blood sample was taken (Kan örneğinin alındığı gün)

Minimum 10078,
Maksimum 120079,
Ortalama 65772.421,
Standart Sapma 29164.754 değerleri bulunmaktadır.

ml, m2, m3, m4 (measurement)

Ölçüm değerlerini göstermektedir

ml’de Minimum 15, Maksimum 1288
m2’de Minimum 34 , Maksimum 118
m3’de Minimum 2.8 , Maksimum 111.7
m4’te Minimum 66 , Maksimum 593 değerleri bulunmaktadır.

 

J48 ile karar ağacı oluşturmaya çalıştığımızda WEKA yazılımının çıktısı aşağıdaki gibi olmaktadır. ID3 ile karar ağacı oluşturulamadığından başka bir algoritma olan J48 denenmiş ve başarıyla sonuçlanmıştır.
Classifier Model kısmında J48 algoritması ile oluşturduğumuz karar ağacımızı görebiliriz.
Instances 209 tane girdiğimizin olduğunu göstermektedir. Attributes 9 tane sütunumuz bulunduğunu, bunların ise Observation_number, Hospital_identification_number_for_blood_sample, Age_of_patient, Date_that_blood_sample_was_taken, ml, m2, m3, m4, class olduğunu göstermektedir.
Correctly Classified Instances: 209 tane girdimizden 187 tanesinin doğru olarak sınıflandırıldığını buradan görebiliriz.

Incorrectly Classified Instances: 209 tane girdimizin 22 tanesinin yanlış sınıflandırıldığını görmekteyiz.

Mean Absolute Error: Hata ortalamasını göstermektedir.
= 0,105263

Root Mean Squared Error : Hata ortalamasının karekökü demek tir.
= 0.305

Relative absolute error : Bağıl mutlak hatayı gösterir.

Root relative squared error : Bağıl mutlak hatanın karekökünü göstermektedir.

Confusion Matrix: Doğruluk matrisini göstermektedir.

71 adet carrier (taşıyıcı) değerimizin 62 tanesinin doğru, 9 tanesinin yanlış sınıflandırıldığını göstermektedir.

138 adet normal değerimizin 125 tanesinin doğru, 13 tanesinin yanlış sınıflandırıldığını görebilir.

Bu değerlerin True Positive (TP Rate) ve False Positive (FP Rate) değerlerimiz olduğunu Detailed Accuracy By Class’a bakarak görebiliriz.

Sonuç olarak;
Karar ağacımız aşağıdaki gibi olduğundan;
ml <= 97.5
| Age_of_patient <= 40
| | Hospital_identification_number_for_blood_sample <= 1310: normal (147.0/14.0)
| | Hospital_identification_number_for_blood_sample > 1310: carrier (8.0)
| Age_of_patient > 40: carrier (13.0)
ml > 97.5: carrier (41.0/1.0)

• m1 değeri 97.5’tan küçük ve eşit, Yaşı 40’tan küçük ve eşit, Kan örneği için hastahane kimlik numarası 1310’dan küçük ve eşit olan kişiler normal, 1310’dan büyük olanlar ise taşıyıcı olacaktır.

• Yaşı 40’tane büyük olan hastalar kesinlikle taşıyıcı olacaktır.

• M1 değeri 97.5’den büyük olan hastaların taşıyıcı olduğu görülmektedir.

Sosyal Ağlarda Paylaş

{anilbirgul}