Ünite 3: Verinin Hazırlanması

Giriş

Veri madenciliği Radyo Frekansı ile Tanımlama (RFID), barkod, kare kod, veri depolama araçları gibi teknolojilerle birlikte 1990’lı yıllardan beri gelişmektedir. Sürekli bir gelişim içinde olan veri madenciliğinin o günün şartlarına göre yapılan tanımı da kullanım yerine ve zamanına göre farklılık göstermektedir. Bu tanımlardan biri de daha önceden bilinmeyen geçerli ve uygulanabilir bilgilerin geniş veritabanlarından elde edilmesi ve işletme kararları verilirken bu bilgilerin kullanılması olarak söylenebilir.

Veri madeninde bulunan veri insan tarafından oluşturulmuş bir bilgisayar dosyasından, verileri tasarlamak ve yönetmek için kullanılan bir işletme veri tabanı yönetim sisteminden, standart bir veri tabanı sisteminden, otomatik bilgi kaydı oluşturan bir araçtan, uydu üzerinden ve bunlara benzer şekilde kaynaklardan gelmiş olabilir. Toplanan ham veri diğer bir deyişle işlenmemiş verinin veri madenciliğinde analize hazır duruma getirilmesi amacıyla yapılan işlemler bütününe veri hazırlama adı verilir.

Temel Değişken Tipleri

Hakkında bilgi edinilmek istenen canlı, cansız varlıklar veya olayların sahip oldukları ve birbirinden ayırt edilmesine yardımcı olan değişkenler veri madenciliğinde bir veri setinin sunumunda kullanılan tablo gösteriminde sütunlarda yer alır ve özellik olarak adlandırılır. Aynı tablo gösteriminde satırlarda ise nesne olarak adlandırılan gözlemler yer alır. Veri setinin tablo gösterimi aşağıdaki gibidir.

Birimlerin sahip olduğu özelliklerin derecesinin belirlenerek sonuçların sayısal olarak ifade edilmesine ölçme adı verilir. Diğer bir deyişle gözlem ya da deney sonucunda elde edilen verilerin nicel olarak belirtilebilmesi amacıyla ölçmeye başvurulur. Sonuç olarak ölçmede bir tanımlama söz konusudur ve ölçmenin hangi ölçek ile yapılarak değerlendirildiği önemlidir.

Bir nesnenin özelliklerinin ölçme şekline göre birçok değişken tipi tanımlanabilir. Değişken tiplerinin aralarındaki farkların tam olarak bilinmemesi veri analizinde çeşitli problemlere yol açabilir. Şimdi belli başlı değişken tiplerini açıklayalım.

İsimsel (Nominal) Değişkenler

Sınıflayıcı ölçek, gözlem değerlerinin tek tek nitel kategori ya da sınıflara atanması sonucu oluşan ölçektir.

Daha önce verilen bir markette satılan ürünlerin türlerine göre sınıflanması örneğinde sınıflayıcı ölçek kullanılır. Cinsiyet sınıflaması veya hastaneye başvuran hastaların rahatsızlıklarına göre sınıflandırılması sınıflayıcı ölçeğe örnek olarak verilebilir.

İkili (Binary) Değişkenler

İsimsel değişkenlerin özel bir şekli olan ikili değişkenler 0 ve 1, doğru ve yanlış, pozitif ve negatif, cinsiyet özelliğinde olduğu gibi erkek ve kadın gibi sonuçları sadece iki şekilde ortaya çıkan değişkenlerdir.

Sıra Gösteren (Ordinal) Değişkenler

Bu değişken tipi de isimsel değişken tipine benzerdir. Ancak değişkenin almış olduğu değer derecesi bakımından sıraya dizilmesinde önemlilik gösteriyorsa sıra gösteren değişken söz konusu olur. Market çalışanlarının yönetim katından en alt kademeye kadar sıralanması örneği sıra gösteren değişkene örnek olarak verilebilir.

Tam Sayılı (Integer) Değişkenler

Alacağı değerler 0, 1, 2, … gibi tamsayılar olarak belirtilebilen değişkenlerdir. Bu nedenle tam sayılı değişkenlerin ondalıklı değerler alması söz konusu değildir. Markette bir gün içinde satılan ekmek sayısı, belli bir depodaki koli sayısı ya da palet sayısı, bir ailedeki çocuk sayısı örnek olarak verilebilir. Tam sayılı değişkenlerle toplama, çıkarma ve çarpma işlemleri yapmak anlamlıdır.

Aralıklı Ölçümlendirilmiş (Interval-Scaled) Değişkenler

Sıra gösteren (ordinal) değişkenin tüm özelliklerini içermek ve ürettiği bilgileri üretmekle beraber birimler arasında özellik farkları matematiksel olarak belirlenebilir. Nicel değişkenlerin ölçümünde kullanılır. Belirli bir başlangıç noktası olmamakla birlikte ölçü birimi vardır. Örneğin; hava sıcaklığı nicel ölçme düzeyine sahiptir ve yokluk anlamına gelmeyen sıfır değeri bulunabilir.

Oranlı Ölçümlendirilmiş (Ratio-Scaled) Değişkenler

Oranlı Ölçümlendirilmiş (ratio-scaled) değişkenler aralıklı ölçümlendirilmiş (interval-scaled) değişkenlere benzer olmakla beraber bu değişkende sıfır başlangıç noktası tüm ölçüm araçlarında aynı anlamı taşır. Örneğin; bir varlığın ağırlığı için “sıfır” ifadesi kullanıldığında ölçüm metrik türüne bakılmadan bu varlığın ağırlığının olmadığı anlamı çıkarılır.

Veri Hazırlama

Veritabanlarında yer alan verilerin mükemmel olması çoğu zaman mümkün değildir. Veri madenciliği tekniklerinin çoğu verilerdeki kusurları göz ardı edebilmesine rağmen veri kalitesini anlamak ve iyileştirmek konusuna odaklanmak veri madenciliği çıktı kalitesini arttırır. Veri kalitesi kavramı verideki gürültü¨ ve aykırı değerler, eksik, tutarsız veya tekrarlı verilerin varlığı ile ölçülebilir. Veri kalitesinin düşük olması verinin analiz yapan kişiyi yanıltmasına yani hedeflenen sonuca ulaşamamasına neden olur. Verilerin veri madenciliğine uygun hale getirilebilmesi kusurlarının araştırılarak giderilmesi gerekmektedir. Verilerdeki kusurların giderilmesi için birtakım ön hazırlık süreçleri uygulanır.

Veri hazırlama süreçlerinden biri olan veri temizleme verideki tutarsızlıkların giderilmesi ve verideki gürültünün giderilmesi için uygulanır. Veri dönüştürme olarak normalleştirme kullanılabilir. Veri birleştirme farklı kaynaktan gelen veriyi uygun bir veri tabanında birleştirir. Veri indirgeme ise fazla olan bazı değişkenlerin çıkarılması, birleştirilmesi veya kümeleme yaparak veri büyüklüğünün azaltılması amaçlanır. Veri yapısına uygun olacak şekilde bu süreçlerden biri veya birkaçı veri madenciliğinden önce uygulanarak elde edilen sonuçların kalitesi, güvenilirliği ve veri madenciliği aşamasında harcanacak zaman arttırılabilir

Veri Temizleme

Veri madenciliğinde veri kalite problemlerini engellemek için önce veri kalitesi problemlerinin farkına varılarak doğrulanması ve zayıf veri kalitesini göz ardı edebilen algoritmaların kullanılması üzerinde odaklanılır. Veri kalitesi problemlerinin farkına varılması ve doğrulanması veri temizleme olarak adlandırılır. Eksik verilerin tamamlanması, aykırı değerlerin teşhis edilmesi amacıyla gürültünün düzeltilmesi ve verilerdeki tutarsızlıkların giderilmesi gibi işlemler veri temizlemeyle mümkün olur. Veri temizleme için temel yöntemler eksik veri, gürültülü veri ve tutarsızlık olmak üzere üç temel baslıkta gruplanabilir.

Veri Birleştirme

Veri birleştirme çoklu kaynaklardan gelen verinin uygun bir veri ambarına birleştirilmesidir. Çoklu veri kaynakları veritabanları, veri küpleri veya dış¸ dosyalardan oluşabilir. Veri birleştirmede şema birleştirmesi, fazla veri sorunları ve veri değer karmaşalarının belirlenmesi ve çözümlenmesi olmak üzere üç¸ temel konu ön plana çıkar.

Veri İndirgeme

Oldukça karmaşık olan ve çok büyük veri kümelerinin madenciliğinin yapılması çok uzun zaman aldığından bu tür verilerin olduğu gibi alınarak analiz edilmesi uygulanabilir ve pratik olmamaktadır. Bu nedenle veri indirgeme yöntemleri çok daha küçük hacimde indirgenmiş veri kümelerinin oluşturulması için kullanılır.

Veri Küpü Birleştirme: Veri madenciliğinin veri kaynağının bir Online Analitik Süreç sistemi olması durumunda ihtiyaç duyulan verilerin ön hesaplama ve özetlenmesi daha hızlı gerçekleştirilebilir. Veri küpleri çok boyutlu birleştirilmiş¸ verileri saklar.

Boyut İndirgeme: Veri kümeleri analizle ilgisi olmayan veya gereksiz yüzlerce özellik içerebilir. Gereksiz olan özelliklerin indirgenmesi bir başka deyişle boyut indirgeme pek çok veri madenciliği algoritmasının daha verimli çalışmasını, daha anlaşılabilir bir modelin oluşturulmasını, verilerin daha kolay görselleştirilmesini ve veri madenciliği algoritmaları için gerekli olan işlemci süresi ve hafızasını azaltır.

Veri Sıkıştırma: Veri sıkıştırmada veri kodlama veya dönüşümleri asıl verinin indirgenmiş veya sıkıştırılmış¸ gösterimini elde etmek için uygulanır. Asıl veri herhangi bir enformasyon kaybı olmaksızın sıkıştırılmış¸ veriden tekrar elde edilebiliyorsa o zaman veri sıkıştırma işlemi “kayıpsız” (lossless) olarak nitelendirilir. Bundan başka asıl verinin gerçeğe yakın bir değeri oluşturulabilirse o zaman veri sıkıştırma kayıplı (lossy) olarak nitelendirilir.

Veri Dönüştürme

Bazı durumlarda orijinal veri kümelerindeki özellikler gerekli enformasyonu içerdiği halde veri madenciliği algoritmaları için uygun yapıda olmayabilirler. Bu durumda orijinal özelliklerinden oluşturulan bir veya daha fazla yeni özellik orijinal özelliklerden daha faydalı olabilir. Veri dönüşümünde verilerin veri madenciliği için uygun formlara dönüştürülmesi düzeltme, bir araya getirme, genelleme, normalleştirme ve özellik oluşturma işlemleriyle gerçekleştirilir.