Ünite 2: Tanımlayıcı İstatistikler

Merkezi Eğilim Ölçüleri

Araştırmacılar derledikleri verileri frekans serileri ve grafikler yardımıyla herkes için kolay anlaşılır bir hale getirmektedirler. Frekans serileri ve grafikler ilk aşamada verinin genel özelliklerinin anlaşılabilmesi için çok uygun olmakla birlikte istatistiksel çıkarsamalar yapılmasına olanak tanımazlar. Çoğu zaman araştırmacılar ilgilendikleri değişkenin aldığı tipik bir değer olup olmadığını da araştırırlar. İstatistik biliminde bu, tipik değer ortalama olarak adlandırılır. Ortalamalar ilgilenilen veri kümesinin merkezinin nerede olabileceği konusunda fikir verdikleri için merkezi eğilim ölçüleri adı altında toplanmaktadırlar.

Merkezî eğilim ölçüleri arasında en çok bilinen, ortalama denildiğinde tüm araştırmacıların aklına gelen aritmetik ortalamadır. Basit olarak aritmetik ortalama, ilgilenilen seride yer alan tüm terim değerlerinin matematiksel toplamının seri terim sayısına bölünmesidir. Eğer ana kütle aritmetik ortalaması hesaplanıyorsa aritmetik ortalama için Yunan Alfabesinden µ (mü diye okunur) sembolü kullanılırken aritmetik ortalama örneklem için hesaplanıyor ise sembolü kullanılır.

Frekans serilerinde basit serilerden farklı olarak her bir terim için tekrarlanma sayısı olan frekanslarda yer almaktadır. Frekans serilerinin aritmetik ortalaması hesaplanırken her satırda yer alan frekansların mutlaka dikkate alınması gerekir. Her satırda yer alan frekanslar ile gözlem değerleri çarpılır ve daha sonra bu çarpımların toplamı elde edilir. Elde edilen değer toplam gözlem sayısına bölünerek aritmetik ortalama hesaplanır.

Gruplanmış frekans serileri için aritmetik ortalama hesabında ise öncelikle gruplanmış frekans serisine yeni bir sütun eklenir. Bu sütun elemanları her sınıf için ilgili sınıfın orta noktası olarak hesaplanır. Sınıf orta noktası sınıfın üst sınırı ile alt sınırının toplanıp ikiye bölünmesi ile elde edilir.

Aritmetik ortalama, hesaplanması ve yorumlanması çok kolay bir ortalama olmasına rağmen bir dezavantajı bulunmaktadır. Aritmetik ortalama seride var olabilecek aykırı değerlerin etkisinden kurtulamaz ve olumsuz sonuçlar verebilir.

Terimleri küçükten büyüğe sıralanmış bir seride, serinin tam ortasında yer alan terimin aldığı değere medyan ya da ortanca adı verilir. Medyan değeri hesaplanırken seride yer alan tüm terimlerin değeri değil yalnızca küçükten büyüğe sıralanmış serinin tam ortasındaki terimin değeri ile ilgilenilmektedir. Bu özelliğinden dolayı medyan, özellikle serinin uçlarında yer alan aykırı değerlerden etkilenmeyecektir. Veri içerisinde az sayıda aykırı değer bulunması durumunda aritmetik ortalamaya göre tercih edilen bir ortalamadır. Basit ve frekans serilerinde medyan değeri hesaplaması yapabilmek için serinin tam ortasında yer alan terimin sıra numarasının belirlenmesi gerekir.

Bir seride en çok tekrarlanan terimin değerine mod denir. Hesaplanması en kolay ortalama türüdür. Ölçümlenen değişken hangi ölçme düzeyinde olursa olsun mod hesaplanabilir. Seriler tek modlu olabilecekleri gibi bir seride 2 adet en çok tekrarlanan terim söz konusu ise seriye çift modlu seri denir. 2’den daha fazla terimin en çok tekrar sayısına sahip olması durumunda ise bu seride modun temsili bir ortalama olmayacağı belirtilerek uygun bir diğer ortalama hesaplanır. Gruplanmış frekans serilerinde mod bir tek gözlem değerine karşılık gelmez. Bunun yerine bir sınıfa karşılık gelir. En yüksek frekansa sahip sınıf mod sınıfı olarak adlandırılır. Daha sonra mod sınıfı yardımıyla gruplanmış frekans serisinin mod değeri hesaplanır.

Araştırılan değişkenin oran, indeks, yüzde ya da artış oranı olarak ölçümlendiği problemlerde değişken için ortalama hesaplanması gerektiğinde kullanılan ortalama türü geometrik ortalamadır. n tane birim için geometrik ortalama bu n tane gözlem değerlerinin çarpımlarının n’inci dereceden köküne eşittir.

Bazı durumlarda küçükten büyüğe sıralanmış bir serinin alt ve üst limitlerinde bazı uç değerler yer alabilir. Bu uç değerler aykırı değerler olarak adlandırılır. Aykırı değerler özellikle aritmetik ortalama üzerinde olumsuz etkiler yaratarak, aritmetik ortalamanın seriyi temsiliyet gücünü azaltırlar. Serinin alt ve üst limitlerinde serinin genel yapısına uymayan aykırı değerlerin bulunması durumunda kullanılabilecek bir ortalama türü de kırpılmış ortalamadır. Kırpılmış ortalama, seri ortalama hesabında bir tür dönüşüm yapılması işlemini içerir. Araştırmacı, bir kırpma oranına göre küçükten büyüğe olarak sıralı serinin alt ve üst kısmında yer alan belirli sayıdaki terimi hesaplama dışı bırakır.

Bir araştırmada gözlem değerlerinin terslerinin aritmetik ortalamasının tersi ile ilgileniliyor ise harmonik ortalama hesaplanır. Harmonik ortalama hesabına ekonomik olaylarda ve bazı kimya, fizik deney sonuçlarının analizinde ihtiyaç duyulmaktadır. Özellikle fiyat, verimlilik gibi oransal olarak ifade edilebilen değişkenlerin ortalama hesabında harmonik ortalama kullanımı uygundur. Harmonik ortalamanın en büyük dezavantajı sıfır değerine sahip bir gözlem değeri olması durumunda sıfır olarak sonuçlanacağından, bu tür durumlarda kullanılamaz. Ek olarak ters işaretli (negatif, pozitif) değerli terimlerin bulunması durumunda da harmonik ortalama sonucu geçerli değildir. Harmonik ortalama kullanımı yaygın değildir.

Değişkenlik Ölçüleri

Aritmetik ortalama, medyan gibi merkezî eğilim ölçüleri yalnızca verinin merkezinin nerede olduğunu tanımlamaktadır. Ancak verinin nasıl bir yayılıma ya da saçılıma sahip olduğu hakkında bir fikir vermezler. Dolayısıyla sadece merkezi eğilim ölçüleri yardımıyla iki ana kütlenin karşılaştırılması yöntemi izlenirse, iki ana kütlenin dağılımları çok farklı bile olsa birbiri ile aynı olduğu sonucuna varılır. Bu farklılığı istatistiksel olarak gösterebilmek için değişkenlik ölçülerine ihtiyaç duyulur.

Değişkenlik ölçüsü olarak kullanılacak en basit teknik değişim aralığı olarak adlandırılır. Değişim aralığı hesaplanabilmesi için serinin yalnızca iki değerinin bilinmesi yeterlidir. Bu iki değer serinin en büyük ve en küçük değeridir. Bunlar arasındaki fark bize değişim aralığı değerini verecektir.

Değişkenlik için aralık kullanıldığında yalnızca serinin iki değerine ihtiyaç duyulmaktadır. Seride bulunan bütün terimlerin kullanılabileceği değişkenlik ölçülerinden birincisi ortalama sapmadır. Ana kütle ya da örneklemde yer alan terimlerin aritmetik ortalama ya da medyandan ortalama olarak ne kadar saptıklarını göstermek amacı ile oluşturulur.

Değişkenlik ölçüleri arasında en sık kullanılanlar varyans ve standart sapmadır. Varyans ve standart sapma aritmetik ortalama yardımıyla hesaplanırlar. Terim değerlerinin aritmetik ortalamadan olan karesel farklarının ortalaması alınarak varyans elde edilir. Varyansın karekökü alınarak standart sapma elde edilir. Varyans, ilgilenilen değişkenin ölçüm birimini karesel olarak ifade ederken standart sapma bu problemi ortadan kaldırarak değerin orijinal ölçüm birimi cinsinden ifade edilmesine olanak verir. Ana kütle standart sapması gösteriminde Yunan Alfabesinden ? (sigma) sembolü kullanılırken; örneklem standart sapmasını belirtmek için s kullanılır. Ana kütle ve örneklem varyansları ise sırasıyla standart sapma gösterimlerinin karesel formları ile ? 2 (sigma kare) ve s2 olarak ifade edilir.

Farklı ölçekler ile ölçümlenmiş iki ya da daha fazla değişkenin standart sapma gibi bir ölçü yardımıyla değişkenliklerinin direk olarak karşılaştırılması mümkün değildir. Direk olarak değişkenlikleri karşılaştırılamayan ama ortalamaya göre genel değişkenlikleri karşılaştırılmak istenen farklı ölçek tiplerindeki değişkenlerin bulunduğu durumlarda oransal bir değer kullanılabilir. Karl Pearson bu amaçla değişkenlik katsayısı adı altında bir oran önermiştir. Veri farklı ölçeklere sahip olduğunda veya veri aynı ölçek ile ölçümlenmiş olsa bile değişken ortalamaları arasında çok büyük farklar var ise değişkenlik katsayısı faydalı bir karşılaştırma aracıdır.

Frekans Dağılımlarında Simetri ve Asimetri

Frekans dağılımlarının simetrik ya da asimetrik olup olmadıklarını araştırmak için kullanılan teknikler bu grupta yer almaktadır. Dağılımların simetrik ya da asimetrik olmalarının incelenmesiyle verinin bir merkez etrafında eşit olarak mı konumlandığı, yoksa sağa ya da sola (yukarı veya aşağı) doğru bir yığılma mı gösterdiği araştırılır. Özellikle tek bir uç tarafa aykırı değerlerin bulunması durumunda frekans serilerinde asimetrik bir yapı ile karşılaşma ihtimali artacaktır. Asimetrik yapıya sahip olan serilerde ortalama, standart sapma gibi ölçüler bu asimetri etkisi altında kalacaklarından çıkan sonuçların yorumlanmasında dikkatli olunması gerekecektir.

Aritmetik ortalama hesabında serideki tüm terimlerin değeri önem kazanırken medyan hesabında küçükten büyüğe sıralı dizide tam ortada yer alan terim önem kazanmaktadır. Mod içinse en çok tekrarlanan terimin bulunması önemlidir. Bu terimin serinin en küçük ya da en büyük değeri olup olmadığı ilgi alanımıza girmemektedir. Bu 3 ortalamanın farklı hesaplanma özelliklerinden dolayı aralarında bir ilişki tanımlanmıştır. Frekans dağılımlarının simetrik olup olmadığı ya da sağa ya da sola çarpık olup olmadıkları hakkında fikir sahibi olunmak için bu merkezî eğilim ölçüsü olan aritmetik ortalama, medyan ve moddan faydalanırız. Mükemmel simetrik serilerde her zaman

Aritmetik Ortalama = Medyan = Mod

ilişkisi vardır. Sola çarpık frekans serilerinde küçük değere sahip gözlem değeri sayısı fazla olacağından ve bu değerlerde aritmetik ortalamayı küçültme yönünde etkileyeceğinden

Aritmetik Ortalama < Medyan < Mod

ilişikisi vardır. Sağa çarpık frekans serilerinde büyük değere sahip gözlem değeri sayısı fazla olacağından ve bu değerlerde aritmetik ortalamayı büyütme yönünde etkileyeceğinden

Aritmetik Ortalama > Medyan > Mod

ilişkisi vardır.

İlgilenilen değişkenin frekans dağılımının asimetri derecesini tespit etmek amacı ile Pearson’ın eğiklik katsayısı hesaplanır. Eğikliğin hesap edilmesi için birkaç teknik bulunmakla birlikte bunların içinden en basit olanı Profesör Karl Pearson (1837-1936) tarafından geliştirilendir. Eğiklik katsayısında sıfır değeri frekans dağılımının tam/mükemmel simetrik olduğunu, pozitif değerler sağa doğru eğiklik ya da asimetriyi, negatif değerler ise sola doğru eğiklik ya da asimetriyi gösterir.

Pearson eğrilik katsayısı

Eğiklik katsayısı –3 ile +3 arasında değerler alır. –3 ve + 3 limit değerlerine yaklaşıldıkça asimetri derecesinin arttığı belirtilir.

Herhangi bir veri kümesinde, ilgilenilen değişkenin frekans dağılımının şekline bakmaksızın (simetrik, sağa eğik veya sola eğik gibi) aritmetik ortalama değerinden belirli bir standart sapma uzaklıkta yer alan birimlerin en küçük oranı P.L. Chebyshev tarafından bir teorem yardımıyla gösterilmiştir. Örneğin, Chebyshev teoremine göre birimlerin %75’i aritmetik ortalamadan artı eksi 2 standart sapma aralığında değerler almaktadır. Chebyshev teoremine göre herhangi bir veri seti için (örneklem veya ana kütle) aritmetik ortalamadan standart sapmanın k katı uzaklıkta, k > 1 olmak üzere, yer alacak terimlerin en düşük oranı 1 – (1/k 2 ) olur.