Arama

Korelasyon

Güncelleme: 20 Nisan 2009 Gösterim: 5.249 Cevap: 0
HipHopRocK - avatarı
HipHopRocK
Ziyaretçi
20 Nisan 2009       Mesaj #1
HipHopRocK - avatarı
Ziyaretçi
Korelasyon

Sponsorlu Bağlantılar
Korelasyon, olasılık kuramı ve istatistikte iki bağımsız değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Genel istatistiksel kullanımda korelasyon, bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir.
Farklı durumlar için farklı korelasyon katsayıları geliştirilmiştir. Bunlardan en iyi bilineni Pearson çarpım-moment korelasyon katsayısıdır. İki değişkenin kovaryansının, yine bu değişkenlerin standart sapmalarının çarpımına bölünmesiyle elde edilir. Pearson ismiyle bilinmesine rağmen ilk olarak Francis Galton tarafından bulunmuştur.

Pearson çarpım-moment korelasyon katsayısı

Matematiksel özellikleri

Korelasyon katsayısı, bağımsız değişkenler arasındaki ilişkinin yönü ve büyüklüğünü belirten katsayıdır. Bu katsayı, (-1) ile (+1) arasında bir değer alır. Pozitif değerler direk yönlü doğrusal ilişkiyi; negatif değerler ise ters yönlü bir doğrusal ilişkiyi belirtir. Korelasyon katsayısı 0 ise söz konusu değişkenler arasında doğrusal bir ilişki yoktur.

Matematik beklenti değerleri μX ve μY, standart sapmaları σX ve σY olan iki bağımsız değişken X ve Y arasındaki Pearson'un çarpım-moment korelasyon katsayısıX, Y), şu şekilde tanımlanır:

d0f6374f4c0cb2a4690bb4f00fabf652

E
değişkenin matematiksel beklenti değerini, cov ise kovaryansı ifade eder,
μX = E(X) olduğundan, σX2 = E(X2) − E2(X) ve
Y, için de aynısı geçerli olduğundan, şu ifadeyi yazabiliriz:

5f31fa4b96c9f97ce1efa37e99e04457

Korelasyon, yalnızca standart hataların ikisi de sonlu ve sıfırdan farklı ise, tanımlıdır. Korelasyon katsayısının 1'i (mutlak değer olarak) geçemeyeceği ise Cauchy-Schwarz eşitliğinin doğal bir sonucudur.
Tam bir artan doğrusal ilişkinin varlığı halinde korelasyon katsayısı 1 değerini alır, tam bir azalan ilişkinin varlığı halinde ise korelasyon katsayısı -1 değerini alır. Katsayının alabileceği diğer tüm değerler ise ilişkinin doğrusallığına bağlı olarak bu iki değer arasında olacaktır. Katsayı +1'e veya -1'e ne kadar yakınsa ilişkinin doğrusallığı o kadar güçlüdür.
Değişkenler istatistiksel olarak bağımsız ise korelasyon 0'dır fakat bunun tersi doğru değildir, çünkü korelasyon katsayısı yalnızca doğrusal olan ilişkiyi belirler.
Bir örnek: Rastgele X değişkeninin −1 ve +1 aralığında tekdüze dağılımına göre dağıldığını varsayalım ve Y = X2 ilişkisi geçerli olsun. Bu durumda Y tamamen X tarafından belirlenmiştir, öyle ki X ve Y birbirlerine bağımlıdır, fakat Pearson anlamdaki korelasyon 0 olacaktır. Ne var ki, X ve Y'nin birlikte normal dağıldığı durumda, istatistiksel bağımsızlık aynı zamanda korelasyonun da olmaması anlamına gelir.

400px Correlation examples


Bir seri (x, y) noktalar ve her set için x ile y arasındaki korelasyon katsayısı değeri. Yukarı sıradan görüldüğü gibi korelasyon bir doğrusal ilişkinin yönünü ve rastgele yayılımını yansıtır. Orta sıradan anlaşılmaktadır ki korelasyon ilişkinin eğiliminden etkilenmez. Dikkat edilirse tam merkezdeki gösterimde ilişki 0'dır ama Y varyansı 0 olduğu için korelasyon katsayısı tanımlanamamaktadır. Son sıranın amacı korelasyonun doğrusal olmayan bağlantılardan da etkilenmediğini göstermektir.


Pearson'un çarpım-moment korelasyon katsayısı örneklem kestirimi

Bir rasgele örneklem olarak n büyüklükte X ve Y değişkenleri için aralıksal ölçekli veya oransal ölçekli sayısal veri serileri bulunmaktadır ve bu seriler n satırlı ve 2 sütunlu bir veri matrisi olarak ifade edilir. Bu veriler i = 1, 2, ..., n için xi ve yi olarak yazılır. Anakütle Pearson'un çarpım-moment korelasyon katsayısı olan ρXY; için, kestirim korelasyon katsayısı olan rxy şu formül ile hesaplanır:

98de1d29c6da1d9bcf8693d2d5a7b9a9

Burada 84790e2b15a305120bc3fbeb4a4eeb4f ve 10b9fdacffcecc3574e9306610427486 xi ve yi için örneklem aritmetik ortalamaları; sx and sy xi ve yi için örneklem standart sapmaları ve toplama Σ i=1 ile n arasındadır. Bu formül biraz değişme ile şöyle de verilebilir:

0d8118f654bb2e789dd23f490859cf0d

Eğer X ve Y verileri normal dağılım gösteren bir anakütleden gelmişlerse, Pearson'un örneklem korelasyon katsayısı bu iki anakütle değişkeni arasında bulunan korelasyon için en iyi korelasyon kestirimi olduğu isbat edilmiştir. Yine, anakütle korelasyonu için doğru olduğu gibi, örneklem korelasyon katsayısı da -1 ile +1 arasında değişme gösterir.
Verilen formül kullanılarak, komputer kullanarak tek geçişli algoritm olarak örneklem korelasyon katsayısı hesaplanması kolay görülmesine rağmen, pratikte özellikle bu formülün kullanışı sayısal kararsız olarak pek şöhret kazanmıştır. Aşağıda daha kararlı ve kesin sonuç veren örneklem korelasyon katsayı hesaplaması verilecektir.
Örneklem korelasyon katsayısı, xi 'in yi 'ye doğrusal uygunluğunun sağlanması halinde, açıklanan yi varyansı olarak da tanımlanabilir. Bu matematiksel biçimde şöyle yazılır:

d13d11a47d8681c6324b608a12343aa4

Burada σy|x2 terimi xi 'in yi 'ye arasındaki ilişkinin bir y = a + bx doğrusu ile ifade edilmesinin kestirimi sırasında ortaya çıkan hata karelerinin toplamıdır.

87ad7cd06e0bcd02c52595969336a71a

ile σy2 y için varyansdır; yani

38cab9b635e33acf8648bffbaa070ca7

Örneklem korelasyon katsayısı hem xi 'e hem yi 'ya göre simetrik olduğu için, eğer bağımlı değişken olarak xi seçilip yi 'in buna doğrusal uygunluğunun kestirimi elde edilirse, aynı değer

a33c0bf3102ba7ca75530bd0c14de9f4

elde edilir.
Bu denklem daha yüksek boyutlarda korelasyon katsayısı bulunması için bazı ipuçlari vermektedir. Yukarıda Euclid uzayı içinde bir 2-boyutlu vektör grubu için tek-boyutlu bir ölçü uygulaması halinde ortaya çıkartılan açıklanan varyans kısmı orneklem korelasyon olarak tanımlanmıştır. Aynı şekilde m boyutlu bir doğrusal alt-manifoldta n boyutlu vektörlerin uygulanması olan çoklu korelasyon katsayısı tanımlanabilir. Örneğin z için x ile y 'ye göre bir düzey olan z = a + bx + cy uygulananırsa, 'z 'nin x ile y 'ye göre korelasyonu şöyle verilir:

8ebea10c5ebccc639eef1e9c7b0fb892

Korelasyonun açıklanması


Örneklem korelasyon katsayısı iki rassal değişken olan X ve Y'yi temsil eden vektörlerin kosinus değeri olarak açıklanabilir.
Örneklem korelasyon katsayısı mümkün uçsal değerler olan -1 veya +1 olursa, çok iyi iki değişken arasında çok iyi bir doğrusal bağlantı bulunduğu kabul edilir. Eğer örneklem korelasyon katsayısı 0'a eşitse, iki değişken arasında hiç doğrusal bağlantı bulunmaz. Dikkat edilirse hep örneklem korelasyon katsayısı ile dogrusal bağlantı açıklanmakta ve genel olarak bağlantıdan bahis edilmemektedir. Örneğin iki değişken arasında çok yakın bir daire şeklinde bağlantı bulunsa, örneklem korelasyon katsayısı 0'a yakın olacaktır.
Değişik istatistikçiler örneklem korelasyon katsayısının değerlerini daha ayrıntılı olarak açıklamaktadırlar. Burada Cohen(1988) , tarafından, özellikle psikoloji ilim dalinda uygulamalı olarak, verilen ayrıntılı açıklama şu tabloda gösterilmektedir:

screenshot049m

Bu ayrıntılı açıklama çok subjektifdir ve belli bir bilim dalı için (psikoloji) uygundur ama genelleştirilmesi uygun değildir. Değişik bilim dalları korelasyon katsayısı değerlerinin değişik olarak açıklamasını kabul etmektedirler. Örneğin çok dakik ölçüm aletleri ile ortaya çıkarılan ölçüler arasında bulunan 0,9 korelasyon değerinin çok düşük olduğu kabul edilebilir; halbuki ayni katsayı değeri bir sosyal bilimci veya iktisatçı tarafından çok yüksek (hatta gerçekliğine şüphe yaratırcasına büyük) olarak kabul edilmektedir.

Korelasyon hakkında yaygın bazı hatalı düşünceler

Korelasyon ve nedensellik

İstatistikte korelasyon hakkinda çok kullanılan ve her istatistik kullananın bilmesi gerek bir cümle şudur:
Korelasyon veya doğrusal ilişki nedensellik değildir. Genellikle çok kişi iki değişken arasında bir ilişki kurulunca birinin sebep diğerinin sonuc olduğuna ve birinin diğerine neden olduğuna inanmış görünürler. Gerçekten nedensellik ve korelasyon birbirine bağlı kavramlardır: nedensellik isbat edilmesi için korelasyonun bulunması gereklidir ama bu nedensellik göstermek için yeterli değildir. Nedensellik ve korealasyon birbirlerine eşit değillerdir ama daha uygun cümleler ile
Empirik olarak gözümlenen birlikte değişme nedensellik açıklamasi için gereklidir ama yeterli değildir.Korelasyon nedensellik değildir; ama nedenseliğin daha ayrıntılı incelenmesi gerektiren ipucu sağlar. İstatistikte birbiri ile çok yakından doğrusal ilişkili gibi görülen ama biri diğerine sebep-sonuç olmayan birçok pratik örnek bilinmektadir. Genellikle bu türlü nedensellikden doğmayan yakın ilişkiye sahte korelasyon adı verilmektedir. Genellikle bu sahte korelasyon iki değişkenin de bir başka saklı olan degisken tarafından etkilenmesi dolayısı ile ortaya çıkar. Biraz abstre olarak A ve B arasında bulunan yakin korelasyon daha objektif olarak dikkatle incelenince üç tür mümkün ilişki olabilceği görülür:
A nedendir B sonuçtur;B nedendir A sonuçtur; yahut
C neden A sonuçtur VE C neden B sonuçtur. İşte sahte korelasyon üçüncü halde ortaya çıkar. A ve B arasında görülen yakın ilişki biribirin sebep-sonuç olmasından doğmaz. Yakın korelasyon herhalde sebep-sonuç ilişkisi ifade etmez: "korelasyon nedensellik degildir".
Sahte korelasyon hakkında birçok örnek verilmiştir ve bunlar bazan alaycı, bazan şaşırtıcı ve bazan gülünçtür. Bunlardan bazılarını verip niçin sahte korelasyon bulunduğunu açıklayalım:
  • İskandinaya'da 19. yüzyil sonu ve 20. yüzyıl için yıllık leylek sayısı ve yıllık çocuk doğumları inceleyince çok yakin bir pozitif korelasyon bulunmaktadır. Bu doğan çocuklarin leylekler tarafından getirildikleri önerisini doğurmaz. Hem çocuk doğum sayısı hem de leylek sayısı ekonomik gelişme ve sehirleşme dolayısı azalmis ve bu iki azalma birinin diğerine sebep-sonuç olmasından ortaya çıkmamıştır.
  • Bir sahil şehrinde aylık dondurma satışlariı ile aylık denizde boğulma sayıları yil içinde birlikte artıp eksilime gösterip yakın pozitif korelasyon gösterirler. Bu demek değildir ki fazla dondurma fazla boğulmalara sebep-sonuç olmakta veya boğulmaların azalması dondurma satışların aksi tesirde bulunmalarıdır. Her ikisi de mevsim değiştiği için aynı yönde değişik etki görmektedir.
  • Ayakkabı ile uyumak, baş ağrısı ile uyanmakla yakın pozitif korelasyon gösterir. Bu demek değildir ki ayakkabi ile yatmak baş ağrısı doğurur. Çok daha uygun bir açıklama, her ikisinin de fazla alkolik içki kullanma sonucu ortaya çıkmasıdır.
  • Bir yangına müdahale eden itfaiye mensuplarının sayısı ile yangından ortaya çıkan maddi hasar birbirleri ile yakın korelasyon gösterirler. Bu demek değildir ki itfaiye mensubu sayısı artışı (yağmacı artışı gibi) daha çok maddi hasar çıkmasına neden olur. Asıl açıklama yangının büyüklüğü ve şiddetine dayaıir; büyük yangınlar daha çok itafiyeci gerektirir ve daha çok hasar doğurur ve aksi de doğrudur.
  • 1950lerden beri hava kirliği göstergeleri ile polise bilirilen hırsızlık olayları sayısı pozitif korelasyon göstermektedir. Bu demek değildir ki hava kirliği artışı hırsızlık olaylarının artışına; yahut hava kirliğinin artışı hırsızlik sayısı artışına neden olmuştur. Her iki değişken de hızlı şehirleşme dolayısı ile artış göstermektedir.

Korelasyon ve doğrusallık

Pearson'un korelayon katsayısı iki değişken arasındaki doğrusal ilişkinin güçünü göstermekle beraber, kestirim olarak bulunan katsayı değeri bu ilişkiyi tam olarak açıklamak için yeterli değildir. Bu sonuç eğer veriler normal dağılım göstermiyorlarsa daha da önem kazanmaktadır.
Dört değişik veri çiftini ve dört serpme diyagramını kapsayan ve istatistikçiler arasında çok iyi bilinen yandaki gösterimler İngiliz asıllı Amerikan istatistikçi Francis Anscombe tarafından hazırlanan bir yazıda gösterilmiştir. Gösterilen 4 değişik y değişkeninin hepsi için de aynı olan ortalama (7,5), standart sapma (4,12), korelasyon katsayısı (0,81) ve regresyon doğrusu (y = 3 + 0.5x) bulunmaktadır. Fakat gösterimden açıkca görülmektedir ki dört Y değişkenin dağılımları çok farklıdır. Sol yukarıdaki göstergede iki değişken birbirine korelasyon ile ilişkili olup her iki degiskenin de normal dağılıma uyduğu varsayımlarının gerçeğe uygun olduğu kabul edilebilir. Üst sağdaki gösterim de değişkenlerin normal dağılım gosterdikleri kabul edilemez; iki değişken arasında iliski olmakla beraber bunun doğrusal olduğu da kabul edilemez ve bu nedenle yüksek korelasyon katsayısı bu ilişkiyi açıklayamaz. Alt soldaki göstergeden görülmektedir ki iki değişken arasında tam bir doğrusal ilişki vardır ancak tek bir dışlak nokta bulunmakta ve bu da korelasyon katsayı değerini 1den 0.81 e düşürmektedir. Alt sağdaki son gösterimden iki değişken arasındaki ilişkinin dogrusal olmadığı ve bulunan tek bir dışlak verinin hesaplanan yüksek korelasyon katsayısına neden olduğu görülmektedir.
Bu örnek açıkca göstermektedir ki bir özetleme istatistiğine (burada korelasyon katsayı değerine) dayanarak, verilerin daha ayrıntılı incelenmesi yapılmadan, ortaya sonuç çıkartma iyi inceleme için gayet yetersizdir.

325px Anscombesvg

Korelasyon katsayı değeri aynı r=0,81 olan dört değişik örneklem veri


Korelasyon katsayısının kesin olarak tek-geçişli olarak kompüterle hesaplanması

Sayısal olarak kararlılığı ve kesinliği iyi olan Pearson'un çarpan-moment korelasyon katsayısı hesaplama algoritması için şu sözdekod verilmiştir:

Kod:
sum_sq_x = 0
sum_sq_y = 0
sum_xy = 0
mean_x = x[1]
mean_y = y[1]
for i in 2 to N:
    sweep = (i - 1.0) / i
    delta_x = x[i] - mean_x
    delta_y = y[i] - mean_y
    sum_sq_x += delta_x * delta_x * sweep
    sum_sq_y += delta_y * delta_y * sweep
    sum_xy += delta_x * delta_y * sweep
    mean_x += delta_x / i
    mean_y += delta_y / i 
pop_sd_x = sqrt( sum_sq_x / N )
pop_sd_y = sqrt( sum_sq_y / N )
cov_x_y = sum_coproduct / N
korelasyon = cov_x_y / (pop_sd_x * pop_sd_y)


Benzer Konular

4 Mayıs 2009 / irfan_d Soru-Cevap
5 Nisan 2016 / ihsan dirik Cevaplanmış