Hepimize çocukluktan beri aynı altın kural öğretildi: “İnsanlar yanılabilir, duygulara kapılabilir veya yalan söyleyebilir; ama rakamlar asla yalan söylemez.” Karar verirken bir Excel tablosuna, bir anket sonucuna veya bir başarı grafiğine baktığımızda kendimizi güvende hissederiz. Soğuk, net ve objektif gerçeğe ulaştığımızı sanırız.
Kesinlikle hayır. Hatta tam tersi: Eğer nereye bakacağınızı bilmiyorsanız, istatistikler size dünyanın en inandırıcı, en tehlikeli yalanlarını söyleyebilir. Hayatınızı, paranızı ve hatta sağlığınızı emanet ettiğiniz o “kusursuz ortalamalar”, aslında sizi bir uçuruma sürüklüyor olabilir.
Hangi hastaneyi seçerdiniz?
Önemli bir ameliyat olmanız gerekiyor ve önünüzde iki hastane seçeneği var. Dosyaları inceliyorsunuz:
- A Hastanesi: Son 1000 ameliyatın 900’ü başarılı geçmiş. (Başarı oranı: %90)
- B Hastanesi: Son 1000 ameliyatın 800’ü başarılı geçmiş. (Başarı oranı: %80)
Mantık, hiç düşünmeden A Hastanesini seçmenizi söyler. Yüzde 90, yüzde 80’den büyüktür. Nokta. Ancak dosyaları biraz daha deşip, hastaları “Ağır Vakalar” ve “Hafif Vakalar” olarak iki alt gruba ayırdığınızda dehşet verici bir tabloyla karşılaşırsınız:
- Ağır Vakalarda: A Hastanesinin başarı oranı %30 iken, B Hastanesinin oranı %50’dir. (B daha iyi)
- Hafif Vakalarda: A Hastanesinin başarı oranı %95 iken, B Hastanesinin oranı %99’dur. (B yine daha iyi)
Nasıl olur da B Hastanesi hem ağır vakalarda hem de hafif vakalarda açık ara daha başarılıyken, genel toplamda A Hastanesi daha iyi görünür?
Cevap basittir: A Hastanesi risk almayıp neredeyse sadece “hafif vakaları” kabul etmiş, B Hastanesi ise tüm umutsuz ve “ağır vakaları” üstlenmiştir. Sizin en başta baktığınız o “objektif” %90’lık tablo, hastanenin kalitesini değil; hastanenin riskten kaçma politikasını gösteriyor olabilir.
Alt gruplarda kesin olarak görülen bir eğilimin, gruplar tek bir tabloda birleştirildiğinde bir anda ortadan kaybolmasına veya tam tersine dönmesine Simpson Paradoksu denir.
Neden yanılıyoruz? “Gizli değişken” faktörü
Bu paradoksun ortaya çıkma sebebi, büyük veri setlerinin içinde saklanan ve bizim hesaba katmadığımız bir “Karıştırıcı Değişken“olmasıdır. Hastane örneğindeki gizli değişken “vakanın zorluk derecesi”ydi Bu durumu günlük hayata uyarladığımızda, dünyayı “ortalama” değerler üzerinden okumanın ne kadar sığ bir analiz olduğunu fark ederiz.
1. Haritalardaki “yıldız” illüzyonu
Benzer bir durum Google Haritalar’da da karşımıza çıkar. Yüksek puanına güvenip gittiğiniz bir işletmede kötü bir hizmet aldığınızda; “Burası nasıl bu kadar yüksek puan almış?” diye şaşırırsınız. Yanıt, Simpson Paradoksu’nun o meşhur gizli değişkeninde saklıdır: Yorum yapanın profili. Puan verenlere yakından baktığınızda, birçoğunun hayatı boyunca sadece o dükkana yorum yapmış “tek atımlık” bot hesaplar olduğunu fark edersiniz. Rakamlar size 5 yıldızı gösterirken, alt gruplar (gerçek yerel rehberler vs. botlar) size bambaşka bir hikaye anlatır.
2. İş hayatında ve gelirlerde “ortalama” illüzyonu
Bir şirketin CEO’su çıkar ve “Geçen yıl çalışanlarımızın maaşını ortalama %30 artırdık” der. Haberlerde harika görünür. Ancak alt gruplara indiğinizde, %5’lik üst düzey yönetim kadrosunun maaşının %200 arttığını, geri kalan %95’lik personelin maaşının ise sadece enflasyon oranında (çok daha düşük bir oranda) arttığını görürsünüz. Genel tablo, çoğunluğun yaşadığı finansal çöküşü kusursuzca gizler. Gizli değişken yine orada.
3. “Diyet ve sağlıklı yaşam” tavsiyelerindeki çelişkiler
Bir araştırma başlığı okursunuz: “Kahve içenlerin kalp krizinden ölme riski daha yüksek!” Panikle sabah kahvesini bırakırsınız. Ancak alt gruplara inildiğinde gerçek ortaya çıkar: Kahve içenlerin çok büyük bir kısmı aynı zamanda sigara içen veya yoğun stres altında çalışan kişilerdir. Kalp krizini tetikleyen şey kahve değil, kahveyle birlikte gelen o yaşam tarzıdır. Gizli değişken yine orada.
Zihinsel savunma sanatı
Bu veri çarpıtmalarıyla başa çıkmak sadece matematiksel değil, aynı zamanda sabır gerektiren bir süreç. Daha önce paylaştığımız Brandolini Yasası isimli metnimizde de bu durum hakkında detaylıca bahsetmiştik. Bir kimsenin Simpson Paradoksu’nu kullanarak ortaya attığı yüzeysel bir veriyi çürütmek veya tam olarak belirttiği şekilde doğru olmadığını kanıtlamak için sayfalarca veri analizi yapmanız gerekebilir. Bunun yerine her ortalama veriye sağlıklı bir şüpheyle yaklaşmak faydalı olabilir.
İlginizi çekebilir: Brandolini Yasası: Dünyayı neden ve nasıl saçmalıklar yönetiyor?