Valószínűleg tanulmányaid során találkoztál már vele – vagy legalábbis kellett volna, ugyanis a Cohen’s d az egyik leggyakoribb hipotézisvizsgálatnak, a t-próbának a hatásnagyság-mutatója; így például szakdolgozat-íráskor érdemes számolni vele.
A hatásnagyságra azért van szükség, mert önmagában a „szignifikánsság” csak azt mutatja meg, hogy a vizsgált jelenség létezik a populációban (tehát például ha egy mindfullness tanfolyam hatását vizsgáljuk a depresszióra, és az előtte-utána mérések között az eltérés szignifikáns, akkor igazoltuk, hogy az eltérés nem csak a mintánkban mutatkozik meg, hanem általánosságban is létezik).
Azt azonban ekkor még nem tudjuk, hogy a különbség mekkora horderejű, milyen jelentős; de terjedhet a jelentéktelentől a nagyon komoly jelentőségűig. Éppen ennek a mérésére valóak a hatásnagyság-mutatók; amikből némi túlzással élve minden hipotézisvizsgálathoz van egy külön verzió – a t-próbáknál éppen a Cohen’s d.
A nagy és gyakorta használt statisztikai szoftverek könnyen kiszámolják, a leggyakoribb értelmezése pedig így néz ki:
Előfordulhat, hogy a különbség szignifikáns, de a mértéke teljesen jelentéktelen; ezért érdemes mindig figyelembe venni a hatásnagyságot az eredményeink értelmezésénél!
forrás: Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates.
Nézzük meg az előző témát (két csoport összehasonlítása akkor, ha az összehasonlítást egy folytonos változó szerint végezzük) egy kicsit más szemszögből: vegyük elő a szóráshomogenitást.
Ez a normalitás mellett a másik alapfetétele a t-próba alkalmazhatóságának; ugyanakkor mégis valahogy gyakran elsikkad. A fogalom nem jelent mást, minthogy a két, összehasonlítandó csoportnak egyforma szórással kell rendelkeznie – és ezt azért kell külön hipotézisvizsgálattal ellenőrizni, mert a szórásoknak a populációkban kell egyezniük. Nem elég tehát, ha ránézésre a leíró statisztikában „nagyjából egyformák”; kell hozzá egy teszt (ez leggyakrabban a Levene-teszt).
Ha nem szignifikáns (tehát a p-érték 0,05 fölött van), a szórások egyezőségét elfogadottnak tekintjük; ha nincs, akkor jön a Welch-féle t-teszt; ez általában minden szoftverben könnyen elérhető, az SPSS-ben egyenesen automatikusan kiíródik (ez az „Equal variances not assumed” sor):
Nade mi van akkor, ha a szóráshomogenitás is sérül, és az előző blogposztban tárgyalt normalitás is? A gyakorlatban (például szakdolgozatban, műhelymunkában) ilyenkor is a Mann-Whitney próbát használjuk; de nem árt tudni, hogy annak pedig az eloszlások egyezősége a feltétele – ezt azonban ellenőrizni szinte soha nem szokták.
Röviden: ami közös bennük, hogy mindkettőt két (azaz kizárólag kettő) csoport összehasonlítására használjuk. Jobban parkolnak -e a férfiak, mint a nők? A nevelőotthonban felnőtt gyerekeknek más -e a szorongásszintje, mint a családban nevelekdőkének? A 25 év alattiak többet használják -e közösségi médiát, mint a 25 év felettiek?
Míg azonban a t-teszt parametrikus (ez alatt itt azt értjük, hogy feltétele a normáleloszlás), addig a Mann-Whitney rangsoroláson alapul. Ez tulajdonképpen azt jelenti, hogy a Mann-Whitney során elvész az egymást követő adatok távolságának különbözősége, minden érték között 1 egység lesz a távolság:
Ennek az az előnye, hogy az eloszlás normalitása itt már nem fontos; hiszen az egymás után sorban beszámozott értékekben az úgysem mutatkozna meg; de ugyanez a tulajdonsága okozza a kisebb erejét is. Az óráimon viszonylag rendszeresen felmerül a kérdés, hogy miért nem használjuk automatikusan a nemparaméteres teszteket, ha egyszer ugyanazt a funkciót töltik be, mint a paraméteresek, csak sokkal kevesebb előfeltétellel? A válasz az erőben rejlik: a nemparaméteres próbák egyszerűen kevésbé hatékonyak – ami viszont nem az elsődleges szempont akkor, amikor a normalitás sérülése miatt paraméteres próbát nem használhatunk…
A gyakorlatban úgy tudunk a kétféle teszt közül választani, hogy ha a normalitás rendben van (ellenőrizni leggyakrabban a Shapiro-Wilk teszttel szoktuk), akkor t-tesztet használunk; ha a normalitás nem teljesül, akkor viszont Mann-Whitney tesztet. Annak ellenére így van ez, hogy a szóráshomogenitásra is figyelnünk kellene közben, de a gyakorlatban, még műhelymunkákban és szakdolgozatokban is, a normalitás, mint feltétel, általában mindent visz. Az is igaz viszont, hogy a szóráshomogenitás sokkal ritkábban sérül, mint a normalitás.
Nemrég járta be a sajtót a hír, hogy Nagy-Britanniában néhány évtizede tévesen számolták ki, hogy egy szál cigaretta átlagosan hány évvel rövidíti meg egy ember életét. A történtekről szóló cikkekben „jelentős módszertani hibákat” említettek, én pedig arra gondoltam, ezekből talán érdemes tanulni.
Mind a régi, téves, mind a frissebb, kiigazító kutatás Nagy-Britanniában zajlott; ez azért különösen érdekes, mert Anglia volt az egyik, ha nem a legjelentősebb ország a dohányzás európai elterjedésének történetében. I. Jakab király, és a dohányt az angolokkal megismertető Sir Walter Raleigh annyira nem szívelhették egymást, hogy miután vitatkoztak egy sort arról, be kell -e tiltani, vagy meg kell-e adóztatni a dohányzást, I.Jakab lefejeztette a Sir-t. A képen még fejjel együtt látható, miközben látványos pipájából boldogan pöfékel (a háttérben pedig a szolgáló épp készül vízzel eloltani gazdáját, azt gondolván, hogy az azért füstöl, mert meggyulladt):
Egyszóval a szigetországnak és a dohányzásnak nagyon hosszú, közös története van; de ugyanez igaz a dohányzás káros hatásainak kutatására is. Sőt, brit tudósoktól származik az első olyan tanulmány, ami egészen komoly módszertannal, elsőként bizonyította be kétséget kizáróan, hogy a dohányzás tüdőrákot okoz. Ebben az 1950-es tanulmányban Doll és Hill szem előtt tartották például azt az irányelvet, hogy a kontroll-, és a hatásnak kitett csoportnak a hatáson kívül érdemes teljesen egyformának lennie, különben nem fogjuk tudni, mi okozza az eltérést a kimenetelben. Ez például egy fantasztikus táblázat arról, hogy hogyan alakultak az illesztett mintájuk számai (amikor is nem, életkori sáv, társadalmi osztály, és lakóhely szerint is igyekeztek a beteg és nem beteg mintát illeszteni, hogy valóban csak a betegség ténye különböztesse meg egyik csoportot a másiktól):
Ugyanakkor a 2000-es eredeti, a British Medical Journal-ban megjelent kutatásban kizárólag férfiak egészségét és dohányzási szokásait vetették össze; ezen belül kizárólag férfi orvosokét. Az akkori eredmény szerint egyetlen szál cigaretta elszívása 11 perccel rövidíti meg az életet – és a másik félmondat, amit akkoriban a média már nem jelentetett meg – hogy ez a kijelentés csak akkor igaz, ha az ember Nagy Britanniában él, férfi, és orvos.
Egy adott mintából mindig csak arra a populációra következtethetünk vissza, amiből a mintát vettük! Ha ezt nem tartjuk szem előtt, az úgynevezett lefedettségi hibát követjük el – mert nem látjuk a teljes populációt, mégis arra vonatkozóan teszünk becsléseket. A 2000-es kutatás eredményei csak a dohányzásnak a férfiakra gyakorolt hatásairól mondanak el valamit.
Az új kutatás egyébként a férfiakra vonatkozó számokat is korrigálta az újabb adatok alapján. Egyéb, potenciális összemosó változókra való kontrollálás után (társadalmi-gazdasági státusz, testmozgás) úgy becsülték, a férfiak életét átlagosan 17-; míg a nőkét 22 perccel rövidíti meg egyetlen szál cigaretta elszívása.
A tanulság tehát az, hogy akármihez is készítünk statisztikát (legyen ez publikáció, poszter, szakdolgozat), ne felejtsük el, hogy a következtetéseink csak arra a populációra lesznek kivetíthetőek, amelyből a minta származik!
Erre egy rövid szemléltetés; a legalsó sorban nyilvánvalóan van összefüggés a két változó között (mivel az adatpontok egyértelműen mintázatba rendeződnek); azonban mivel az összefüggés nem lineáris, a lineáris korrelációs együttható nem képes kimutatni:
Így aztán a használata előtt mindenképpen érdemes ellenőrizni, hogy a kapcsolat lineáris -e. Ahhoz, hogy lineárisnak mondhassuk, nem szükséges egyértelműen egy egyenesre rendeződniük az adatpontoknak; a képen látható, legfelső sorbeli mintázatok mind megfelelnek a feltételnek!
…a statisztika ugyanis konkrétan egy külön szakma. Pszichológusoktól, orvosoktól, vagy neveléstudományi szakemberektől nem elvárható, hogy a statisztikához is professzionális szinten értsenek – hiszen az egy másik tudományág! Sajnos azonban a gyakorlat azt mutatja, hogy sok felsőoktatási intézményben mégis ezt az irreális elvárást támasztják a hallgatókkal szemben, ha korábban nem, a szakdolgozat statisztikai részének összeállításánál biztosan.
Ráadásul a statisztikát a legtöbb helyen nem is tanítják igazán jól, amiből az következik, hogy gyakran érthetetlen, mi is az egésznek a lényege. Például hogy miért kell hipotézisvizsgálat ahhoz, hogy eldöntsük, két átlag között van -e eltérés, mikor szemmel látható, hogy van? Szintén ki szokott maradni a képletekben használt jelölések ismertetése; pedig gyakran a képletek egy egész feladaton végigvezetnek, és segítenek abban is, hogy a számolási lépéseken helyes sorrendben haladjunk végig…
Sőt, már régóta kutatóként dolgozó szakembereknek is lehetnek fehér foltok a tudásában; hiszen egy kutatás felépítése és kivitelezése, majd az eredmények értelmezése nagyon összetett feladat, és egyáltalán nem biztos, hogy az előzetes tanulmányai során megfelelő felkészítést kapott az ilyen jellegű kihívások kezelésére az illető.
Tapasztalt statisztika magántanárként (15 éve magyarázok szinte nap- mint nap szignifikanciáról, anováról, normál-eloszlásról, korrelációkról, konfidencia-intervallumokról lelkes, és kevésbé lelkes tanítványoknak) pontosan tudom, mi az, amit a legtöbb egyetemen és főiskolán teljesíteni kell statisztikából. Azt is tudom, hogy mi az, amire már egy kutatás nulladik pillanatában érdemes figyelni, és mik azok a döntési pontok, ahol félrecsúszhat egy kutatás. És, bár én imádom a statisztikát, azzal is tisztában vagyok, hogy nem mindenki van ezzel így. Bízom benne, hogy a te, statisztikával kapcsolatos problémáidon is tudok segíteni, így ha szeretnél órára jelentkezni, vagy kérdésed van, vedd fel velem a kapcsolatot!