Címke: szakdolgozat 1 / 2 oldal
Mert az átlag hamis képet festhet!
Erre egy rövid szemléltetés; a legalsó sorban nyilvánvalóan van összefüggés a két változó között (mivel az adatpontok egyértelműen mintázatba rendeződnek); azonban mivel az összefüggés nem lineáris, a lineáris korrelációs együttható nem képes kimutatni:
Így aztán a használata előtt mindenképpen érdemes ellenőrizni, hogy a kapcsolat lineáris -e. Ahhoz, hogy lineárisnak mondhassuk, nem szükséges egyértelműen egy egyenesre rendeződniük az adatpontoknak; a képen látható, legfelső sorbeli mintázatok mind megfelelnek a feltételnek!
/forrás: https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
…a statisztika ugyanis konkrétan egy külön szakma. Pszichológusoktól, orvosoktól, vagy neveléstudományi szakemberektől nem elvárható, hogy a statisztikához is professzionális szinten értsenek – hiszen az egy másik tudományág! Sajnos azonban a gyakorlat azt mutatja, hogy sok felsőoktatási intézményben mégis ezt az irreális elvárást támasztják a hallgatókkal szemben, ha korábban nem, a szakdolgozat statisztikai részének összeállításánál biztosan.
Ráadásul a statisztikát a legtöbb helyen nem is tanítják igazán jól, amiből az következik, hogy gyakran érthetetlen, mi is az egésznek a lényege. Például hogy miért kell hipotézisvizsgálat ahhoz, hogy eldöntsük, két átlag között van -e eltérés, mikor szemmel látható, hogy van? Szintén ki szokott maradni a képletekben használt jelölések ismertetése; pedig gyakran a képletek egy egész feladaton végigvezetnek, és segítenek abban is, hogy a számolási lépéseken helyes sorrendben haladjunk végig…
Sőt, már régóta kutatóként dolgozó szakembereknek is lehetnek fehér foltok a tudásában; hiszen egy kutatás felépítése és kivitelezése, majd az eredmények értelmezése nagyon összetett feladat, és egyáltalán nem biztos, hogy az előzetes tanulmányai során megfelelő felkészítést kapott az ilyen jellegű kihívások kezelésére az illető.
Tapasztalt statisztika magántanárként (15 éve magyarázok szinte nap- mint nap szignifikanciáról, anováról, normál-eloszlásról, korrelációkról, konfidencia-intervallumokról lelkes, és kevésbé lelkes tanítványoknak) pontosan tudom, mi az, amit a legtöbb egyetemen és főiskolán teljesíteni kell statisztikából. Azt is tudom, hogy mi az, amire már egy kutatás nulladik pillanatában érdemes figyelni, és mik azok a döntési pontok, ahol félrecsúszhat egy kutatás. És, bár én imádom a statisztikát, azzal is tisztában vagyok, hogy nem mindenki van ezzel így. Bízom benne, hogy a te, statisztikával kapcsolatos problémáidon is tudok segíteni, így ha szeretnél órára jelentkezni, vagy kérdésed van, vedd fel velem a kapcsolatot!
Statisztikai tanulmányaink során jellemzően olyankor kerülnek szóba a mérési szintek, amikor még nem nagyon tudjuk mihez kötni őket. Nem segíti a megértési folyamatot az sem, hogy a skálák mérési szintjei azután összemosódnak a változók típusaival; és ez nem is csoda, hiszen a gyakorlatban inkább a változókkal dolgozunk, tehát ezekkel sokkal gyakrabban találkozunk. Sőt, a skálák mérési szintjeinek elnevezéseit gyakran változókategóriákként is használjuk…Mindehhez jön még az a jelenség, miszerint a változók többféleképpen is csoportosíthatók – és így válik teljessé a káosz. Sajnos viszont legkésőbb a szakdolgozat statisztikai részének összerakásához mindenképpen tisztában kell lenni velük!
A mérési szintek tulajdonképpen azt jelenítik meg, hogy egy-egy adat milyen módon alakítható matematikává. A nominális szintű adatok például sehogy; ezért is nominális, azaz névleges ennek a kategóriának a neve, mert a számok, amiket az adatokhoz rendelünk, egyáltalán semmiféle matematikai jelentéssel nem bírnak. Klasszikusan például 1-es jelöli a férfiakat, 2-es a nőket; de ezeket a számértékeket nincs értelme kivonni egymásból, sem összeszorozni, ésatöbbi. Csak címkék; ennélfogva elvben felcserélhetőek más címkékre; jelölhetné mondjuk 83 a férfiakat, és 243 a nőket, mivel ezekkel az értékekkel úgysincs értelme számolni. Ugyanígy lehetne például arról gondolkodni, hogy kinek milyen háziállata van. Lehetne 1-es a kutya, 2-es a macska, és 3-as az egyéb; de a kategóriákat számozhatnánk teljesen máshogy is; legfeljebb ahhoz lenne érdemes ragaszkodni, hogy az „egyéb” kategória, mint afféle „maradék”, legyen a legutolsó számérték.
Ezzel szemben mondjuk a településkategóriákat (főváros, megyeszékhely, város, község, egyéb) nagyon furcsa lenne nem a nagyságrendjüket lekövető számokkal jelölni. Ugyanez igaz a végzettségi szintekre. Elviekben jelölhetné 4-es az általános iskolát, mint legmagasabb végzettséget, és például 2-es a mesterképzést, 1-es pedig az érettségit; de ebben az esetben nem használnánk ki a mérendő értékek közötti természetes sorrendet. Ha tehát létezik egy ilyen természetes sorrend abban az adatban, amit számszerűsíteni akarunk, érdemes ordinális, azaz sorrendi skálát használni a mérésére. Így a kategóriák jelölésére használt számok, bár továbbra sem összeadhatóak, legalább az egymásutániságot megfelelően jelölik; további példa lehet erre a típusú adatra egy úszóversenyen résztvevők beérkezési sorrendje; vagy az egymást követő időszakok beszámozása egy idősoros elemzésnél.
A következő mérési szint az intervallumskála. Ezt olyan jellegű adatok számszerűsítésére használjuk, amelyek már rendelkeznek azzal a tulajdonsággal, hogy az általuk felvehető értékek között mindig azonos a távolság. (Szemben az előző, ordinális skálával, ahol az úszóverseny első és második helyezettének ideje között egyáltalán nem biztos, hogy ugyanakkora az eltérés, mint a második és a harmadik helyezett között; ott tehát az 1-2, és a 2-3 közötti „lépéshossz” nem azonos). Az intervallumskálán, éppen mivel már azonosak az osztásközei, az összeadás és a kivonás is értelmes eredményre vezet. Klasszikusan ezzel a mérési szinttel mér a hőmérő. Nagyon is van értelme azt mondani, hogy mivel ma 18 fok van, tegnap pedig 9 volt, ma 9 fokkal melegebb van, mint tegnap. Ugyanakkor a két érték osztással való összehasonlítása, ami arra az eredményre vezetne, hogy ma kétszer olyan meleg van, mint tegnap volt, megint csak nem értelmes fogalmilag, holott matematikailag nyilván tényleg kettőt kapunk, ha a 18-at 9-cel elosztjuk. Ha szeretnénk a szorzást és az osztást is értelmessé tenni a mérés során, akkor olyan skálát kell használnunk, aminek létezik úgynevezett abszolút nulla pontja.
Emlékszem, amikor én tanultam először a mérési szintekről, ezt az abszolút nulla dolgot egyáltalán nem értettem. Ha van egy abszolút nullánk, akkor már arányskáláról beszélünk; ami a nevében is mutatja, hogy ezen a mérési szinten már oszthatunk és szorozhatunk is. Így kell mérnünk például a testmagasságot. Mondhatjuk, hogy egy 160 cm magas ember 80 centiméterrel magasabb egy 80 cm magas gyereknél; de már azt is, hogy a 160 cm magas kétszer olyan magas, mint aki 80 cm. Tehát ami matematikailag nem működik a Celsius-skálán, az működik a testmagasságnál – és a két verzió között az abszolút nulla a különbség; ez pedig nem jelent mást, minthogy olyan skálával dolgozunk, aminél a 0, mint felvett érték lehetetlen; másképpen fogalmazva az a dolog, amihez a skálán 0 érték tartozna, az nem létezik. 0 fok, mint hőmérséklet- igen, ilyen van. 0 cm magas ember nem létezik, mint ahogy 0 kg tömegű ember sem. Abban azonban megegyezik az intervallum- és az arányskála, hogy mindkettő azonos osztásközökkel rendelkezik; a gyakorlati elemzési munka során nem is nagyon teszünk különbséget a kettő között.
Ritkán van rá szükség a statisztikában, viszont akkor nagyon!
Alig néhány perccel azután, hogy a facebook-oldalamon megosztottam ezt a grafikont, két kérdést is kaptam hozzá kapcsolódóan. A kettő közül az, amelyikre röviden tudtam válaszolni, így hangzott, idézem: „milyen állat a corn?” (megfejtés: kígyó).
A másik viszont hosszasabb kifejtést igényel, nevezetesen hogy miért nem konkrét átlagértékeket látunk a grafikonon; vajon miért van minden állat mellett egy szakasz?
Lépjünk néhányat vissza, és nézzük meg, hogyan lehet a kérdésre válaszolni: átlagosan meddig él egy házimacska? Nyilván adatokat kell gyűjtenünk konkrét macskák élettartamáról (hogy ezt hogyan, mikor, milyen feltételekkel érdemes csinálni, most ne firtassuk); a képzeletbeli kutatásunkban ugorjunk oda, amikor van egy, mondjuk 100 adatot tartalmazó adatbázisunk macskák életéveinek számával.
Az első lépés nyilván az lesz, hogy átlagot számolunk a 100 értékből; legyen mondjuk ez 13,5 év. Ez a szám azonban csak a 100, a mintánkban szereplő cicáról mond el valamit – minket viszont általánosságban érdekelne, meddig élnek a macskák.
Ha a mintából az összes cica élettartamára következtetünk, akkor statisztikai terminológiával élve becslést végzünk. Ehhez kell némi bátorság előzetes tudás, de ha nagyon egyszerűen gondolkodunk, mondhatjuk, hogy mivel a minta átlaga 13,5; az összes cica, akire a becslés vonatkozik, átlagosan 13,5 évet fog élni. Sőt, csak egy átlag birtokában ennél sokkal jobb értéket nem is tudunk kijelölni az összes cica életkorára; hiszen indokolatlan lenne mondjuk 13, vagy 16 évet mondani, ha egyszer a minta átlaga 13,5 lett.
Viszont, hála a valószínűségszámítás és a matematikai statisztika csodálatos módszertanának, ennél azért tovább is tudunk menni. Számszerűsíteni lehet ugyanis azt, hogy bizonyos keretek között mekkora hibára lehet számítani amiatt, hogy egy mintából következtetünk egy sokkal nagyobb elemszámú, vagy éppen végtelen elemszámú sokaságra (más szóval populációra). Ezt a kalkulált hibát (tegyük fel, ez 1,5 év a példánkban) pedig arra tudjuk használni, hogy a 13,5 átlagot korrigáljuk vele. Ha kivonjuk az átlagból a hibát, majd hozzá is adjuk, egy olyan intervallumot kapunk, amiben minden cica átlagos életkora (egy bizonyos, előre meghatározott megbízhatósággal) benne van; nem pedig csak azé a százé, aki a mintába került. Egészen konkrétan ebben a példában a cicák átlagos élettartamának pontbecslése 13,5 év; intervallumbecslése pedig a 12 és 15 év közötti intervallum, jelöléssel: [12;15] – és, visszatérve a kiinduló kérdésünkre, ezt látjuk tól-ig a grafikonon.
Ha tudok a vizsgára készülésben, beadandók elkészítésében, a kutatásod megtervezésében, vagy elemzésben segíteni, vedd fel velem a kapcsolatot!
(A képen szeretett Katie cicánk, aki sajnos csak 14 évet élt.)