oktatás, elemzés, kutatástervezés

Címke: hipotézisvizsgálat

A lineáris korrelációs együttható csak a valóban lineáris korrelációt méri jól

Erre egy rövid szemléltetés; a legalsó sorban nyilvánvalóan van összefüggés a két változó között (mivel az adatpontok egyértelműen mintázatba rendeződnek); azonban mivel az összefüggés nem lineáris, a lineáris korrelációs együttható nem képes kimutatni:

Így aztán a használata előtt mindenképpen érdemes ellenőrizni, hogy a kapcsolat lineáris -e. Ahhoz, hogy lineárisnak mondhassuk, nem szükséges egyértelműen egy egyenesre rendeződniük az adatpontoknak; a képen látható, legfelső sorbeli mintázatok mind megfelelnek a feltételnek!

/forrás: https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

Egy extra fontos szabály: amit mérni akarsz, arra tegyél fel kérdést

Sajnos van, akinek már csak akkor jut eszébe, hogy a két dolgot egyeztetni kellene, amikor már nem lehet (értsd: lekérdezte a kérdőívet, és lezárult az adatfelvétel).

És mivel a kérdéseken ilyen módon változtatni már nem lehet, a hipotéziseket kell átformálni, farigcsálni, toldozgatni – ez nyilván sok pluszmunka, megtörheti az egész szakdolgozat ritmusát, arról nem is beszélve, hogy a konzulensek nem szoktak ennek örülni (na nem mintha ők nem szólhattak volna ELŐRE, hogy valami nem stimmel…)

Mondok egy példát. Ha az egyik hipotézised az, hogy a férfiak jobban szeretnek vidámparkba járni, mint a nők, akkor ez a feltételezés két változóról szól: az egyik a nem, a másik pedig hogy mennyire szeret valaki vidámparkba járni. Azt, hogy ki milyen nemű, ritkán felejtik el megkérdezni a kérdőívben – bár találkoztam már ilyennel is, de azért a válaszok erre a kérdésre szinte mindig rendelkezésre állnak, tehát a hipotézis fogalmai közül a „nem”-et tudjuk ezzel a változóval mérni (nagyon egyszerűen: lesz hozzá egy oszlopunk az adatbázisban). Kelleni fog viszont egy olyan kérdés is, ami pontosan azt méri, amit a hipotézisbe belefogalmaztunk: tehát a vidámparkba járás kedvelésének a mértékét. Nem nagyon lesz elég egy bináris kérdés: szeret -e vidámparkba járni, mert ez esetben a hipotézisben az a szó, hogy „jobban”, nehezen lesz értelmezhető – bár ez még nem megoldhatatlan, ha a szeret/nem szeret válaszok arányát teszteljük. Viszont a „Vidámparkba szeret inkább járni, vagy uszodába?” már valami eléggé mást mér, mint amit a hipotézsiben lévő fogalom takar, a „Mikor volt legutóbb vidámparkban?” pedig teljesen mást- ámbár minden, említett kérdés a vidámparkról szól.

A két utóbbi kérdésben közös, hogy a vidámparkba járás szeretete mellett új dimenziókat, új szempontokat is a kérdésbe fogalmaznak; az első egy összehasonlítás valami mással; a második pedig az időtényezőt emeli be plusz dimenzióként.

Érdemes a „Mennyire szeret vidámparkba járni?” kérdést feltenni, tehát nyelvtanilag érdemes minél kevesebb sallanggal, a lehető legjobban lekövetni a kérdéssel a hipotézisben szereplő fogalmat.

Mindenképpen jó elkerülni azokat a kérdéseket, amik nem csak egyetlen dolgot mérnek egyszerre; ha két tényezőre is kíváncsiak vagyunk, akkor tegyünk fel inkább külön kérdéseket rájuk. Ha az érdekel, hogy ki jár szívesen vásárolni, és hogy mikor szokott az illető vásárolni, akkor ne azt kérdezzük, hogy „Szeret -e vásárolni, és ha igen, mikor?”, mondjuk a következő válaszlehetőségekkel:

-gyűlölök vásárolni járni

-utálok vásárolni

-nem szívesen megyek vásárolni

-szeretek vásárolni, hétköznap délelőttönként

-szeretek vásárolni, hétköznap délutánonként

-szeretek vásárolni, hétköznap esténként

-szeretek vásárolni, hétvégén

Amellett, hogy pontosítani kéne, minek a vásárlásáról beszélünk, ezekkel a válaszlehetőségekkel az a gond (többek között), hogy nem adnak teljesértékű adatokat a két kérdésünkre: hogy szeret -e vásárolni (erre még csak-csak); de arról, hogy mikor szokott vásárolni járni, csak a vásárolni szeretőket sikerült megkérdeznünk… Vegyük inkább külön a két kérdést; az adatelemzésnél könnyebb dolgunk lesz, mert nem kell szétszedegetünk egy változóból a két fogalmat, és mert nem utólag derül ki, hogy ami igazán érdekel, arra egyszerűen nincs adatunk.

Mi a lényegük a hipotézisvizsgálatoknak? 2.rész

Az előző bejegyzésben tisztáztuk, hogy a hipotézisvizsgálatokat arra használjuk, hogy egy mintából a populációra következtessünk. Ennek a folyamatnak a során tulajdonképpen azzal próbálkozunk, hogy a véletlen hatását (ami a mintavételi ingadozáson keresztül valósul meg) a valós hatástól elkülönítsük; mindezt pedig valószínűségi alapon tesszük.

Folytassuk az előző posztban szereplő példával: eltér -e vajon a férfiak testmagassága a nőkétől a populációban? Mivel nem tudunk minden egyes embert megmérni, a populáció minden tagjának adatát képtelenség megismerni; ezért kénytelenek vagyunk egy mintából való következtetéssel beérni – ebben a mintában a nők magasságának átlaga 167 cm, a férfiaké 175. És, akármennyire precízen vettük is a mintát, abban megegyezhetünk, hogy egy másik minta egy kissé más átlagokat mutatna, egy harmadik pedig ismét eltérne kissé, a véletlen hatása miatt. Ha pedig ezt elfogadjuk, akkor honnan tudhatnánk, hogy a 167 és a 175 közötti eltérés nem csak egy extrém szerencsétlen mintavétel miatt van, hanem tényleges különbséget jelez?

Itt jön képbe a valószínűség. Mivel a nullhipotézis mindig az, amit leginkább „nincs itt semmi látnivaló”-nak nevezhetnénk (vagyis a példánkban, hogy nincs eltérés az átlagok között, tehát a populációban a férfiak és a nők testmagassága megegyezik), ebből az alapfeltevésből indulunk ki. Amikor a szignifikianciaszintet 0,05-ben határozzuk meg, akkor tulajdonképpen azt mondjuk, hogy a nullhipotézisben foglalt állításhoz képest leginkább valószínűtlen, lehetséges mintákat gondoljuk túl valószínűtlennek ahhoz, hogy a nullhipotézis fennállását még komolyan tudjuk venni (a lehetséges minták legextrémebb 5%-át). Egy határ után az eltérés a két átlag között már annyira valószínűtlen, hogy szinte képtelenül szerencsétlen mintát kéne vennünk hozzá, hogy az eltérés csak a véletlen műve legyen – márpedig ha nem a véletlen műve, akkor ott HATÁST találtunk (különbséget, összefüggést).

Ha a két nem testmagassága a nullhipotézisnek megfelelően tényleg egyezik, akkor például egy 168 versus 170-es nő/férfi mintaátlag még elképzelhető, mint a mintavételi ingadozás következménye. 168 és 172 cm is, „szemmértékre”. De ha a nő minta átlaga 168, a férfié 190, akkor érzékelhetően növekszik annak a valószínűsége, hogy mégsem stimmel a nullhipotézisünk. Ha az egyik átlag 140, a másik pedig 210 lenne (persze korrekt mintavétellel), akkor már nagyon nehéz lenne azt hinnünk, hogy a populációban egyforma magasak a férfiak és a nők, csak nagyon nem volt szerencsénk a mintavétellel.

Egy másik példa: hatásos -e egy antidepresszáns? Tegyük fel, ha a gyógyszert nem szedők PHQ-9 depresszióskálán mért értéke 9, a gyógyszert szedőké pedig 10: ez olyan csekély eltérés, hogy nem állíthatjuk meggyőződéssel, hogy valóban hat a gyógyszer. Lehet, hogy a véletlen szeszélye folytán a gyógyszert nem szedők csoportjába kevésbé depressziós emberek kerültek. Ha ugyanezek az értékek a 0-27-ig terjedő skálán 9 és 14, elgondolkodhatunk; viszont ha 9 és 18, akkor elég világos, hogy az antidepresszáns hat. Hogy valóban ez -e a helyzet a populációban, azt persze nem „érzésre” döntjük el, hanem hipotézisvizsgálattal.

Összefoglalva: az összes hipotézisvizsgálat ezzel a módszertannal dolgozik – vagyis a véletlen, és a tényleges hatás szerepét igyekszik tisztázni; és ehhez a valószínűségszámítás alapvetéseit használja. A jó hír, hogy ha valaki „csak” alkalmazni szeretné ezeket a módszereket, ennél mélyebben nem is szükséges alámerülni a hipotézisvizsgálatok csodás világába. Ha mégis maradt kérdésed, vedd fel velem a kapcsolatot!

Tulajdonképpen mi a lényegük a hipotézisvizsgálatoknak? 1.rész

Tapasztalataim szerint ez az egyik leginkább misztikusnak tűnő fogalom a statisztikában – és nem csak a diákok számára. Találkoztam már olyan kutatóval is, aki, bár évtizedek óta a pályán van, mégsem érti a lényegét, pedig nem is annyira bonyolult – csak valami furcsa okból épp ez (mármint hogy mi a célunk vele, mi az értelme) szokott kimaradni a statisztika bevezető órákról. Úgyhogy akkor most tisztázzuk is!

Amit mindenképpen érdemes megérteni: a hipotézisvizsgálat mindig a POPULÁCIÓRÓL mond el valamit, a MINTA alapján. Ezért képezik a hipotézisvizsgálatok a következtető statisztika egy jelentős szeletét; a koncepció nyilván mindenkinek ismerős. Van egy sokaság, egy populáció, amit meg szeretnénk ismerni, de nincs módunk megkérdezni/megvizsgálni/lemérni ennek a populációnak minden elemét – kiválasztjuk tehát egy részét(veszünk belőle egy mintát); és ha ezt a kiválasztást sikerült elég precízen megvalósítanunk, akkor a mintából tudunk a teljes populációra következtetni. Ha pedig van egy előzetes feltevésünk a POPULÁCIÓRÓL (például hogy benne azonos a férfiak és a nők átlagmagassága), akkor ezt a feltevést a mintából való következtetéssel tudjuk ellenőrizni – vagyis hipotézisvizsgálatot végzünk.

Emlékszem, amikor én tanultam először erről, én sem értettem a dolgot. Oké, van egy női átlagunk (mondjuk 167), meg egy férfi átlagunk (mondjuk 175), ezeket könnyen kiszámolhatjuk a mintából. Akkor vajon, gondoltam én, miért teszi fel a tanár a szemmel láthatólag szerinte fontos kérdést: „És akkor nézzük meg, eltér -e a nők és a férfiak magassága?”- hát persze hogy eltér, könyörgöm, az egyik 167, a másik 175, a vak is látja, hogy eltér…Azt hiszem, a tanárok már azzal nagyban segítenék a téma megértését, ha ilyenkor kiegészítenék a mondatot, valahogy így: És akkor nézzük meg, eltér -e a nők és a férfiak magassága a POPULÁCIÓBAN (a mintából következtetve…).

Ebből persze az is kiviláglik, hogy ha nem mintavétellel dolgozunk, vagyis ha megvan minden adatunk a populáció elemeiről (mint például egy cégnél az össze munkatárs fizetése), akkor ott értelmetlen hipotézisvizsgálatokat végezni, hiszen nem kell következtetnünk semmire, csak számolnunk kell.

Illetve még egy lényeges kiegészítés: a hipotézisvizsgálatok valószínűségekkel dolgoznak, következésképp BIZTOSAT semmiről a világon nem tudnak mondani – sem pro, sem kontra.

A lényeg tehát, első körben: hipotézisvizsgálatot akkor használunk, ha egy, a populációra vonatkozó feltevésünket akarjuk egy minta alapján igazolni. Ha nincs mintavétel, nincs értelme a hipónak sem; továbbá éppen mivel ismeretlen populációs jelenségekre következtetünk, biztosat a populációról sosem tudunk állítani; nagyon valószínűt vagy valószínűtlent azonban igen.

A lényeg második része hamarosan következik, egy újabb bejegyzésben!

Köszönjük WordPress & A sablon szerzője: Anders Norén