oktatás, elemzés, kutatástervezés

Címke: elemzés

Regressziós együtthatók és a standardizált változatuk SPSS-ben

A statisztikában néha problémát okoz a különböző változók eltérő léptéke, mértékegysége. Így van ez a lineáris regressziónál is, ha több magyarázó változót vonunk a modellbe, amelyeknek eltérő a skálázása – ez azt eredményezi, hogy a regressziós együtthatókat nem tudjuk közvetlenül összehasonlítani.

Hiába derítettük ki például, hogy a csontsűrűséget átlagosan 0,2 egységgel növeli, ha 1 decivel több tejet iszunk naponta, és 0,4 egységgel, ha 100 grammal több sajtot fogyasztunk – nem mondhatjuk, hogy a tejfogyasztásnál a sajtfogyasztás kétszer nagyobb hatással van a csontsűrűségre, hiszen a tejet és a sajtot nem azonos mértékegységekkel mértük. Erre a problémára megoldást jelenthet valahogy összehangolni a sajt- és tejfogyasztás skálázását, mondjuk mindkettőt átváltani kalciumtartalomra; de létezik rá tisztán statisztikai módszer is – ezt pedig az SPSS lineáris regresszió outputjába szerencsére bele is építették.

A példa, amin ezt megmutatom, szimulált adatokra épül; azt „vizsgáltam” benne, hogy a félelem a negatív megítéléstől-, és a nárcisztikusság mennyiben befolyásolja a szorongást. Az outputban narancssárgával jelöltem a szokásosan értelmezendő, standardizálatlan, B együtthatókat – ezek szerint tehát a szorongás a neagtív megítéléstől való félelem 0,418 egységnyi növekedésével jár együtt; míg a nárcisztikusság egy egységnyi növekedése a szorongás 0,135 egységnyi csökkenésével (mindhárom változónál azt az eredeti mértékegységet tekintve „egységnek”, amiben eredetileg mértük őket).

Viszont ha szeretnénk valamit megállapítani a két magyarázó változó hatásának viszonyáról, akkor a zölddel jelölt, standardizált béta együtthatókat kell használnunk! Így tehát azt mondhatjuk, hogy a negatív megítélés nagyjából négyszer akkora (700/171), és ellentétes irányú hatással van a szorongásra, mint a nárcisztikusság.

[Két zárójeles megjegyzés: a regresszió esetében először a két együttható szignifikanciáját figyeljük, ha nincs szignifikáns hatás, magukat az együtthatókat nincs értelme firtatni – épp mert ekkor nincs hatásuk a kimeneti változóra a populációban. A második pedig, hogy a regresszióban csak akkor tudunk „hatásról”, tehát okságról beszélni, ha elméletileg is megalapozott, hogy a magyarázó változó okozza a kimenetit – ha ez nem teljesül, csak a változók „együtt járásáról” beszélhetünk.]

Rövid, de hasznos – átlag helyett medián

Logisztikus regresszió a gyakorlatban – 2.

A párkapcsolati erőszak ideologizálását jósló „képlet” kidolgozása is logisztikus regressziós modell segítségével történt:

Rövid, de hasznos – színes pontdiagram SPSS-ben

Logisztikus regresszió a gyakorlatban

Ebben a tanulmányban például arra használtuk, hogy megpróbáljuk kimutatni, milyen javakat fogyasztanak egyenlőtlenül az együtt élő, heteroszexuális párok.

Mi a lényegük a hipotézisvizsgálatoknak? 2.rész

Az előző bejegyzésben tisztáztuk, hogy a hipotézisvizsgálatokat arra használjuk, hogy egy mintából a populációra következtessünk. Ennek a folyamatnak a során tulajdonképpen azzal próbálkozunk, hogy a véletlen hatását (ami a mintavételi ingadozáson keresztül valósul meg) a valós hatástól elkülönítsük; mindezt pedig valószínűségi alapon tesszük.

Folytassuk az előző posztban szereplő példával: eltér -e vajon a férfiak testmagassága a nőkétől a populációban? Mivel nem tudunk minden egyes embert megmérni, a populáció minden tagjának adatát képtelenség megismerni; ezért kénytelenek vagyunk egy mintából való következtetéssel beérni – ebben a mintában a nők magasságának átlaga 167 cm, a férfiaké 175. És, akármennyire precízen vettük is a mintát, abban megegyezhetünk, hogy egy másik minta egy kissé más átlagokat mutatna, egy harmadik pedig ismét eltérne kissé, a véletlen hatása miatt. Ha pedig ezt elfogadjuk, akkor honnan tudhatnánk, hogy a 167 és a 175 közötti eltérés nem csak egy extrém szerencsétlen mintavétel miatt van, hanem tényleges különbséget jelez?

Itt jön képbe a valószínűség. Mivel a nullhipotézis mindig az, amit leginkább „nincs itt semmi látnivaló”-nak nevezhetnénk (vagyis a példánkban, hogy nincs eltérés az átlagok között, tehát a populációban a férfiak és a nők testmagassága megegyezik), ebből az alapfeltevésből indulunk ki. Amikor a szignifikianciaszintet 0,05-ben határozzuk meg, akkor tulajdonképpen azt mondjuk, hogy a nullhipotézisben foglalt állításhoz képest leginkább valószínűtlen, lehetséges mintákat gondoljuk túl valószínűtlennek ahhoz, hogy a nullhipotézis fennállását még komolyan tudjuk venni (a lehetséges minták legextrémebb 5%-át). Egy határ után az eltérés a két átlag között már annyira valószínűtlen, hogy szinte képtelenül szerencsétlen mintát kéne vennünk hozzá, hogy az eltérés csak a véletlen műve legyen – márpedig ha nem a véletlen műve, akkor ott HATÁST találtunk (különbséget, összefüggést).

Ha a két nem testmagassága a nullhipotézisnek megfelelően tényleg egyezik, akkor például egy 168 versus 170-es nő/férfi mintaátlag még elképzelhető, mint a mintavételi ingadozás következménye. 168 és 172 cm is, „szemmértékre”. De ha a nő minta átlaga 168, a férfié 190, akkor érzékelhetően növekszik annak a valószínűsége, hogy mégsem stimmel a nullhipotézisünk. Ha az egyik átlag 140, a másik pedig 210 lenne (persze korrekt mintavétellel), akkor már nagyon nehéz lenne azt hinnünk, hogy a populációban egyforma magasak a férfiak és a nők, csak nagyon nem volt szerencsénk a mintavétellel.

Egy másik példa: hatásos -e egy antidepresszáns? Tegyük fel, ha a gyógyszert nem szedők PHQ-9 depresszióskálán mért értéke 9, a gyógyszert szedőké pedig 10: ez olyan csekély eltérés, hogy nem állíthatjuk meggyőződéssel, hogy valóban hat a gyógyszer. Lehet, hogy a véletlen szeszélye folytán a gyógyszert nem szedők csoportjába kevésbé depressziós emberek kerültek. Ha ugyanezek az értékek a 0-27-ig terjedő skálán 9 és 14, elgondolkodhatunk; viszont ha 9 és 18, akkor elég világos, hogy az antidepresszáns hat. Hogy valóban ez -e a helyzet a populációban, azt persze nem „érzésre” döntjük el, hanem hipotézisvizsgálattal.

Összefoglalva: az összes hipotézisvizsgálat ezzel a módszertannal dolgozik – vagyis a véletlen, és a tényleges hatás szerepét igyekszik tisztázni; és ehhez a valószínűségszámítás alapvetéseit használja. A jó hír, hogy ha valaki „csak” alkalmazni szeretné ezeket a módszereket, ennél mélyebben nem is szükséges alámerülni a hipotézisvizsgálatok csodás világába. Ha mégis maradt kérdésed, vedd fel velem a kapcsolatot!

Mi a mediáció?

Az összemosó változókhoz szorosan kapcsolódó téma következik!

A mediációs elemzés hasznos lehet, amikor egy, két változó kapcsolatát vizsgáló, egyszerű modellt kiegészítve egy harmadik változó hatását szeretnénk igazolni. A mediátor változó olyan változó, ami kapcsolatot képez a független, és a függő változó között; valahogy így:

Egyrészt a független változó hatással van a függőre – ez természetes, ez az alapállás egy elemzésben; például az edzés mennyisége hatással van a sprintelés sebességére. Ugyanakkor a test magnézium-ellátottsága, mint mediáló változó, szintén hat a sebességre (minél kevesebb a magnézium, annál rosszabb a teljesítmény); és amitől a magnézium mediátor lesz, az nem más, minthogy az edzés elfogyasztja a szervezetből. Így tehát az edzés közvetetten (a magnéziumszint csökkentésén keresztül) IS hat a sebességre – ezért ha nem vesszük figyelembe egy elemzés során, nem fogjuk a teljes képet látni.

Egy másik példa lehet a következő hármas: matematikai képességek, és a matekszakon továbbtanulás iránti érdeklődés, mint független és függő változók – természetesnek vehetjük, hogy aki jobb matekból, azt jobban érdekli a matek-témájú továbbtanulás. És persze a harmadik változó, a példában a matekkal kapcsolatos önbizalom; ami közvetetten, a matekhoz való tehetség közvetlen hatása mellett, hat arra, vannak -e valakinek matek szakra továbbtanulási szándékai:

Az ábrán látható (a kis csillagok jelzik), hogy a közvetett és a közvetlen hatások is szignifikánsak; vagyis a matekos önbizalom általánosságban véve is (nem csak abban a mintában, amit éppen vizsgálunk) hat a továbbtanulási szándékra.

Mediációs elemzést SPSS-ben is végezhetünk, csak telepíteni kell hozzá az úgynevezett PROCESS makrót.

Összességében tehát ha túl akarunk lépni a gyakran félrevezető kétváltozós elemzéseken, érdemes a mediációs vizsgálatot is elővenni a statisztikai módszereink közül!

Nagyon apró, de nagyon hasznos tanács elemzéshez

A válaszadóknak, vagy a kísérletben résztvevőknek LEGYEN SORSZÁMUK! Sok későbbi problémától megkíméled magad, ha a sorok beazonosíthatóak akkor is, ha sokadszorra rendezed őket eltérő módon, vagy ha valakit törölsz, ésatöbbi.

Szóval, ha a platform, ahonnan letöltöd az adatbázist, nem teszi meg automatikusan, akkor nulladik lépésként adj mindenkinek egyedi sorszámot. Apróság, viszont ennek hiányában nagyon keserves helyzetek állhatnak elő elemzés közben. Ha esetleg másik adatbázist, új változókat illesztenél az eredetihez, az egyedi azonosítók elengedhetetlenek. De egyszerűen csak ha többször eltérő szempontok alapján rendezted sorba a válaszokat; és szeretnéd visszaállítani ez eredeti verziót, akkor is kelleni fog egy változó, ami mentén ezt megteheted. Sorszámot mindenkinek!

SONY DSC

Egy klasszikus elemzési hiba- az ökológiai tévkövetkeztetés

Egyszer majd végiggondolom, vajon miért egy jóóó nagy hibaforrás jutott eszembe, mint blogindító téma…addig is írok róla kicsit, mert egyrészt nagyon érdekes, másrészt elég gyakori.

Az ökológiai tévkövetkeztetés az a jelenség, amikor nem egyéni , hanem összesített adatokból vonunk le következtetést két változó kapcsolatára, feltételezvén, hogy a kapcsolat az egyének szintjén is fennáll – és ez a feltételezés maga a TÉVkövetkeztetés. Abból például, hogy azokban a kerületekben, ahol sokan keresnek a minimálbér alatt, magas a bűnözési arány, nem következik, hogy a szegényebbek gyakrabban követnek el bűncselekményeket. Lehet, hogy ez így van, de kerületenkénti megoszlások korrelációjából nem lehet erre következtetni; ugyanis nem biztos, hogy egy-egy kerületen belül UGYANAZOK keresnek keveset, mint akik bűnözők. Ezt biztonsággal csak egyedi adatokból lehetne megállapítani!

És íme egy példa arra, hogy milyen gyakori ez a tévedés: ezt a plotot egy 2022-es, népszerű, elemzéseket bemutató amerikai oldalon megjelent tanulmányból emeltem ki. A tanulmány úgy vizsgálja a szegénység és a bűnözés kapcsolatát, hogy 40 ORSZÁG megoszlási adatait veti egybe, és ebből egyénekre vonnak le következtetéseket; kimerítve ezzel az ökológiai tévkövetkeztetés fogalmát…

2 / 2 oldal

Köszönjük WordPress & A sablon szerzője: Anders Norén