oktatás, elemzés, kutatástervezés

Címke: szakdolgozat

Pontbecslés vs. intervallumbecslés – hogy mondjunk általánosságban valamit arról, meddig élnek a háziállatok?

Alig néhány perccel azután, hogy a facebook-oldalamon megosztottam ezt a grafikont, két kérdést is kaptam hozzá kapcsolódóan. A kettő közül az, amelyikre röviden tudtam válaszolni, így hangzott, idézem: „milyen állat a corn?” (megfejtés: kígyó).

A másik viszont hosszasabb kifejtést igényel, nevezetesen hogy miért nem konkrét átlagértékeket látunk a grafikonon; vajon miért van minden állat mellett egy szakasz?

Lépjünk néhányat vissza, és nézzük meg, hogyan lehet a kérdésre válaszolni: átlagosan meddig él egy házimacska? Nyilván adatokat kell gyűjtenünk konkrét macskák élettartamáról (hogy ezt hogyan, mikor, milyen feltételekkel érdemes csinálni, most ne firtassuk); a képzeletbeli kutatásunkban ugorjunk oda, amikor van egy, mondjuk 100 adatot tartalmazó adatbázisunk macskák életéveinek számával.

Az első lépés nyilván az lesz, hogy átlagot számolunk a 100 értékből; legyen mondjuk ez 13,5 év. Ez a szám azonban csak a 100, a mintánkban szereplő cicáról mond el valamit – minket viszont általánosságban érdekelne, meddig élnek a macskák.

Ha a mintából az összes cica élettartamára következtetünk, akkor statisztikai terminológiával élve becslést végzünk. Ehhez kell némi bátorság előzetes tudás, de ha nagyon egyszerűen gondolkodunk, mondhatjuk, hogy mivel a minta átlaga 13,5; az összes cica, akire a becslés vonatkozik, átlagosan 13,5 évet fog élni. Sőt, csak egy átlag birtokában ennél sokkal jobb értéket nem is tudunk kijelölni az összes cica életkorára; hiszen indokolatlan lenne mondjuk 13, vagy 16 évet mondani, ha egyszer a minta átlaga 13,5 lett.

Viszont, hála a valószínűségszámítás és a matematikai statisztika csodálatos módszertanának, ennél azért tovább is tudunk menni. Számszerűsíteni lehet ugyanis azt, hogy bizonyos keretek között mekkora hibára lehet számítani amiatt, hogy egy mintából következtetünk egy sokkal nagyobb elemszámú, vagy éppen végtelen elemszámú sokaságra (más szóval populációra). Ezt a kalkulált hibát (tegyük fel, ez 1,5 év a példánkban) pedig arra tudjuk használni, hogy a 13,5 átlagot korrigáljuk vele. Ha kivonjuk az átlagból a hibát, majd hozzá is adjuk, egy olyan intervallumot kapunk, amiben minden cica átlagos életkora (egy bizonyos, előre meghatározott megbízhatósággal) benne van; nem pedig csak azé a százé, aki a mintába került. Egészen konkrétan ebben a példában a cicák átlagos élettartamának pontbecslése 13,5 év; intervallumbecslése pedig a 12 és 15 év közötti intervallum, jelöléssel: [12;15] – és, visszatérve a kiinduló kérdésünkre, ezt látjuk tól-ig a grafikonon.

Ha tudok a vizsgára készülésben, beadandók elkészítésében, a kutatásod megtervezésében, vagy elemzésben segíteni, vedd fel velem a kapcsolatot!

(A képen szeretett Katie cicánk, aki sajnos csak 14 évet élt.)

Logisztikus regresszió a gyakorlatban

A logisztikus regresszió módszere nem mindig kerül bele a statisztika alap-, vagy mesterképzés tananyagába, pedig nem bonyolult, viszont nagyon hasznos akkor, amikor a vizsgálni kívánt változó kategoriális.

Ebben a tanulmányban arra használtuk, hogy párok fogyasztásának egyenlőtlenségeit vizsgáljuk

Mi a lényegük a hipotézisvizsgálatoknak? 1.rész

Tapasztalataim szerint ez az egyik leginkább misztikusnak tűnő fogalom a statisztikában – és nem csak a diákok számára. Találkoztam már olyan kutatóval is, aki, bár évtizedek óta a pályán van, mégsem érti a lényegét, pedig nem is annyira bonyolult – csak valami furcsa okból épp ez (mármint hogy mi a célunk vele, mi az értelme) szokott kimaradni a statisztika bevezető órákról. Úgyhogy akkor most tisztázzuk is!

Amit mindenképpen érdemes megérteni: a hipotézisvizsgálat mindig a POPULÁCIÓRÓL mond el valamit, a MINTA alapján. Ezért képezik a hipotézisvizsgálatok a következtető statisztika egy jelentős szeletét; a koncepció nyilván mindenkinek ismerős. Van egy sokaság, egy populáció, amit meg szeretnénk ismerni, de nincs módunk megkérdezni/megvizsgálni/lemérni ennek a populációnak minden elemét – kiválasztjuk tehát egy részét(veszünk belőle egy mintát); és ha ezt a kiválasztást sikerült elég precízen megvalósítanunk, akkor a mintából tudunk a teljes populációra következtetni. Ha pedig van egy előzetes feltevésünk a POPULÁCIÓRÓL (például hogy benne azonos a férfiak és a nők átlagmagassága), akkor ezt a feltevést a mintából való következtetéssel tudjuk ellenőrizni – vagyis hipotézisvizsgálatot végzünk.

Emlékszem, amikor én tanultam először erről, én sem értettem a dolgot. Oké, van egy női átlagunk (mondjuk 167), meg egy férfi átlagunk (mondjuk 175), ezeket könnyen kiszámolhatjuk a mintából. Akkor vajon, gondoltam én, miért teszi fel a tanár a szemmel láthatólag szerinte fontos kérdést: „És akkor nézzük meg, eltér -e a nők és a férfiak magassága?”- hát persze hogy eltér, könyörgöm, az egyik 167, a másik 175, a vak is látja, hogy eltér…Azt hiszem, a tanárok már azzal nagyban segítenék a téma megértését, ha ilyenkor kiegészítenék a mondatot, valahogy így: És akkor nézzük meg, eltér -e a nők és a férfiak magassága a POPULÁCIÓBAN (a mintából következtetve…).

Ebből persze az is kiviláglik, hogy ha nem mintavétellel dolgozunk, vagyis ha megvan minden adatunk a populáció elemeiről (mint például egy cégnél az össze munkatárs fizetése), akkor ott értelmetlen hipotézisvizsgálatokat végezni, hiszen nem kell következtetnünk semmire, csak számolnunk kell.

Illetve még egy lényeges kiegészítés: a hipotézisvizsgálatok valószínűségekkel dolgoznak, következésképp BIZTOSAT semmiről a világon nem tudnak mondani – sem pro, sem kontra.

A lényeg tehát, első körben: hipotézisvizsgálatot akkor használunk, ha egy, a populációra vonatkozó feltevésünket akarjuk egy minta alapján igazolni. Ha nincs mintavétel, nincs értelme a hipónak sem; továbbá éppen mivel ismeretlen populációs jelenségekre következtetünk, biztosat a populációról sosem tudunk állítani; nagyon valószínűt vagy valószínűtlent azonban igen.

A lényeg második része hamarosan következik, egy újabb bejegyzésben!

Mi a lényegük a hipotézisvizsgálatoknak? 2.rész

Az előző bejegyzésben tisztáztuk, hogy a hipotézisvizsgálatokat arra használjuk, hogy egy mintából a populációra következtessünk. Ennek a folyamatnak a során tulajdonképpen azzal próbálkozunk, hogy a véletlen hatását (ami a mintavételi ingadozáson keresztül valósul meg) a valós hatástól elkülönítsük; mindezt pedig valószínűségi alapon tesszük.

Folytassuk az előző posztban szereplő példával: eltér -e vajon a férfiak testmagassága a nőkétől a populációban? Mivel nem tudunk minden egyes embert megmérni, a populáció minden tagjának adatát képtelenség megismerni; ezért kénytelenek vagyunk egy mintából való következtetéssel beérni – ebben a mintában a nők magasságának átlaga 167 cm, a férfiaké 175. És, akármennyire precízen vettük is a mintát, abban megegyezhetünk, hogy egy másik minta egy kissé más átlagokat mutatna, egy harmadik pedig ismét eltérne kissé, a véletlen hatása miatt. Ha pedig ezt elfogadjuk, akkor honnan tudhatnánk, hogy a 167 és a 175 közötti eltérés nem csak egy extrém szerencsétlen mintavétel miatt van, hanem tényleges különbséget jelez?

Itt jön képbe a valószínűség. Mivel a nullhipotézis mindig az, amit leginkább „nincs itt semmi látnivaló”-nak nevezhetnénk (vagyis a példánkban, hogy nincs eltérés az átlagok között, tehát a populációban a férfiak és a nők testmagassága megegyezik), ebből az alapfeltevésből indulunk ki. Amikor a szignifikianciaszintet 0,05-ben határozzuk meg, akkor tulajdonképpen azt mondjuk, hogy a nullhipotézisben foglalt állításhoz képest leginkább valószínűtlen, lehetséges mintákat gondoljuk túl valószínűtlennek ahhoz, hogy a nullhipotézis fennállását még komolyan tudjuk venni (a lehetséges minták legextrémebb 5%-át). Egy határ után az eltérés a két átlag között már annyira valószínűtlen, hogy szinte képtelenül szerencsétlen mintát kéne vennünk hozzá, hogy az eltérés csak a véletlen műve legyen – márpedig ha nem a véletlen műve, akkor ott HATÁST találtunk (különbséget, összefüggést).

Ha a két nem testmagassága a nullhipotézisnek megfelelően tényleg egyezik, akkor például egy 168 versus 170-es nő/férfi mintaátlag még elképzelhető, mint a mintavételi ingadozás következménye. 168 és 172 cm is, „szemmértékre”. De ha a nő minta átlaga 168, a férfié 190, akkor érzékelhetően növekszik annak a valószínűsége, hogy mégsem stimmel a nullhipotézisünk. Ha az egyik átlag 140, a másik pedig 210 lenne (persze korrekt mintavétellel), akkor már nagyon nehéz lenne azt hinnünk, hogy a populációban egyforma magasak a férfiak és a nők, csak nagyon nem volt szerencsénk a mintavétellel.

Egy másik példa: hatásos -e egy antidepresszáns? Tegyük fel, ha a gyógyszert nem szedők PHQ-9 depresszióskálán mért értéke 9, a gyógyszert szedőké pedig 10: ez olyan csekély eltérés, hogy nem állíthatjuk meggyőződéssel, hogy valóban hat a gyógyszer. Lehet, hogy a véletlen szeszélye folytán a gyógyszert nem szedők csoportjába kevésbé depressziós emberek kerültek. Ha ugyanezek az értékek a 0-27-ig terjedő skálán 9 és 14, elgondolkodhatunk; viszont ha 9 és 18, akkor elég világos, hogy az antidepresszáns hat. Hogy valóban ez -e a helyzet a populációban, azt persze nem „érzésre” döntjük el, hanem hipotézisvizsgálattal.

Összefoglalva: az összes hipotézisvizsgálat ezzel a módszertannal dolgozik – vagyis a véletlen, és a tényleges hatás szerepét igyekszik tisztázni; és ehhez a valószínűségszámítás alapvetéseit használja. A jó hír, hogy ha valaki „csak” alkalmazni szeretné ezeket a módszereket, ennél mélyebben nem is szükséges alámerülni a hipotézisvizsgálatok csodás világába.

APA formátumú táblázat, közvetlenül SPSS-ből

Tanulmányokhoz, beadandókhoz, szakdolgozathoz hasznos lehet!

ANOVA futtatása és értelmezése excelben

2 / 2 oldal

Köszönjük WordPress & A sablon szerzője: Anders Norén