oktatás, elemzés, kutatástervezés

Hónap: 2023 szeptember

Pontbecslés vs. intervallumbecslés – hogy mondjunk általánosságban valamit arról, meddig élnek a háziállatok?

Alig néhány perccel azután, hogy a facebook-oldalamon megosztottam ezt a grafikont, két kérdést is kaptam hozzá kapcsolódóan. A kettő közül az, amelyikre röviden tudtam válaszolni, így hangzott, idézem: „milyen állat a corn?” (megfejtés: kígyó).

A másik viszont hosszasabb kifejtést igényel, nevezetesen hogy miért nem konkrét átlagértékeket látunk a grafikonon; vajon miért van minden állat mellett egy szakasz?

Lépjünk néhányat vissza, és nézzük meg, hogyan lehet a kérdésre válaszolni: átlagosan meddig él egy házimacska? Nyilván adatokat kell gyűjtenünk konkrét macskák élettartamáról (hogy ezt hogyan, mikor, milyen feltételekkel érdemes csinálni, most ne firtassuk); a képzeletbeli kutatásunkban ugorjunk oda, amikor van egy, mondjuk 100 adatot tartalmazó adatbázisunk macskák életéveinek számával.

Az első lépés nyilván az lesz, hogy átlagot számolunk a 100 értékből; legyen mondjuk ez 13,5 év. Ez a szám azonban csak a 100, a mintánkban szereplő cicáról mond el valamit – minket viszont általánosságban érdekelne, meddig élnek a macskák.

Ha a mintából az összes cica élettartamára következtetünk, akkor statisztikai terminológiával élve becslést végzünk. Ehhez kell némi bátorság előzetes tudás, de ha nagyon egyszerűen gondolkodunk, mondhatjuk, hogy mivel a minta átlaga 13,5; az összes cica, akire a becslés vonatkozik, átlagosan 13,5 évet fog élni. Sőt, csak egy átlag birtokában ennél sokkal jobb értéket nem is tudunk kijelölni az összes cica életkorára; hiszen indokolatlan lenne mondjuk 13, vagy 16 évet mondani, ha egyszer a minta átlaga 13,5 lett.

Viszont, hála a valószínűségszámítás és a matematikai statisztika csodálatos módszertanának, ennél azért tovább is tudunk menni. Számszerűsíteni lehet ugyanis azt, hogy bizonyos keretek között mekkora hibára lehet számítani amiatt, hogy egy mintából következtetünk egy sokkal nagyobb elemszámú, vagy éppen végtelen elemszámú sokaságra (más szóval populációra). Ezt a kalkulált hibát (tegyük fel, ez 1,5 év a példánkban) pedig arra tudjuk használni, hogy a 13,5 átlagot korrigáljuk vele. Ha kivonjuk az átlagból a hibát, majd hozzá is adjuk, egy olyan intervallumot kapunk, amiben minden cica átlagos életkora (egy bizonyos, előre meghatározott megbízhatósággal) benne van; nem pedig csak azé a százé, aki a mintába került. Egészen konkrétan ebben a példában a cicák átlagos élettartamának pontbecslése 13,5 év; intervallumbecslése pedig a 12 és 15 év közötti intervallum, jelöléssel: [12;15] – és, visszatérve a kiinduló kérdésünkre, ezt látjuk tól-ig a grafikonon.

Ha tudok a vizsgára készülésben, beadandók elkészítésében, a kutatásod megtervezésében, vagy elemzésben segíteni, vedd fel velem a kapcsolatot!

(A képen szeretett Katie cicánk, aki sajnos csak 14 évet élt.)

Small sample bias/fallacy – avagy sorsjegykaparásból aligha leszünk milliomosok

A „small sample bias” egy olyan gondolkodásbeli torzítás, amely során egy kis mintából általános érvényű következtetést vonunk le – például amikor ugyanabban a boltban velünk már másodszor undok az eladó, és ezért elhatározzuk, többé nem vásárolunk ott.

A kis mintanagyság (jelen esetben a 2 darab vásárlás) nagyon erősen kitett a szélsőséges értékeknek; míg egy nagyobb mintánál az extrém kicsi-, és az extrém nagy értékek nagyjából ki tudják egymást egyensúlyozni. Ez nem jelenti azt, hogy ha százszor térnénk be a boltba, akkor szükségszerűen azt tapasztalnánk, hogy ugyanannyiszor undok-, mint ahányszor kedves az eladó – ez csak akkor történne így, ha ő valójában egy kiegyensúlyozott személy lenne, és a hangulatai csak a véletlen hatására változnának. Száz vásárlás során azt is észrevehetnénk, hogy valóban jóval többször undok, mint kedves; de ez, a nagyobb elemszám miatt, már egy jobban általánosítható minta lenne, és ez esetben érdemes lenne tényleg elkerülni a boltot a továbbiakban. Az is előfordulhatna, hogy száz vásárlás után felülírnánk az első kettő során kialakított meggyőződésünket, mert az eladó jóval többször lenne kedves, mint nem. Két vásárlásból azonban azért nem érdemes általános következtetést levonni, mert a kétszer ismétlődő undokság könnyen lehet egyszerűen a véletlen műve – például hogy mindkét alkalommal szerencsétlen módon egy kivételesen hepciás vásárló került éppen elénk a sorban, és ettől az eladó is idegesebb lett. (Ez persze nem azt jelenti, hogy az egyik vásárló által keltett belső feszültséget rendben van a következőn leverni, de ez sajnos elég gyakran megtörténik – itt találsz néhány taktikát, hogy kezeld a hasonló helyzeteket.)

Ugyanígy ha például kedved támadna kaparós sorsjegyekkel próbára tenni a szerencsédet, nem érdemes néhány, kezdetben kiválasztott, nyerő sorsjegy után általánosítani. Abból, hogy mondjuk az első 10 sorsjegyből 8 nyert, egyáltalán nem következik, hogy ha 100 darabot veszel, 80 nyertes szelvénnyel alapozhatod meg a jövőbeli anyagi biztonságodat – mert az első 10 alapján nem lehet az összesre következtetni! (És persze az sem mindegy, a nyertesekkel mennyi pénzt nyernél…) Sőt, egy 2019-es statisztika alapján tudható, hogy ezekkel a sorsjegyekkel hosszú távon a befektetett pénz nagyjából 62-65%-át nyerjük csak vissza – azaz a pénzünk egyharmadát elveszítjük!

Mint az összes gondolkodásbeli torzításnak, a fent vázoltnak is az ember működésébe mélyen beágyazott gyökerei vannak – nyilván alapjában véve lineárisan gondolkodunk; ez az alapállás pedig igencsak kedvez a kis mintákból való téves következtetések levonásának… (És természetesen egy nagy minta sem garantál biztos alapot az általánosításhoz – ahhoz a mintának minőségbeli követelményeknek is meg kell felelnie, nem csak a mennyiség kell, hogy stimmeljen.) Mindenesetre érdemes tudatában lenni annak, hogy kevésszámú tapasztalat alapján nem érdemes hosszútávú következtetéseket levonni!

A kapcsolódások szépek!

Most került elő a gépemről ez a pár évvel ezelőtti adatvizualizáció, amit egy workshop keretében készítettem. A workshop Barabási Albert László művészekkel foglalkozó projektjének része volt; a cél a magyar képzőművészek kapcsolatainak hálózatban való megjelenítése volt. Az ábrán egy konkrét képzőművésznő, és a vele valaha is együtt dolgozó művészek kapcsolódásai láthatóak; természetesen ez csak egy kis része lett a teljes képnek; a workshopon minden résztvevő egy képzőművész kapcsolati hálóját készítette el, és később ezek összekötéséből jött létre a kiállított mű. Izgalmas, és szép projekt volt.

Ha bővebben érdekel, itt tudsz róla olvasni!

Regressziós együtthatók és a standardizált változatuk SPSS-ben

A statisztikában néha problémát okoz a különböző változók eltérő léptéke, mértékegysége. Így van ez a lineáris regressziónál is, ha több magyarázó változót vonunk a modellbe, amelyeknek eltérő a skálázása – ez azt eredményezi, hogy a regressziós együtthatókat nem tudjuk közvetlenül összehasonlítani.

Hiába derítettük ki például, hogy a csontsűrűséget átlagosan 0,2 egységgel növeli, ha 1 decivel több tejet iszunk naponta, és 0,4 egységgel, ha 100 grammal több sajtot fogyasztunk – nem mondhatjuk, hogy a tejfogyasztásnál a sajtfogyasztás kétszer nagyobb hatással van a csontsűrűségre, hiszen a tejet és a sajtot nem azonos mértékegységekkel mértük. Erre a problémára megoldást jelenthet valahogy összehangolni a sajt- és tejfogyasztás skálázását, mondjuk mindkettőt átváltani kalciumtartalomra; de létezik rá tisztán statisztikai módszer is – ezt pedig az SPSS lineáris regresszió outputjába szerencsére bele is építették.

A példa, amin ezt megmutatom, szimulált adatokra épül; azt „vizsgáltam” benne, hogy a félelem a negatív megítéléstől-, és a nárcisztikusság mennyiben befolyásolja a szorongást. Az outputban narancssárgával jelöltem a szokásosan értelmezendő, standardizálatlan, B együtthatókat – ezek szerint tehát a szorongás a neagtív megítéléstől való félelem 0,418 egységnyi növekedésével jár együtt; míg a nárcisztikusság egy egységnyi növekedése a szorongás 0,135 egységnyi csökkenésével (mindhárom változónál azt az eredeti mértékegységet tekintve „egységnek”, amiben eredetileg mértük őket).

Viszont ha szeretnénk valamit megállapítani a két magyarázó változó hatásának viszonyáról, akkor a zölddel jelölt, standardizált béta együtthatókat kell használnunk! Így tehát azt mondhatjuk, hogy a negatív megítélés nagyjából négyszer akkora (700/171), és ellentétes irányú hatással van a szorongásra, mint a nárcisztikusság.

[Két zárójeles megjegyzés: a regresszió esetében először a két együttható szignifikanciáját figyeljük, ha nincs szignifikáns hatás, magukat az együtthatókat nincs értelme firtatni – épp mert ekkor nincs hatásuk a kimeneti változóra a populációban. A második pedig, hogy a regresszióban csak akkor tudunk „hatásról”, tehát okságról beszélni, ha elméletileg is megalapozott, hogy a magyarázó változó okozza a kimenetit – ha ez nem teljesül, csak a változók „együtt járásáról” beszélhetünk.]

Szumma jel, és amire figyelni kell a használatánál

A számtani átlag és a szórás képletével szeretném bemutatni, hogyan értelmezhetőek a szummajelet tartalmazó képletek. A képek mellé magyarázatként néhány fontos dolog :

  • a szumma jel összegzést jelent (tehát gyakorlatilag sok, egymás utáni összeadást „rövidítünk”, vonunk vele össze)
  • ami a szumma jel alján és tetején van, annak szinte soha nincs a statisztikában jelentősége (ugyanis azt jelöli, hányadik elemtől hányadikig kell összeadni, és ez szinte mindig az elsőtől az utolsóig) (1. és 2. ábra)
  • aminek viszont döntő jelentősége van, hogy a képletet, ami mögötte van, SORONKÉNT kell kiszámolni, és nem először összeadni, aztán pedig kiszámolni (3.ábra)

Tehát a fenti szórásképletnél, ha pl. a minta 3 elemű (4,5,6) – így az átlaga 5, a műveleti sorrend a következő:

-első mintaelem-átlag: ez itt most 4-5

-ezt négyzetre emeljük

-ugyanezt megcsináljuk az 5-tel és a 6-tal is

-majd az így kapott három értéket összeadjuk, és utána megyünk tovább az osztással, végül a gyökvonással

Bízom benne, hogy ez a poszt segít a képletek értelmezésében!

Rövid, de hasznos – egyszerre több grafikon SPSS-ben

Rövid, de hasznos – átlag helyett medián

Köszönjük WordPress & A sablon szerzője: Anders Norén