oktatás, elemzés, kutatástervezés

Kategória: Egyéb kategória 1 / 3 oldal

Készíts SPSS-ben tipológiát!

Főkomponens vagy faktor legyen? – hosszabb és rövidebb válasz

A változóredukció témakörénél gyakran felmerül a kérdés, hogy vajon mi a különbség a főkomponens-képzés, illetve a faktorképzés között. Valóban, a két eljárás eredményében lehet nagyon hasonló – ezt szemlélteti a következő táblázat, amit a World Values Study 7.hullámának adataiból készítettem; a következő változószett kérdéseivel (mennyire tartja elfogadhatónak az alábbiakat a válaszadó):

Justifiable: Avoiding a fare on public transport
Justifiable: Stealing property
Justifiable: Cheating on taxes
Justifiable: Someone accepting a bribe in the course of their duties
Justifiable: Homosexuality
Justifiable: Prostitution
Justifiable: Abortion
Justifiable: Divorce
Justifiable: Sex before marriage
Justifiable: Suicide
Justifiable: Euthanasia
Justifiable: Violence against other people
Justifiable: Terrorism as a political, ideological or religious mean

Látható, hogy a 13 változó ugyanúgy rendeződött 3 csoportba mindkét eljárás esetén; a különbség csupán a töltésekben van – erre még visszatérünk. Matematikailag is szinte ugyanaz a folyamat zajlik a két módszer alkalmazása során; és bizonyos szempontból a céljuk is ugyanaz, sok változóból kevesebbet csinálni – vagyis adatredukciót végezni.

Szokás úgy fogalmazni, hogy a faktorelemzés során úgynevezett látens tényezőket keresünk, vagyis a változók mögötti, rejtett magyarázó változókat; míg a főkomponens elemzésnél egyszerűen csoportosítjuk az adatokat; tehát a változók csoportokba rendezésének az iránya más, ezt szemlélteti az alábbi ábra. Először azt érdemes megfigyelni, hogy a faktorelemzésnél a változók felé mutatnak a nyilacskák (jelezve ezzel, hogy egy látens, mögöttes hatótényező a rendezőelv), míg a főkomponenses ábrán a nyilacskák a változókból indulnak ki (jelezve, hogy itt a változók összevonása mögött itt nincs rejtett hatótényező):

Ez az eltérés az irányokban jól értelmezhető, ha végiggondoljuk, hogy elemzőként két célunk is lehet egy ilyen változószettel. Egyrészt törekedhetünk arra, hogy valóban csak az adatredukciót szem előtt tartva kevesebb változóba sűrítsünk minél több információt (ebből lesznek a főkomponensek). Ugyanakkor próbálkozhatunk azzal is, hogy felderítsük, milyen gondolati sémákkal, vagy attitűdökkel rendelkeznek a válaszadóink; tehát a rejtett szerkezetet szeretnénk feltárni. Ez a rejtett szerkezet az adatainkban úgy fog megmutatkozni, hogy azokra a kérdésekre, amik hasonló gondolatokat, érzéseket váltanak ki a válaszadókból, egymáshoz hasonlóbb válaszértékeket adnak. Amögött tehát, hogy az első faktorhoz a tömegközlekedésen lógás, a lopás, a kenőpénz és az adócsalás tartoznak; de a többi változó másik faktorokon van, az a jelenség húzódik meg, hogy ez a négy dolog az emberek fejében egy kategória, és ez megmutatkozik abban, hogy ezek az adatok egymással jobban egybecsengnek, mint a többi kérdésre adott válaszokkal.

És éppen ez a döntő különbség a két eljárás között: faktorelemzésnél csak a közös hatótényezők érdekelnek minket, semmi más; míg a főkomponens elemzésnél minden egyéb hatás is. Ilyen módon a faktorelemzésnél egészen fontos hatásokat is figyelmen kívül hagyhatunk; ha azok nem közösek más változókra ható tényezőkkel, akkor a mi elemzésünkben csak hibának értékelődnek, így ha még egyszer rápillantunk az előző ábrára, érdemes azt is megfigyelni, hogy csak a faktoros ábrán láthatunk hibatagokat (e betűvel, mint error) jelölve.

A képhez tartozó alt jellemző üres; image.png a fájlnév

És íme, az az ábra, ami szintén jól szemlélteti, hogy a változókban megmutatkozó, többféle varianciából a jobb oldali, faktoros ábrán a látens változó csak a közös résszel kapcsolódik össze; míg a főkomponens elemzésnél többféle variancia is bekerül a főkomponensbe:

Térjünk vissza még a főkomponens- és faktortöltések táblázatát (kiegészítve azzal, hogy a töltések az adott faktor vagy főkomponens és a változó korrelációját mutatják). Ha figyelembe vesszük, hogy a faktorok csak a közös varianciát jelenítik meg, míg a főkomponensek minden varianciát, érthető, hogy az előbbiek értéke kisebb, mint az utóbbiaké:

Összefoglalva a rövid válasz arra, hogy melyik eljárást mikor használjuk az, hogy ha érdekel minket, milyen rejtett hatótényezők működnek egy-egy változószettben, használjuk a faktorelemzést – ebben az esetben csak a mögöttes faktorok által megmagyarázott varianciát őrizzük meg a változóredukció során.Viszont ha egyszerűen csak minél hatékonyabban akarjuk kevés változóban összevonni az eredeti változóinkat, és belőlük minél több információt megőrizni, dolgozzunk főkomponens-elemzéssel.

Egy extra fontos szabály: amit mérni akarsz, arra tegyél fel kérdést

Sajnos van, akinek már csak akkor jut eszébe, hogy a két dolgot egyeztetni kellene, amikor már nem lehet (értsd: lekérdezte a kérdőívet, és lezárult az adatfelvétel).

És mivel a kérdéseken ilyen módon változtatni már nem lehet, a hipotéziseket kell átformálni, farigcsálni, toldozgatni – ez nyilván sok pluszmunka, megtörheti az egész szakdolgozat ritmusát, arról nem is beszélve, hogy a konzulensek nem szoktak ennek örülni (na nem mintha ők nem szólhattak volna ELŐRE, hogy valami nem stimmel…)

Mondok egy példát. Ha az egyik hipotézised az, hogy a férfiak jobban szeretnek vidámparkba járni, mint a nők, akkor ez a feltételezés két változóról szól: az egyik a nem, a másik pedig hogy mennyire szeret valaki vidámparkba járni. Azt, hogy ki milyen nemű, ritkán felejtik el megkérdezni a kérdőívben – bár találkoztam már ilyennel is, de azért a válaszok erre a kérdésre szinte mindig rendelkezésre állnak, tehát a hipotézis fogalmai közül a „nem”-et tudjuk ezzel a változóval mérni (nagyon egyszerűen: lesz hozzá egy oszlopunk az adatbázisban). Kelleni fog viszont egy olyan kérdés is, ami pontosan azt méri, amit a hipotézisbe belefogalmaztunk: tehát a vidámparkba járás kedvelésének a mértékét. Nem nagyon lesz elég egy bináris kérdés: szeret -e vidámparkba járni, mert ez esetben a hipotézisben az a szó, hogy „jobban”, nehezen lesz értelmezhető – bár ez még nem megoldhatatlan, ha a szeret/nem szeret válaszok arányát teszteljük. Viszont a „Vidámparkba szeret inkább járni, vagy uszodába?” már valami eléggé mást mér, mint amit a hipotézsiben lévő fogalom takar, a „Mikor volt legutóbb vidámparkban?” pedig teljesen mást- ámbár minden, említett kérdés a vidámparkról szól.

A két utóbbi kérdésben közös, hogy a vidámparkba járás szeretete mellett új dimenziókat, új szempontokat is a kérdésbe fogalmaznak; az első egy összehasonlítás valami mással; a második pedig az időtényezőt emeli be plusz dimenzióként.

Érdemes a „Mennyire szeret vidámparkba járni?” kérdést feltenni, tehát nyelvtanilag érdemes minél kevesebb sallanggal, a lehető legjobban lekövetni a kérdéssel a hipotézisben szereplő fogalmat.

Mindenképpen jó elkerülni azokat a kérdéseket, amik nem csak egyetlen dolgot mérnek egyszerre; ha két tényezőre is kíváncsiak vagyunk, akkor tegyünk fel inkább külön kérdéseket rájuk. Ha az érdekel, hogy ki jár szívesen vásárolni, és hogy mikor szokott az illető vásárolni, akkor ne azt kérdezzük, hogy „Szeret -e vásárolni, és ha igen, mikor?”, mondjuk a következő válaszlehetőségekkel:

-gyűlölök vásárolni járni

-utálok vásárolni

-nem szívesen megyek vásárolni

-szeretek vásárolni, hétköznap délelőttönként

-szeretek vásárolni, hétköznap délutánonként

-szeretek vásárolni, hétköznap esténként

-szeretek vásárolni, hétvégén

Amellett, hogy pontosítani kéne, minek a vásárlásáról beszélünk, ezekkel a válaszlehetőségekkel az a gond (többek között), hogy nem adnak teljesértékű adatokat a két kérdésünkre: hogy szeret -e vásárolni (erre még csak-csak); de arról, hogy mikor szokott vásárolni járni, csak a vásárolni szeretőket sikerült megkérdeznünk… Vegyük inkább külön a két kérdést; az adatelemzésnél könnyebb dolgunk lesz, mert nem kell szétszedegetünk egy változóból a két fogalmat, és mert nem utólag derül ki, hogy ami igazán érdekel, arra egyszerűen nincs adatunk.

Pontbecslés vs. intervallumbecslés – hogy mondjunk általánosságban valamit arról, meddig élnek a háziállatok?

Alig néhány perccel azután, hogy a facebook-oldalamon megosztottam ezt a grafikont, két kérdést is kaptam hozzá kapcsolódóan. A kettő közül az, amelyikre röviden tudtam válaszolni, így hangzott, idézem: „milyen állat a corn?” (megfejtés: kígyó).

A másik viszont hosszasabb kifejtést igényel, nevezetesen hogy miért nem konkrét átlagértékeket látunk a grafikonon; vajon miért van minden állat mellett egy szakasz?

Lépjünk néhányat vissza, és nézzük meg, hogyan lehet a kérdésre válaszolni: átlagosan meddig él egy házimacska? Nyilván adatokat kell gyűjtenünk konkrét macskák élettartamáról (hogy ezt hogyan, mikor, milyen feltételekkel érdemes csinálni, most ne firtassuk); a képzeletbeli kutatásunkban ugorjunk oda, amikor van egy, mondjuk 100 adatot tartalmazó adatbázisunk macskák életéveinek számával.

Az első lépés nyilván az lesz, hogy átlagot számolunk a 100 értékből; legyen mondjuk ez 13,5 év. Ez a szám azonban csak a 100, a mintánkban szereplő cicáról mond el valamit – minket viszont általánosságban érdekelne, meddig élnek a macskák.

Ha a mintából az összes cica élettartamára következtetünk, akkor statisztikai terminológiával élve becslést végzünk. Ehhez kell némi bátorság előzetes tudás, de ha nagyon egyszerűen gondolkodunk, mondhatjuk, hogy mivel a minta átlaga 13,5; az összes cica, akire a becslés vonatkozik, átlagosan 13,5 évet fog élni. Sőt, csak egy átlag birtokában ennél sokkal jobb értéket nem is tudunk kijelölni az összes cica életkorára; hiszen indokolatlan lenne mondjuk 13, vagy 16 évet mondani, ha egyszer a minta átlaga 13,5 lett.

Viszont, hála a valószínűségszámítás és a matematikai statisztika csodálatos módszertanának, ennél azért tovább is tudunk menni. Számszerűsíteni lehet ugyanis azt, hogy bizonyos keretek között mekkora hibára lehet számítani amiatt, hogy egy mintából következtetünk egy sokkal nagyobb elemszámú, vagy éppen végtelen elemszámú sokaságra (más szóval populációra). Ezt a kalkulált hibát (tegyük fel, ez 1,5 év a példánkban) pedig arra tudjuk használni, hogy a 13,5 átlagot korrigáljuk vele. Ha kivonjuk az átlagból a hibát, majd hozzá is adjuk, egy olyan intervallumot kapunk, amiben minden cica átlagos életkora (egy bizonyos, előre meghatározott megbízhatósággal) benne van; nem pedig csak azé a százé, aki a mintába került. Egészen konkrétan ebben a példában a cicák átlagos élettartamának pontbecslése 13,5 év; intervallumbecslése pedig a 12 és 15 év közötti intervallum, jelöléssel: [12;15] – és, visszatérve a kiinduló kérdésünkre, ezt látjuk tól-ig a grafikonon.

Ha tudok a vizsgára készülésben, beadandók elkészítésében, a kutatásod megtervezésében, vagy elemzésben segíteni, vedd fel velem a kapcsolatot!

(A képen szeretett Katie cicánk, aki sajnos csak 14 évet élt.)

Small sample bias/fallacy – avagy sorsjegykaparásból aligha leszünk milliomosok

A „small sample bias” egy olyan gondolkodásbeli torzítás, amely során egy kis mintából általános érvényű következtetést vonunk le – például amikor ugyanabban a boltban velünk már másodszor undok az eladó, és ezért elhatározzuk, többé nem vásárolunk ott.

A kis mintanagyság (jelen esetben a 2 darab vásárlás) nagyon erősen kitett a szélsőséges értékeknek; míg egy nagyobb mintánál az extrém kicsi-, és az extrém nagy értékek nagyjából ki tudják egymást egyensúlyozni. Ez nem jelenti azt, hogy ha százszor térnénk be a boltba, akkor szükségszerűen azt tapasztalnánk, hogy ugyanannyiszor undok-, mint ahányszor kedves az eladó – ez csak akkor történne így, ha ő valójában egy kiegyensúlyozott személy lenne, és a hangulatai csak a véletlen hatására változnának. Száz vásárlás során azt is észrevehetnénk, hogy valóban jóval többször undok, mint kedves; de ez, a nagyobb elemszám miatt, már egy jobban általánosítható minta lenne, és ez esetben érdemes lenne tényleg elkerülni a boltot a továbbiakban. Az is előfordulhatna, hogy száz vásárlás után felülírnánk az első kettő során kialakított meggyőződésünket, mert az eladó jóval többször lenne kedves, mint nem. Két vásárlásból azonban azért nem érdemes általános következtetést levonni, mert a kétszer ismétlődő undokság könnyen lehet egyszerűen a véletlen műve – például hogy mindkét alkalommal szerencsétlen módon egy kivételesen hepciás vásárló került éppen elénk a sorban, és ettől az eladó is idegesebb lett. (Ez persze nem azt jelenti, hogy az egyik vásárló által keltett belső feszültséget rendben van a következőn leverni, de ez sajnos elég gyakran megtörténik – itt találsz néhány taktikát, hogy kezeld a hasonló helyzeteket.)

Ugyanígy ha például kedved támadna kaparós sorsjegyekkel próbára tenni a szerencsédet, nem érdemes néhány, kezdetben kiválasztott, nyerő sorsjegy után általánosítani. Abból, hogy mondjuk az első 10 sorsjegyből 8 nyert, egyáltalán nem következik, hogy ha 100 darabot veszel, 80 nyertes szelvénnyel alapozhatod meg a jövőbeli anyagi biztonságodat – mert az első 10 alapján nem lehet az összesre következtetni! (És persze az sem mindegy, a nyertesekkel mennyi pénzt nyernél…) Sőt, egy 2019-es statisztika alapján tudható, hogy ezekkel a sorsjegyekkel hosszú távon a befektetett pénz nagyjából 62-65%-át nyerjük csak vissza – azaz a pénzünk egyharmadát elveszítjük!

Mint az összes gondolkodásbeli torzításnak, a fent vázoltnak is az ember működésébe mélyen beágyazott gyökerei vannak – nyilván alapjában véve lineárisan gondolkodunk; ez az alapállás pedig igencsak kedvez a kis mintákból való téves következtetések levonásának… (És természetesen egy nagy minta sem garantál biztos alapot az általánosításhoz – ahhoz a mintának minőségbeli követelményeknek is meg kell felelnie, nem csak a mennyiség kell, hogy stimmeljen.) Mindenesetre érdemes tudatában lenni annak, hogy kevésszámú tapasztalat alapján nem érdemes hosszútávú következtetéseket levonni!

A kapcsolódások szépek!

Most került elő a gépemről ez a pár évvel ezelőtti adatvizualizáció, amit egy workshop keretében készítettem. A workshop Barabási Albert László művészekkel foglalkozó projektjének része volt; a cél a magyar képzőművészek kapcsolatainak hálózatban való megjelenítése volt. Az ábrán egy konkrét képzőművésznő, és a vele valaha is együtt dolgozó művészek kapcsolódásai láthatóak; természetesen ez csak egy kis része lett a teljes képnek; a workshopon minden résztvevő egy képzőművész kapcsolati hálóját készítette el, és később ezek összekötéséből jött létre a kiállított mű. Izgalmas, és szép projekt volt.

Ha bővebben érdekel, itt tudsz róla olvasni!

Regressziós együtthatók és a standardizált változatuk SPSS-ben

A statisztikában néha problémát okoz a különböző változók eltérő léptéke, mértékegysége. Így van ez a lineáris regressziónál is, ha több magyarázó változót vonunk a modellbe, amelyeknek eltérő a skálázása – ez azt eredményezi, hogy a regressziós együtthatókat nem tudjuk közvetlenül összehasonlítani.

Hiába derítettük ki például, hogy a csontsűrűséget átlagosan 0,2 egységgel növeli, ha 1 decivel több tejet iszunk naponta, és 0,4 egységgel, ha 100 grammal több sajtot fogyasztunk – nem mondhatjuk, hogy a tejfogyasztásnál a sajtfogyasztás kétszer nagyobb hatással van a csontsűrűségre, hiszen a tejet és a sajtot nem azonos mértékegységekkel mértük. Erre a problémára megoldást jelenthet valahogy összehangolni a sajt- és tejfogyasztás skálázását, mondjuk mindkettőt átváltani kalciumtartalomra; de létezik rá tisztán statisztikai módszer is – ezt pedig az SPSS lineáris regresszió outputjába szerencsére bele is építették.

A példa, amin ezt megmutatom, szimulált adatokra épül; azt „vizsgáltam” benne, hogy a félelem a negatív megítéléstől-, és a nárcisztikusság mennyiben befolyásolja a szorongást. Az outputban narancssárgával jelöltem a szokásosan értelmezendő, standardizálatlan, B együtthatókat – ezek szerint tehát a szorongás a neagtív megítéléstől való félelem 0,418 egységnyi növekedésével jár együtt; míg a nárcisztikusság egy egységnyi növekedése a szorongás 0,135 egységnyi csökkenésével (mindhárom változónál azt az eredeti mértékegységet tekintve „egységnek”, amiben eredetileg mértük őket).

Viszont ha szeretnénk valamit megállapítani a két magyarázó változó hatásának viszonyáról, akkor a zölddel jelölt, standardizált béta együtthatókat kell használnunk! Így tehát azt mondhatjuk, hogy a negatív megítélés nagyjából négyszer akkora (700/171), és ellentétes irányú hatással van a szorongásra, mint a nárcisztikusság.

[Két zárójeles megjegyzés: a regresszió esetében először a két együttható szignifikanciáját figyeljük, ha nincs szignifikáns hatás, magukat az együtthatókat nincs értelme firtatni – épp mert ekkor nincs hatásuk a kimeneti változóra a populációban. A második pedig, hogy a regresszióban csak akkor tudunk „hatásról”, tehát okságról beszélni, ha elméletileg is megalapozott, hogy a magyarázó változó okozza a kimenetit – ha ez nem teljesül, csak a változók „együtt járásáról” beszélhetünk.]

Szumma jel, és amire figyelni kell a használatánál

A számtani átlag és a szórás képletével szeretném bemutatni, hogyan értelmezhetőek a szummajelet tartalmazó képletek. A képek mellé magyarázatként néhány fontos dolog :

  • a szumma jel összegzést jelent (tehát gyakorlatilag sok, egymás utáni összeadást „rövidítünk”, vonunk vele össze)
  • ami a szumma jel alján és tetején van, annak szinte soha nincs a statisztikában jelentősége (ugyanis azt jelöli, hányadik elemtől hányadikig kell összeadni, és ez szinte mindig az elsőtől az utolsóig) (1. és 2. ábra)
  • aminek viszont döntő jelentősége van, hogy a képletet, ami mögötte van, SORONKÉNT kell kiszámolni, és nem először összeadni, aztán pedig kiszámolni (3.ábra)

Tehát a fenti szórásképletnél, ha pl. a minta 3 elemű (4,5,6) – így az átlaga 5, a műveleti sorrend a következő:

-első mintaelem-átlag: ez itt most 4-5

-ezt négyzetre emeljük

-ugyanezt megcsináljuk az 5-tel és a 6-tal is

-majd az így kapott három értéket összeadjuk, és utána megyünk tovább az osztással, végül a gyökvonással

Bízom benne, hogy ez a poszt segít a képletek értelmezésében!

Rövid, de hasznos – egyszerre több grafikon SPSS-ben

Rövid, de hasznos – átlag helyett medián

1 / 3 oldal

Köszönjük WordPress & A sablon szerzője: Anders Norén