…a statisztika ugyanis konkrétan egy külön szakma. Pszichológusoktól, orvosoktól, vagy neveléstudományi szakemberektől nem elvárható, hogy a statisztikához is professzionális szinten értsenek – hiszen az egy másik tudományág! Sajnos azonban a gyakorlat azt mutatja, hogy sok felsőoktatási intézményben mégis ezt az irreális elvárást támasztják a hallgatókkal szemben, ha korábban nem, a szakdolgozat statisztikai részének összeállításánál biztosan.
Ráadásul a statisztikát a legtöbb helyen nem is tanítják igazán jól, amiből az következik, hogy gyakran érthetetlen, mi is az egésznek a lényege. Például hogy miért kell hipotézisvizsgálat ahhoz, hogy eldöntsük, két átlag között van -e eltérés, mikor szemmel látható, hogy van? Szintén ki szokott maradni a képletekben használt jelölések ismertetése; pedig gyakran a képletek egy egész feladaton végigvezetnek, és segítenek abban is, hogy a számolási lépéseken helyes sorrendben haladjunk végig…
Sőt, már régóta kutatóként dolgozó szakembereknek is lehetnek fehér foltok a tudásában; hiszen egy kutatás felépítése és kivitelezése, majd az eredmények értelmezése nagyon összetett feladat, és egyáltalán nem biztos, hogy az előzetes tanulmányai során megfelelő felkészítést kapott az ilyen jellegű kihívások kezelésére az illető.
Tapasztalt statisztika magántanárként (15 éve magyarázok szinte nap- mint nap szignifikanciáról, anováról, normál-eloszlásról, korrelációkról, konfidencia-intervallumokról lelkes, és kevésbé lelkes tanítványoknak) pontosan tudom, mi az, amit a legtöbb egyetemen és főiskolán teljesíteni kell statisztikából. Azt is tudom, hogy mi az, amire már egy kutatás nulladik pillanatában érdemes figyelni, és mik azok a döntési pontok, ahol félrecsúszhat egy kutatás. És, bár én imádom a statisztikát, azzal is tisztában vagyok, hogy nem mindenki van ezzel így. Bízom benne, hogy a te, statisztikával kapcsolatos problémáidon is tudok segíteni, így ha szeretnél órára jelentkezni, vagy kérdésed van, vedd fel velem a kapcsolatot!
Az egyik kedvenc szakmai feladatom a skálavalidálás. Ilyenkor tulajdonképpen statisztikai módszerekkel bizonyítjuk, hogy egy mérőeszköz valóban azt méri, amit mérni szeretnénk vele.
Erre egy új, frissen kialakított skála esetében lehet szükség; vagy pedig egy olyan skála esetében, amit nemzetközi szinten ismernek és használnak, magyar mintán viszont még nem igazoltuk, hogy megfelelően működik.
Ilyen például az imposztor-szindrómát mérő skála, aminek magyar nyelvű verziójának a validálását éppen most végezzük. Most nem ennek a részleteiről szeretnék írni, hanem arról, hogy ha bármilyen kérdőívben bármit is mérni szeretnél, miért érdemes már validált skálát használni.
Röviden: sokkal komolyabban vehető, szakmailag hitelesebb, és magasabb a presztízse. Ezért azt javaslom, hogy ha akár csak egy beadandóban, pláne a szakdolgozatodban az adatgyűjtést skálák lekérdezésével végzed, akkor ezek a skálák legyenek validáltak.
Valahogy úgy alakul a hierarchia, hogy legjobb, ha azon a populáción validált a skála, ahol a tanulmányaidat folytatod (ha magyar egyetemre jársz, keress magyar mintán validált skálát; ha a holland felsőoktatásban tanulsz, holland mintán validáltat). Ha erre nincs lehetőség, akkor olyat, amit egy olyan országban validáltak, ami tudományos szempontból magas presztízzsel bír; ha ilyet sem találsz, akkor válassz olyan mérőeszközt, amit mások már használtak egy publikációban (nyilván a presztízs itt is szempont, semmiképpen ne az Ezoterika magazinra támaszkodj). Ha pedig olyasmit szeretnél mérni, amire semmiféle, mások által már használt skála nem létezik – csak ebben az esetben állíts össze te magad kérdőívet az adott jelenség felmérésére.
Erre egy rövid szemléltetés; a legalsó sorban nyilvánvalóan van összefüggés a két változó között (mivel az adatpontok egyértelműen mintázatba rendeződnek); azonban mivel az összefüggés nem lineáris, a lineáris korrelációs együttható nem képes kimutatni:
Így aztán a használata előtt mindenképpen érdemes ellenőrizni, hogy a kapcsolat lineáris -e. Ahhoz, hogy lineárisnak mondhassuk, nem szükséges egyértelműen egy egyenesre rendeződniük az adatpontoknak; a képen látható, legfelső sorbeli mintázatok mind megfelelnek a feltételnek!
Egy kis csapat tagjaként részt veszek egy olyan kérdőív fejlesztésében, amely, magyar viszonylatban egyedülálló módon, képes lesz kimutatni, jellemző -e valakire az imposztor szindróma.
Ezen a linken már meg is találod a kérdőívet; a kitöltésével két dolgot is nyerhetsz: egyrészt Budapest Park utalványt 10ezer forint értékben; másrészt azt a boldog tudatot, hogy hozzájárultál a tudomány fejlődéséhez!
A kitöltéshez katt a képre; a kutatás részletesebb honlapját pedig itt találod!
Statisztikai tanulmányaink során jellemzően olyankor kerülnek szóba a mérési szintek, amikor még nem nagyon tudjuk mihez kötni őket. Nem segíti a megértési folyamatot az sem, hogy a skálák mérési szintjei azután összemosódnak a változók típusaival; és ez nem is csoda, hiszen a gyakorlatban inkább a változókkal dolgozunk, tehát ezekkel sokkal gyakrabban találkozunk. Sőt, a skálák mérési szintjeinek elnevezéseit gyakran változókategóriákként is használjuk…Mindehhez jön még az a jelenség, miszerint a változók többféleképpen is csoportosíthatók – és így válik teljessé a káosz.
Ha ebben a káoszban rendet nem is tudok tenni, azért az eligazodásban próbálok segíteni.
A mérési szintek tulajdonképpen azt jelenítik meg, hogy egy-egy adat milyen módon alakítható matematikává. A nominális szintű adatok például sehogy; ezért is nominális, azaz névleges ennek a kategóriának a neve, mert a számok, amiket az adatokhoz rendelünk, egyáltalán semmiféle matematikai jelentéssel nem bírnak. Klasszikusan például 1-es jelöli a férfiakat, 2-es a nőket; de ezeket a számértékeket nincs értelme kivonni egymásból, sem összeszorozni, ésatöbbi. Csak címkék; ennélfogva elvben felcserélhetőek más címkékre; jelölhetné mondjuk 83 a férfiakat, és 243 a nőket, mivel ezekkel az értékekkel úgysincs értelme számolni. Ugyanígy lehetne például arról gondolkodni, hogy kinek milyen háziállata van. Lehetne 1-es a kutya, 2-es a macska, és 3-as az egyéb; de a kategóriákat számozhatnánk teljesen máshogy is; legfeljebb ahhoz lenne érdemes ragaszkodni, hogy az „egyéb” kategória, mint afféle „maradék”, legyen a legutolsó számérték.
Ezzel szemben mondjuk a településkategóriákat (főváros, megyeszékhely, város, község, egyéb) nagyon furcsa lenne nem a nagyságrendjüket lekövető számokkal jelölni. Ugyanez igaz a végzettségi szintekre. Elviekben jelölhetné 4-es az általános iskolát, mint legmagasabb végzettséget, és például 2-es a mesterképzést, 1-es pedig az érettségit; de ebben az esetben nem használnánk ki a mérendő értékek közötti természetes sorrendet. Ha tehát létezik egy ilyen természetes sorrend abban az adatban, amit számszerűsíteni akarunk, érdemes ordinális, azaz sorrendi skálát használni a mérésére. Így a kategóriák jelölésére használt számok, bár továbbra sem összeadhatóak, legalább az egymásutániságot megfelelően jelölik; további példa lehet erre a típusú adatra egy úszóversenyen résztvevők beérkezési sorrendje; vagy az egymást követő időszakok beszámozása egy idősoros elemzésnél.
A következő mérési szint az intervallumskála. Ezt olyan jellegű adatok számszerűsítésére használjuk, amelyek már rendelkeznek azzal a tulajdonsággal, hogy az általuk felvehető értékek között mindig azonos a távolság. (Szemben az előző, ordinális skálával, ahol az úszóverseny első és második helyezettének ideje között egyáltalán nem biztos, hogy ugyanakkora az eltérés, mint a második és a harmadik helyezett között; ott tehát az 1-2, és a 2-3 közötti „lépéshossz” nem azonos). Az intervallumskálán, éppen mivel már azonosak az osztásközei, az összeadás és a kivonás is értelmes eredményre vezet. Klasszikusan ezzel a mérési szinttel mér a hőmérő. Nagyon is van értelme azt mondani, hogy mivel ma 18 fok van, tegnap pedig 9 volt, ma 9 fokkal melegebb van, mint tegnap. Ugyanakkor a két érték osztással való összehasonlítása, ami arra az eredményre vezetne, hogy ma kétszer olyan meleg van, mint tegnap volt, megint csak nem értelmes fogalmilag, holott matematikailag nyilván tényleg kettőt kapunk, ha a 18-at 9-cel elosztjuk. Ha szeretnénk a szorzást és az osztást is értelmessé tenni a mérés során, akkor olyan skálát kell használnunk, aminek létezik úgynevezett abszolút nulla pontja.
Emlékszem, amikor én tanultam először a mérési szintekről, ezt az abszolút nulla dolgot egyáltalán nem értettem. Ha van egy abszolút nullánk, akkor már arányskáláról beszélünk; ami a nevében is mutatja, hogy ezen a mérési szinten már oszthatunk és szorozhatunk is. Így kell mérnünk például a testmagasságot. Mondhatjuk, hogy egy 160 cm magas ember 80 centiméterrel magasabb egy 80 cm magas gyereknél; de már azt is, hogy a 160 cm magas kétszer olyan magas, mint aki 80 cm. Tehát ami matematikailag nem működik a Celsius-skálán, az működik a testmagasságnál – és a két verzió között az abszolút nulla a különbség; ez pedig nem jelent mást, minthogy olyan skálával dolgozunk, aminél a 0, mint felvett érték lehetetlen; másképpen fogalmazva az a dolog, amihez a skálán 0 érték tartozna, az nem létezik. 0 fok, mint hőmérséklet- igen, ilyen van. 0 cm magas ember nem létezik, mint ahogy 0 kg tömegű ember sem. Abban azonban megegyezik az intervallum- és az arányskála, hogy mindkettő azonos osztásközökkel rendelkezik; a gyakorlati elemzési munka során nem is nagyon teszünk különbséget a kettő között.
Az eddig sorra vett mérési szinteket mind használhatjuk egy-egy változó típusának megnevezéseként is. Tehát például a jövedelmet arányskálán mérjük (ez a mérés eszköze), és maga a jövedelem egy skála-típusú változó. A lóverseny befutójának sorrendjét ordinális-, azaz sorrendi skálán mérjük; és a változó, amivel dolgozunk, ordinális típusú. A családi állapotot nominális skálán mérjük; így a családi állapot egy nominális típusú változó.
A változóredukció témakörénél gyakran felmerül a kérdés, hogy vajon mi a különbség a főkomponens-képzés, illetve a faktorképzés között. Valóban, a két eljárás eredményében lehet nagyon hasonló – ezt szemlélteti a következő táblázat, amit a World Values Study 7.hullámának adataiból készítettem; a következő változószett kérdéseivel (mennyire tartja elfogadhatónak az alábbiakat a válaszadó):
Justifiable: Avoiding a fare on public transport Justifiable: Stealing property Justifiable: Cheating on taxes Justifiable: Someone accepting a bribe in the course of their duties Justifiable: Homosexuality Justifiable: Prostitution Justifiable: Abortion Justifiable: Divorce Justifiable: Sex before marriage Justifiable: Suicide Justifiable: Euthanasia Justifiable: Violence against other people Justifiable: Terrorism as a political, ideological or religious mean
Látható, hogy a 13 változó ugyanúgy rendeződött 3 csoportba mindkét eljárás esetén; a különbség csupán a töltésekben van – erre még visszatérünk. Matematikailag is szinte ugyanaz a folyamat zajlik a két módszer alkalmazása során; és bizonyos szempontból a céljuk is ugyanaz, sok változóból kevesebbet csinálni – vagyis adatredukciót végezni.
Szokás úgy fogalmazni, hogy a faktorelemzés során úgynevezett látens tényezőket keresünk, vagyis a változók mögötti, rejtett magyarázó változókat; míg a főkomponens elemzésnél egyszerűen csoportosítjuk az adatokat; tehát a változók csoportokba rendezésének az iránya más, ezt szemlélteti az alábbi ábra. Először azt érdemes megfigyelni, hogy a faktorelemzésnél a változók felé mutatnak a nyilacskák (jelezve ezzel, hogy egy látens, mögöttes hatótényező a rendezőelv), míg a főkomponenses ábrán a nyilacskák a változókból indulnak ki (jelezve, hogy itt a változók összevonása mögött itt nincs rejtett hatótényező):
Ez az eltérés az irányokban jól értelmezhető, ha végiggondoljuk, hogy elemzőként két célunk is lehet egy ilyen változószettel. Egyrészt törekedhetünk arra, hogy valóban csak az adatredukciót szem előtt tartva kevesebb változóba sűrítsünk minél több információt (ebből lesznek a főkomponensek). Ugyanakkor próbálkozhatunk azzal is, hogy felderítsük, milyen gondolati sémákkal, vagy attitűdökkel rendelkeznek a válaszadóink; tehát a rejtett szerkezetet szeretnénk feltárni. Ez a rejtett szerkezet az adatainkban úgy fog megmutatkozni, hogy azokra a kérdésekre, amik hasonló gondolatokat, érzéseket váltanak ki a válaszadókból, egymáshoz hasonlóbb válaszértékeket adnak. Amögött tehát, hogy az első faktorhoz a tömegközlekedésen lógás, a lopás, a kenőpénz és az adócsalás tartoznak; de a többi változó másik faktorokon van, az a jelenség húzódik meg, hogy ez a négy dolog az emberek fejében egy kategória, és ez megmutatkozik abban, hogy ezek az adatok egymással jobban egybecsengnek, mint a többi kérdésre adott válaszokkal.
És éppen ez a döntő különbség a két eljárás között: faktorelemzésnél csak a közös hatótényezők érdekelnek minket, semmi más; míg a főkomponens elemzésnél minden egyéb hatás is. Ilyen módon a faktorelemzésnél egészen fontos hatásokat is figyelmen kívül hagyhatunk; ha azok nem közösek más változókra ható tényezőkkel, akkor a mi elemzésünkben csak hibának értékelődnek, így ha még egyszer rápillantunk az előző ábrára, érdemes azt is megfigyelni, hogy csak a faktoros ábrán láthatunk hibatagokat (e betűvel, mint error) jelölve.
És íme, az az ábra, ami szintén jól szemlélteti, hogy a változókban megmutatkozó, többféle varianciából a jobb oldali, faktoros ábrán a látens változó csak a közös résszel kapcsolódik össze; míg a főkomponens elemzésnél többféle variancia is bekerül a főkomponensbe:
Térjünk vissza még a főkomponens- és faktortöltések táblázatát (kiegészítve azzal, hogy a töltések az adott faktor vagy főkomponens és a változó korrelációját mutatják). Ha figyelembe vesszük, hogy a faktorok csak a közös varianciát jelenítik meg, míg a főkomponensek minden varianciát, érthető, hogy az előbbiek értéke kisebb, mint az utóbbiaké:
Összefoglalva a rövid válasz arra, hogy melyik eljárást mikor használjuk az, hogy ha érdekel minket, milyen rejtett hatótényezők működnek egy-egy változószettben, használjuk a faktorelemzést – ebben az esetben csak a mögöttes faktorok által megmagyarázott varianciát őrizzük meg a változóredukció során.Viszont ha egyszerűen csak minél hatékonyabban akarjuk kevés változóban összevonni az eredeti változóinkat, és belőlük minél több információt megőrizni, dolgozzunk főkomponens-elemzéssel.
Sajnos van, akinek már csak akkor jut eszébe, hogy a két dolgot egyeztetni kellene, amikor már nem lehet (értsd: lekérdezte a kérdőívet, és lezárult az adatfelvétel).
És mivel a kérdéseken ilyen módon változtatni már nem lehet, a hipotéziseket kell átformálni, farigcsálni, toldozgatni – ez nyilván sok pluszmunka, megtörheti az egész szakdolgozat ritmusát, arról nem is beszélve, hogy a konzulensek nem szoktak ennek örülni (na nem mintha ők nem szólhattak volna ELŐRE, hogy valami nem stimmel…)
Mondok egy példát. Ha az egyik hipotézised az, hogy a férfiak jobban szeretnek vidámparkba járni, mint a nők, akkor ez a feltételezés két változóról szól: az egyik a nem, a másik pedig hogy mennyire szeret valaki vidámparkba járni. Azt, hogy ki milyen nemű, ritkán felejtik el megkérdezni a kérdőívben – bár találkoztam már ilyennel is, de azért a válaszok erre a kérdésre szinte mindig rendelkezésre állnak, tehát a hipotézis fogalmai közül a „nem”-et tudjuk ezzel a változóval mérni (nagyon egyszerűen: lesz hozzá egy oszlopunk az adatbázisban). Kelleni fog viszont egy olyan kérdés is, ami pontosan azt méri, amit a hipotézisbe belefogalmaztunk: tehát a vidámparkba járás kedvelésének a mértékét. Nem nagyon lesz elég egy bináris kérdés: szeret -e vidámparkba járni, mert ez esetben a hipotézisben az a szó, hogy „jobban”, nehezen lesz értelmezhető – bár ez még nem megoldhatatlan, ha a szeret/nem szeret válaszok arányát teszteljük. Viszont a „Vidámparkba szeret inkább járni, vagy uszodába?” már valami eléggé mást mér, mint amit a hipotézsiben lévő fogalom takar, a „Mikor volt legutóbb vidámparkban?” pedig teljesen mást- ámbár minden, említett kérdés a vidámparkról szól.
A két utóbbi kérdésben közös, hogy a vidámparkba járás szeretete mellett új dimenziókat, új szempontokat is a kérdésbe fogalmaznak; az első egy összehasonlítás valami mással; a második pedig az időtényezőt emeli be plusz dimenzióként.
Érdemes a „Mennyire szeret vidámparkba járni?” kérdést feltenni, tehát nyelvtanilag érdemes minél kevesebb sallanggal, a lehető legjobban lekövetni a kérdéssel a hipotézisben szereplő fogalmat.
Mindenképpen jó elkerülni azokat a kérdéseket, amik nem csak egyetlen dolgot mérnek egyszerre; ha két tényezőre is kíváncsiak vagyunk, akkor tegyünk fel inkább külön kérdéseket rájuk. Ha az érdekel, hogy ki jár szívesen vásárolni, és hogy mikor szokott az illető vásárolni, akkor ne azt kérdezzük, hogy „Szeret -e vásárolni, és ha igen, mikor?”, mondjuk a következő válaszlehetőségekkel:
-gyűlölök vásárolni járni
-utálok vásárolni
-nem szívesen megyek vásárolni
-szeretek vásárolni, hétköznap délelőttönként
-szeretek vásárolni, hétköznap délutánonként
-szeretek vásárolni, hétköznap esténként
-szeretek vásárolni, hétvégén
Amellett, hogy pontosítani kéne, minek a vásárlásáról beszélünk, ezekkel a válaszlehetőségekkel az a gond (többek között), hogy nem adnak teljesértékű adatokat a két kérdésünkre: hogy szeret -e vásárolni (erre még csak-csak); de arról, hogy mikor szokott vásárolni járni, csak a vásárolni szeretőket sikerült megkérdeznünk… Vegyük inkább külön a két kérdést; az adatelemzésnél könnyebb dolgunk lesz, mert nem kell szétszedegetünk egy változóból a két fogalmat, és mert nem utólag derül ki, hogy ami igazán érdekel, arra egyszerűen nincs adatunk.
Alig néhány perccel azután, hogy a facebook-oldalamon megosztottam ezt a grafikont, két kérdést is kaptam hozzá kapcsolódóan. A kettő közül az, amelyikre röviden tudtam válaszolni, így hangzott, idézem: „milyen állat a corn?” (megfejtés: kígyó).
A másik viszont hosszasabb kifejtést igényel, nevezetesen hogy miért nem konkrét átlagértékeket látunk a grafikonon; vajon miért van minden állat mellett egy szakasz?
Lépjünk néhányat vissza, és nézzük meg, hogyan lehet a kérdésre válaszolni: átlagosan meddig él egy házimacska? Nyilván adatokat kell gyűjtenünk konkrét macskák élettartamáról (hogy ezt hogyan, mikor, milyen feltételekkel érdemes csinálni, most ne firtassuk); a képzeletbeli kutatásunkban ugorjunk oda, amikor van egy, mondjuk 100 adatot tartalmazó adatbázisunk macskák életéveinek számával.
Az első lépés nyilván az lesz, hogy átlagot számolunk a 100 értékből; legyen mondjuk ez 13,5 év. Ez a szám azonban csak a 100, a mintánkban szereplő cicáról mond el valamit – minket viszont általánosságban érdekelne, meddig élnek a macskák.
Ha a mintából az összes cica élettartamára következtetünk, akkor statisztikai terminológiával élve becslést végzünk. Ehhez kell némi bátorság előzetes tudás, de ha nagyon egyszerűen gondolkodunk, mondhatjuk, hogy mivel a minta átlaga 13,5; az összes cica, akire a becslés vonatkozik, átlagosan 13,5 évet fog élni. Sőt, csak egy átlag birtokában ennél sokkal jobb értéket nem is tudunk kijelölni az összes cica életkorára; hiszen indokolatlan lenne mondjuk 13, vagy 16 évet mondani, ha egyszer a minta átlaga 13,5 lett.
Viszont, hála a valószínűségszámítás és a matematikai statisztika csodálatos módszertanának, ennél azért tovább is tudunk menni. Számszerűsíteni lehet ugyanis azt, hogy bizonyos keretek között mekkora hibára lehet számítani amiatt, hogy egy mintából következtetünk egy sokkal nagyobb elemszámú, vagy éppen végtelen elemszámú sokaságra (más szóval populációra). Ezt a kalkulált hibát (tegyük fel, ez 1,5 év a példánkban) pedig arra tudjuk használni, hogy a 13,5 átlagot korrigáljuk vele. Ha kivonjuk az átlagból a hibát, majd hozzá is adjuk, egy olyan intervallumot kapunk, amiben minden cica átlagos életkora (egy bizonyos, előre meghatározott megbízhatósággal) benne van; nem pedig csak azé a százé, aki a mintába került. Egészen konkrétan ebben a példában a cicák átlagos élettartamának pontbecslése 13,5 év; intervallumbecslése pedig a 12 és 15 év közötti intervallum, jelöléssel: [12;15] – és, visszatérve a kiinduló kérdésünkre, ezt látjuk tól-ig a grafikonon.
Ha tudok a vizsgára készülésben, beadandók elkészítésében, a kutatásod megtervezésében, vagy elemzésben segíteni, vedd fel velem a kapcsolatot!
(A képen szeretett Katie cicánk, aki sajnos csak 14 évet élt.)
A „small sample bias” egy olyan gondolkodásbeli torzítás, amely során egy kis mintából általános érvényű következtetést vonunk le – például amikor ugyanabban a boltban velünk már másodszor undok az eladó, és ezért elhatározzuk, többé nem vásárolunk ott.
A kis mintanagyság (jelen esetben a 2 darab vásárlás) nagyon erősen kitett a szélsőséges értékeknek; míg egy nagyobb mintánál az extrém kicsi-, és az extrém nagy értékek nagyjából ki tudják egymást egyensúlyozni. Ez nem jelenti azt, hogy ha százszor térnénk be a boltba, akkor szükségszerűen azt tapasztalnánk, hogy ugyanannyiszor undok-, mint ahányszor kedves az eladó – ez csak akkor történne így, ha ő valójában egy kiegyensúlyozott személy lenne, és a hangulatai csak a véletlen hatására változnának. Száz vásárlás során azt is észrevehetnénk, hogy valóban jóval többször undok, mint kedves; de ez, a nagyobb elemszám miatt, már egy jobban általánosítható minta lenne, és ez esetben érdemes lenne tényleg elkerülni a boltot a továbbiakban. Az is előfordulhatna, hogy száz vásárlás után felülírnánk az első kettő során kialakított meggyőződésünket, mert az eladó jóval többször lenne kedves, mint nem. Két vásárlásból azonban azért nem érdemes általános következtetést levonni, mert a kétszer ismétlődő undokság könnyen lehet egyszerűen a véletlen műve – például hogy mindkét alkalommal szerencsétlen módon egy kivételesen hepciás vásárló került éppen elénk a sorban, és ettől az eladó is idegesebb lett. (Ez persze nem azt jelenti, hogy az egyik vásárló által keltett belső feszültséget rendben van a következőn leverni, de ez sajnos elég gyakran megtörténik – itt találsz néhány taktikát, hogy kezeld a hasonló helyzeteket.)
Ugyanígy ha például kedved támadna kaparós sorsjegyekkel próbára tenni a szerencsédet, nem érdemes néhány, kezdetben kiválasztott, nyerő sorsjegy után általánosítani. Abból, hogy mondjuk az első 10 sorsjegyből 8 nyert, egyáltalán nem következik, hogy ha 100 darabot veszel, 80 nyertes szelvénnyel alapozhatod meg a jövőbeli anyagi biztonságodat – mert az első 10 alapján nem lehet az összesre következtetni! (És persze az sem mindegy, a nyertesekkel mennyi pénzt nyernél…) Sőt, egy 2019-es statisztika alapján tudható, hogy ezekkel a sorsjegyekkel hosszú távon a befektetett pénz nagyjából 62-65%-át nyerjük csak vissza – azaz a pénzünk egyharmadát elveszítjük!
Mint az összes gondolkodásbeli torzításnak, a fent vázoltnak is az ember működésébe mélyen beágyazott gyökerei vannak – nyilván alapjában véve lineárisan gondolkodunk; ez az alapállás pedig igencsak kedvez a kis mintákból való téves következtetések levonásának… (És természetesen egy nagy minta sem garantál biztos alapot az általánosításhoz – ahhoz a mintának minőségbeli követelményeknek is meg kell felelnie, nem csak a mennyiség kell, hogy stimmeljen.) Mindenesetre érdemes tudatában lenni annak, hogy kevésszámú tapasztalat alapján nem érdemes hosszútávú következtetéseket levonni!