Statisztikai elvárások

A statisztikai elvárások közül az alapvető statisztikai mutatókat minden legalább 201 vizsgázó teljesítményét együtt kezelő vizsgarész adatainak feldolgozásakor figyelembe kell venni. Ezek mellett a Klasszikus Tesztelmélet alkalmazásakor a megfigyelt pontok mutatóival, a Modern Tesztelmélet alkalmazásakor pedig a probabilisztikus módszerek mutatóival kapcsolatos elvárásoknak kell megfelelni.
A listázottakon kívüli eljárás alkalmazása esetén csatolja a számítás elvégzésével és az elfogadható értékkel kapcsolatos hivatkozást.

Alapvető statisztikai mutatók és elfogadható értékeik

mutató elfogadható értékek irodalom
megbízhatóság Cronbach-féle α ≥ 0,75 Crocker & Algina, 2006, p. 142
item diszkrimináció Dm-nm > 0 Bachman, 2004, p. 138
sorrendi korreláció rs ≥ 0,80 Nunnally & Bernstein, p. 265
értékelői egyetértés Krippendorff-féle α ≥ 0,80
Cohen-féle κ ≥ 0,61
Krippendorff, 2004, p. 241
Fulcher, 2010, p. 83

  • Az objektíven értékelt vizsgarészek megbízhatóságának legkisebb elfogadható értéke a Cronbach-féle α együttható esetében 0,75.
  • Az értékelők közötti megbízhatóság elemzése sorrendi korrelációs vizsgálattal vagy az értékelői egyetértés kiszámításával történhet. A szubjektívan értékelt vizsgarészeknél az értékelői következetesség legkisebb elfogadható értéke sorrendi korrelációs együttható esetében 0,80. A korrelációnak statisztikailag szignifikánsnak kell lennie. Az értékelő vizsgáztatók közötti egyetértés vizsgálata esetén a Krippendorff-féle α legkisebb elfogadható értéke 0,80; a Cohen-féle κ legkisebb elfogadható értéke pedig 0,61.

A megfigyelt pontok mutatói és elfogadható értékeik

mutató elfogadható értékek irodalom
item nehézség 0,70 ≥ p-érték ≥ 0,30 Fulcher, 2010, p. 182
item diszkrimináció Ebel-féle D ≥ 0,30
rpbi ≥ 0,25
Crocker & Algina, 2006, p. 315
Henning, 1987, p. 53

  • Az itemek nehézsége akkor elfogadható, ha bináris itemek esetében a helyes válaszok aránya, részpontozásos és – amennyiben elemzésre kerülnek – skálaitemek esetében pedig az átlagos pontérték 70% és 30% közötti.
  • Az itemek minőségének legkisebb elfogadható értéke az Ebel-féle diszkriminációs index esetén 0,30; pont-biszeriális korreláció esetén 0,25.
  • Az itemek nem mutathatnak eltérő itemműködést (DIF) a vizsgázók valamilyen szempontból különböző, de a képességszint tekintetében azonos populációiban.
  • A feladatok / itemek működése akkor megfelelő, ha az itemek legalább 90%-a megfelelően diszkriminál és legalább 80%-a megfelelő nehézségű.

A probabilisztikus módszerek mutatói és elfogadható értékeik

módszer elfogadható értékek irodalom
modell-teszt illeszkedés R1C : df arány ≤ 1,5 Hemker, 1996, p. 35
modell-item illeszkedés -2 ≤ Mi ≤ 2
0,5 ≤ infit MS ≤ 1,5
0,5 ≤ outfit MS ≤ 1,5
Verhelst, Glas, & Verstralen, 1995, p. 14
Wright & Linacre, 1994, p. 370
Wright & Linacre, 1994, p. 370

  • Az item-válasz elmélet csak akkor alkalmazható, ha nincs egyértelmű bizonyíték az item függetlenség elvárásával szemben.
  • Egydimenziós modell használatakor igazolni kell, hogy az összes együtt kezelt adat egy fő kompontenst ír le.
  • Globális statisztikai eljárással igazolni kell, hogy a modell nem mutat szignifikáns eltérést a teszten felvett adatok összességétől.
  • Egyedi illeszkedéspróbákkal igazolni kell, hogy a modell előrejelzése nem tér el szignifikánsan a teszten megfigyelt itemműködéstől.

Referenciák

  • Bachman, L. (2004). Statistical analyses for language assessment. Cambridge: Cambridge University Press.
  • Crocker, L., & Algina, J. (2006). Introduction to classical and modern test theory. Mason, OH: Cengage Learning.
  • Fulcher, G. (2010). Practical Language Testing. London: Hodder Education.
  • Hemker, T.B. (1996). Unidimensional IRT models for Polytomous Items, with results for Mokken scale analysis. Utrecht University, The Netherlands.
  • Henning, G. (1987). A guide to language testing: Development, evaluation and research. Cambridge, MA: Newbury House.
  • Krippendorff, K. (2004). Content analysis: An introduction to its methodology (2nd ed.). Thousand Oaks, CA: Sage.
  • Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). New York: McGraw-Hill.
  • Verhelst, N. D., Glas, C. A. W., & Verstralen, H. H. F. M. (1995). One-parameter logistic model OPLM. Arnhem: CITO.
  • Wright, B. D., & Linacre, J. M. (1994). Reasonable mean-square fit values. Rasch Measurement Transactions, 8(3), 369-370.