Startpagina / Samenvattingen / Psychological Testing History, Principles, and Applications / item-schaal-index

Validiteit en Testconstructie - Testconstructie

32 belangrijke vragen over Validiteit en Testconstructie - Testconstructie

Wat zijn de 6 stappen van testconstructie?

1. Definitie van test

2. Schalingsmethode selecteren

3. Items maken

4. Items testen

5. Herschrijven

6. Publicatie

Wat zijn de 6 stappen die doorlopen moeten worden bij testconstructie?

Definiëren test (doel vaststellen): bepalen meetpretentie
Keuze schalingsmethode
Itemconstructie
Item analyse (items testen): kwaliteit van items optimaliseren (items aanpassen, verwijderen, nieuwe toevoegen)
Test herzien
Cross-validatie en publicatie

Wat is "ranking of experts" 8representatieve schlingsmethode)?

Door experts opgestelde rangordening van symptomen

(Glasgow Coma scale)

Welk niveau van meetschaal en welke schalingsmethode heeft de expert rangordening? En wat houdt het precies in?

Tussen ordinaal en interval in (aan de rankings kunnen nummers verbonden worden)
Criterion-centered
Cumulatief: bij een ranking van 2 wordt er vanuit gegaan dat voldaan wordt aan 1

Verschillende experts beoordelen de toestand van een patiënt door bv. het openen van de ogen bij toestand in coma:

Niet
Bij pijn
Bij spraak
Spontaan

Wat is "method of equal-appearing intervals" (Thurstone)?

11 categorieen door experts ingedeeld -->interval

naar M en SD kijken van expertenbeoordeling

Welk niveau van meetschaal en welke schalingsmethode heeft de Thurstone schaal? En wat houdt het precies in?

Interval
Stimulus-centered

Methode van equal-appearing intervals:

True/false statements met positieve en negatieve attitudes
Experts elk item laten beoordelen op schaal van 1-11, bv. van niet depressief naar heel erg depressief
M en SD van elk item bepalen
Items met te grote SD verwijderen (geen eenduidigheid over wat het juiste cijfer is)
Van de proefpersonen wordt de gemiddelde score (1-11) berekend van alle items waar ze het mee eens waren.

Wat is de method of absolute scaling? (Thurstone)

Vergelijken met een referentiegroep -->bv. andere leeftijdsgroep

kijken naar M + SD

Wat houdt de absolute schaal precies in? (Onbekend welke schalingsmethode)

(Ook van Thurstone)

Absolute verschillen in item-moeilijkheid meten gebaseerd op verschillende leeftijdsgroepen

Welke schalingsmethode hebben de Likert schaal en de rationele schaal? Wat houden ze precies in en waarom is de Likert schaal summatief?

Subject-centered
Likert: de scores zijn bij elkaar op te tellen = summatief
Rationele schaal: interne consistentie is belangrijk, alle items correleren met elkaar (True/false statements)

Wat is een Guttman schaal?

dichotome item --> mee eens of mee oneens

gerangschikt door experts --> geordend

ook wel COMMULATIEVE SCHAAL

Welke schalingsmethoden heeft de Guttman schaal? Waarom is dit een cumulatieve schaal?

Stimulus-centered
Cumulatieve schaal: Als je het eens bent met een statement ('Ik voel me vaak verdrietig') wordt er vanuit gegaan dat je het ook eens bent met minder sterke vormen van dat statement ('Ik voel me soms verdrietig')

Wat is "method of emperical keying" /empirische schaal?

items worden gekozen op basis van:

contrast van normatieve groep en criteriumgroep

Welke schalingsmethode heeft de empirische schaal? En wat houdt het precies in?

Criterion-centered

Niet gebaseerd op oordeel experts, maar items worden geselecteerd op hoe goed ze kunnen discrimineren tussen een criteriumgroep en een normgroep.
True/false statements: iemands raw score is het aantal items in bv. de depressieve richting.

Wat is de method of rational scaling?

positieve correlatie tussen alle schaalitems --> interne consistentie

Welke 4 eigenschappen van items moeten bepaald worden bij item analyse?

1. Moeilijkheid: Item moeilijkheidsindex (pi)
2. Discriminerend vermogen: Item discriminatie index (di). In hoeverre een item onderscheid maakt tussen individuen op een bepaald niveau van de eigenschap.
3. Betrouwbaarheid: Item betrouwbaarheidsindex
4. Validiteit: Item validiteitsindex

Wat zijn moeilijkheden bij het ontwikkelen van multiple choice vragen?

1. schrijven van goede afleidingsopties

2. tippen van goede antwoord door slechties

Wat is de item moeilijkheidsindex en wat is hiervoor een optimale index? + wat is een Item characteristic curve (ICC)?

Proportie deelnemers dat item correct heeft beantwoord (pi)
Optimaal = ong. 0.5 maar afhankelijk van doel test

Item characteristic curve (ICC): beschrijft de relatie tussen waarde van de eigenschap (bv. IQ) en de kans op een bepaalde score (bv. 'goed')
Bij MC vragen ligt de optimale p hoger, want er is een bepaalde kans om het goed te hebben bij gokken > zie formule

Wat is de forced-choice methodology?

Kandidaat moet kiezen uit even aantrekkelijke mogelijke antwoorden

Waar staan U en L voor in de formule voor de item-discriminatie index:
d = (U - L) / 100

U = percentage hoogscorers (z > 1) die item goed hadden
L = percentage laagscorers (z < -1) die item goed hadden

Hoe groter d, hoe beter het item discrimineert.
Maar: Idealiter ligt d tussen de 0.3 en 0.6 + je wilt dat de onjuiste antwoordmogelijkheden even vaak gekozen worden (zowel bij hoog als bij laagscorers). Je wilt bv. niet dat onjuist antwoord d nooit gekozen wordt en onjuist antwoord e veel vaker.

Leg de formules van de item betrouwbaarheidsindex en item validiteitsindex uit: SDi x r,iT en SDi x r,iC. En hoe kan SDi berekend worden?

SDi = standaarddeviatie van itemscores. Hoe meer spreiding in scores i, hoe meer onderscheid dit item maakt tussen respondenten.

SDi = Wortel (p,i (1-p,i))

r,iT = correlatie tussen itemscore en totaalscore rest vd test
r,iC = correlatie tussen itemscore en criterium

Die 2e formule is een maat om de (criterium)validiteit van items van een test onderling te vergelijken.

Hoe heet de correlatie tussen items als zij dichotoom zijn?

point-biserial correlation coefficient (=pearson r)

--> hoe hoger de correlatie hoe beter het item

Wat houdt de item-betrouwbaarheids-intex in?

Si= standaarddeviatie van item

r= correlatie van item met totale score (interne consistentie)

Wat is het nut van de item-betrouwbaarheids-index?

uitschieters kunnen geelimineerd worden

Wat hoort bij de item-validiteits-index?

Ric= correlatie tussen item en schaal--> hoe hoger hoe beter

Si = standaarddeviatie van itemscores

Wat geeft de item-validiteits-index aan?

de voorspellende waarde van een item

Wat is de item-characterisic curve?

item-respons functie

de proportie van steekproef dat item correct heeft afgezet van totaalscore

Hoe heet de ICC normale verdeling van een item? (Item kan opgelost worde met vorm van normale verdeling)

normal ogive (cumulatieve vorm van normaalverdeling)

Wat is de item-disciminatie-index?

efficientie van item dat onderschied makt tussen personen die goed zijn en slecht zijn

Wat voor een item-disciminatie-index is het beste?

een positieve dicht bij 1

Wat is validiteits shrinkage?

vorm van crossvalidatie

slchetere voorspelling met nieuwe steekproef dan met originele

Waar worden de technischen date van een test gepubliceerd?

technical manual

Wat is het user's manual?

instucties geven aan gebruiker hoe de test gebruikt en geinterpreteerd moet worden

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

Psychological Testing History, Principles, and Applications | 9780205959273 | Robert J Gregory

Bekijk samenvatting

Een unieke studie- en oefentool
Nooit meer iets twee keer studeren
Haal de cijfers waar je op hoopt
100% zeker alles onthouden

Onthoud sneller, leer beter. Wetenschappelijk bewezen.