Validiteit en Testconstructie - Testconstructie
32 belangrijke vragen over Validiteit en Testconstructie - Testconstructie
Wat zijn de 6 stappen van testconstructie?
Wat zijn de 6 stappen die doorlopen moeten worden bij testconstructie?
- Definiëren test (doel vaststellen): bepalen meetpretentie
- Keuze schalingsmethode
- Itemconstructie
- Item analyse (items testen): kwaliteit van items optimaliseren (items aanpassen, verwijderen, nieuwe toevoegen)
- Test herzien
- Cross-validatie en publicatie
Wat is "ranking of experts" 8representatieve schlingsmethode)?
- Hogere cijfers + sneller leren
- Niets twee keer studeren
- 100% zeker alles onthouden
Welk niveau van meetschaal en welke schalingsmethode heeft de expert rangordening? En wat houdt het precies in?
- Tussen ordinaal en interval in (aan de rankings kunnen nummers verbonden worden)
- Criterion-centered
- Cumulatief: bij een ranking van 2 wordt er vanuit gegaan dat voldaan wordt aan 1
Verschillende experts beoordelen de toestand van een patiënt door bv. het openen van de ogen bij toestand in coma:
- Niet
- Bij pijn
- Bij spraak
- Spontaan
Wat is "method of equal-appearing intervals" (Thurstone)?
Welk niveau van meetschaal en welke schalingsmethode heeft de Thurstone schaal? En wat houdt het precies in?
- Interval
- Stimulus-centered
Methode van equal-appearing intervals:
- True/false statements met positieve en negatieve attitudes
- Experts elk item laten beoordelen op schaal van 1-11, bv. van niet depressief naar heel erg depressief
- M en SD van elk item bepalen
- Items met te grote SD verwijderen (geen eenduidigheid over wat het juiste cijfer is)
- Van de proefpersonen wordt de gemiddelde score (1-11) berekend van alle items waar ze het mee eens waren.
Wat is de method of absolute scaling? (Thurstone)
Wat houdt de absolute schaal precies in? (Onbekend welke schalingsmethode)
(Ook van Thurstone)
Absolute verschillen in item-moeilijkheid meten gebaseerd op verschillende leeftijdsgroepen
Welke schalingsmethode hebben de Likert schaal en de rationele schaal? Wat houden ze precies in en waarom is de Likert schaal summatief?
- Subject-centered
- Likert: de scores zijn bij elkaar op te tellen = summatief
- Rationele schaal: interne consistentie is belangrijk, alle items correleren met elkaar (True/false statements)
Wat is een Guttman schaal?
Welke schalingsmethoden heeft de Guttman schaal? Waarom is dit een cumulatieve schaal?
- Stimulus-centered
- Cumulatieve schaal: Als je het eens bent met een statement ('Ik voel me vaak verdrietig') wordt er vanuit gegaan dat je het ook eens bent met minder sterke vormen van dat statement ('Ik voel me soms verdrietig')
Wat is "method of emperical keying" /empirische schaal?
Welke schalingsmethode heeft de empirische schaal? En wat houdt het precies in?
- Criterion-centered
Niet gebaseerd op oordeel experts, maar items worden geselecteerd op hoe goed ze kunnen discrimineren tussen een criteriumgroep en een normgroep.
True/false statements: iemands raw score is het aantal items in bv. de depressieve richting.
Wat is de method of rational scaling?
Welke 4 eigenschappen van items moeten bepaald worden bij item analyse?
1. Moeilijkheid: Item moeilijkheidsindex (pi)
2. Discriminerend vermogen: Item discriminatie index (di). In hoeverre een item onderscheid maakt tussen individuen op een bepaald niveau van de eigenschap.
3. Betrouwbaarheid: Item betrouwbaarheidsindex
4. Validiteit: Item validiteitsindex
Wat zijn moeilijkheden bij het ontwikkelen van multiple choice vragen?
Wat is de item moeilijkheidsindex en wat is hiervoor een optimale index? + wat is een Item characteristic curve (ICC)?
Optimaal = ong. 0.5 maar afhankelijk van doel test
- Item characteristic curve (ICC): beschrijft de relatie tussen waarde van de eigenschap (bv. IQ) en de kans op een bepaalde score (bv. 'goed')
- Bij MC vragen ligt de optimale p hoger, want er is een bepaalde kans om het goed te hebben bij gokken > zie formule
Wat is de forced-choice methodology?
Waar staan U en L voor in de formule voor de item-discriminatie index:
d = (U - L) / 100
L = percentage laagscorers (z < -1) die item goed hadden
Hoe groter d, hoe beter het item discrimineert.
Maar: Idealiter ligt d tussen de 0.3 en 0.6 + je wilt dat de onjuiste antwoordmogelijkheden even vaak gekozen worden (zowel bij hoog als bij laagscorers). Je wilt bv. niet dat onjuist antwoord d nooit gekozen wordt en onjuist antwoord e veel vaker.
Leg de formules van de item betrouwbaarheidsindex en item validiteitsindex uit: SDi x r,iT en SDi x r,iC. En hoe kan SDi berekend worden?
- SDi = standaarddeviatie van itemscores. Hoe meer spreiding in scores i, hoe meer onderscheid dit item maakt tussen respondenten.
- SDi = Wortel (p,i (1-p,i))
- r,iT = correlatie tussen itemscore en totaalscore rest vd test
- r,iC = correlatie tussen itemscore en criterium
Die 2e formule is een maat om de (criterium)validiteit van items van een test onderling te vergelijken.
Hoe heet de correlatie tussen items als zij dichotoom zijn?
Wat houdt de item-betrouwbaarheids-intex in?
Wat is het nut van de item-betrouwbaarheids-index?
Wat hoort bij de item-validiteits-index?
Wat geeft de item-validiteits-index aan?
Wat is de item-characterisic curve?
Hoe heet de ICC normale verdeling van een item? (Item kan opgelost worde met vorm van normale verdeling)
Wat is de item-disciminatie-index?
Wat voor een item-disciminatie-index is het beste?
Wat is validiteits shrinkage?
Waar worden de technischen date van een test gepubliceerd?
Wat is het user's manual?
De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:
- Een unieke studie- en oefentool
- Nooit meer iets twee keer studeren
- Haal de cijfers waar je op hoopt
- 100% zeker alles onthouden