Startpagina / Samenvattingen / Testtheorie / item-afleiders-gekozen

Constructie van items en kwantificering van reacties - Beoordelingvan de kwaliteit van items in vooronderzoek - Dichotome items

23 belangrijke vragen over Constructie van items en kwantificering van reacties - Beoordelingvan de kwaliteit van items in vooronderzoek - Dichotome items

Hoe worden de waarden van goede en foute antwoorden aangeduid bij dichotome items?

Goede antwoorden worden p-waarden genoemd, de afleiders worden a-waarden genoemd.

Wanneer is een dichotome item goed? Bijvoorbeeld vraag naar psychologen die werken met archetypen/3 antwoordmogeliijkheden

Dit item is goed als de meeste respondenten het goede alternatief hebben gekozen. En de afleiders even vaak werden gekozen (blz 138)

Hoe kun je bepalen of de antwoorden gegokt zijn op een vraag?

Als de correlatie met de andere items laag is.

Bij een uniforme verdeling waarbij alle waarden even vaak voor komen, zou iedereen uit de onderzochte groep naar het goede antwoord gegist kunnen hebben. Aanvullende informatie kan dan worden verkregen uit de correlaties met andere items in de test. Indien er daadwerkelijk door iedereen is gegist, dan zijn de scores op het volledig bepaald door toeval en de correlaties van het item met de andere items nul.

Hoe kan je de kwaliteit van een item beoordelen?

Dit kan door te kijken naar de relatieve frequenties.

Voorbeeld:

steekproefgrootte = 112
frequentie op antwoord a = 23, b = 18, c = 71
relatieve frequentie: 23/112 = 0.21, 18/112 = 0.16, 71/112 = 0.63
c is het goede antwoord; a en b zijn de afleiders

Hoe kun je bepalen of de antwoorden gegokt zijn op een vraag?
Zie afbeelding voor oefen tentamenvraag.

Als de correlatie met de andere items laag is.

Wat kan worden gebruikt bij de beoordeling van een dichotoom item?

Een frequentieverdeling.
Deze kunnen informatief zijn voor de beoordeling van de kwaliteit van het item.
Er wordt meestal gebruikt gemaakt van relatieve frequenties.

Hoe noem je de relatieve frequentie op de afleiders (de foute antwoorden) ookwel?

De a-waarde

Hoe kan worden nagegaan of een item in een studietoets goed gefunctioneerd heeft?

Indien de meeste studenten het goede antwoord hebben gekozen en de afleiders ongeveer even vaak gekozen zijn.

Idee is dat bij beheersing lesstof het juiste antwoord gekozen wordt en bij niet beheersen de afleiders even aantrekkelijk zijn.

Wat gebeurt er met de items die naar bovenkomen uit het vooronderzoek?

Slecht functionerende items kunnen verwijderd of vervangen worden. Aangezien in het vooronderzoek altijd wel items uit de voorlopige testversie worden verwijderd moeten deze versie dus meer items bevatten dan de definitieve test.

Kwaliteit van meerkeuze-items in vooronderzoek:

Als er grootschalig is gegist bij de beantwoording van een meerkeuze-item, dan is de verwachting dat de frequentieverdeling van de reacties op het item

Een uniforme verdeling laat zien.

Hoe zou een goede verhouding zijn van de p-waarde en de a-waarden?

Normaal gespreken wil je dat het juiste antwoord door de meeste mensen gekozen wordt, maar dat de afleiders ook voor mensen met minder kennis geloofwaardige alternatieven zijn en je niet op voorhand een alternatief kunt afwijzen. De alternatieven zie dus het liefst even hoog scoren
=> de hoogste waarde voor de p-waarde en duidelijk lagere maar wel ongeveer gelijke waardes voor de a-waarden.

Waarom dient de steekproef zo groot te zijn bij het hoofdonderzoek?

Dat heeft er vaak mee te maken dat de populatie vaak in diverse deelgroepen moet worden opgesplitst. Denk aan leeftijds- en niveaugroepen bij een intelligentietest.
Hiervoor dienen aparte normen te worden voorgesteld. Daarom zijn er per deelgroep enkele honderden deelnemers vereist

Wanneer hebben de items op een studietoets goed gefunctioneerd?

Een item uit een studietoets heeft goed gefunctioneerd als de meeste respondenten het goede alternatief hebben gekozen en de afleiders elk ongeveer even vaak werden gekozen. Overigens volgt uit een goede frequentieverdeling niet het definitieve bewijs dat het item goed functioneert, maar de verdeling is wel informatief.

Wanneer krijg je vaak een uniforme verdeling?

Als alle relatieve frequenties even hoog zijn, er is dan grote kans dat de respondenten hebben gegokt.

Voorbeeld frequentieverdeling met uitleg over de p en de a waarde

Voorbeeld

Verdeling II: relatieve frequentieverdeling: a = .33; b = .33; c = .33.
Leg uit:

deze verdeling zou gevonden worden als iederen uit de onderzochte groep naar het goede antwoord gegist zou hebben
om te weten of er daadwerkelijk grootschalig is gegist, hebben we dus aanvullende evidentie nodig
bijv. uit de correlaties van het item met de andere items in de test: als er daadwerkelijk door iederen is gegist, dan zijn de scores op het item volledig bepaald door toeval en de correlaties van het item met de andere items nul
--> het item is te moeilijk
--> het item is slecht geformuleerd

Verdeling III: relatieve frequentieverdeling: a = .03; b = .03; c = .94.
Leg uit:

kan erop duiden dat het item te gemakkelijk is of dat er iets triviaals wordt gevraagd
in het geval van een studietoets kan deze verdeling ook betekenen dat de stof gewoon goed bestudeerd en begrepen is
de afleiders zijn niet plausibel

Verdeling IV: relatieve frequentieverdeling: a = .10; b = .60; c = .30.
Leg uit:

een van de afleiders kan een valstrik bevatten, waar de meeste personen intrappen
de bewuste afleider zou wel eens juist kunnen zijn

Hoe worden de relatieve frequenties op het goede antwoord en op de afleiders genoemd?

Goede antwoord = p-waarden
Afleiders = a-waarden

bv: 112 proefpersonen krijgen een testvraag voorgelegd (daarbij is antwoord c het goede antwoord). 23 kiezen a, 18 kiezen b en 71 kiezen voor c. De relatieve frequentie voor het goede antwoord (de p-waarde) is 71/112 = 0.63. De relatieve frequentie voor de afleiders (de a-waarde) is 23/112 = 0.21 en 18/112 = 0.16.

Wanneer weten we of een item uit een studietoets goed functioneert?

Indien de meeste respondenten het goede antwoord hebben gekozen en de afleiders door de overige respondenten ongeveer even vaak werd gekozen.

zoals bij het voorgaande vb functioneert het item goed. De p-waarde is het meeste gekozen (0.63) en de a-waarde zijn bijna net zo vaak gekozen (0.21 vs. 0.16)

Welke conclusie kan je trekken uit bovenstaande score (2.4)

Indien het item positief is geformuleerd, hebben de meeste mensen positief op deze stelling gereageerd (0= helemaal oneens...4= helemaal eens). De gemiddelde score (2.4) ligt boven de waarde van de neutrale categorie (2 = geen mening/niet eens of oneens), vandaar dat de interpretatie is dat de reactie in het algemeen positief is.

Welk item functioneert goed, waarom wel of niet?
score: 0-1-2-3-4
item 1: 0.1-0.1-0.2-0.5-0.1
item 2: 0.0-0.0-0.05-0.05-0.9

Item 1 is een goed functionerend item, omdat er een goede spreiding van respondenten over de categorie plaatsvindt.

item 2 is uitgesproken scheef. Iedereen heeft positief gescoord. Dit kan met de stelling te maken hebben. Bv 'bij het uitvoeren van euthanasie moet altijd een arts betrokken zijn', bij deze stelling zullen weinig mensen oneens zijn. Vanuit testtheoretisch oogpunt is dat een vervelend resultaat omdat een test bedoeld is om onderscheid te maken tussen personen. het item is te populair en moet uit de test gehaald worden (vergelijkbaar met item op prestatieniveau die te makkelijk is)

Wanneer laat je item 2 wel in een test zitten (scheefverdeling-populaire item)?

Als het om een opinie gaat. bv bij politieke besluitvorming of wetgeving.

Het item geeft dan aan waar de ondergrens ligt wat betreft het niveau van de attitude jegens een bepaald onderwerp (bv euthanasie)

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

Testtheorie | 9789031347476 | P J D Drenth, et al

Bekijk samenvatting

Een unieke studie- en oefentool
Nooit meer iets twee keer studeren
Haal de cijfers waar je op hoopt
100% zeker alles onthouden

Onthoud sneller, leer beter. Wetenschappelijk bewezen.

Onderwerpen die gerelateerd zijn aan Constructie van items en kwantificering van reacties - Beoordelingvan de kwaliteit van items in vooronderzoek - Dichotome items

Constructie van items en kwantificering van reacties - Beoordelingvan de kwaliteit van items in vooronderzoek