Constructie van items en kwantificering van reacties - Beoordelingvan de kwaliteit van items in vooronderzoek - Dichotome items
23 belangrijke vragen over Constructie van items en kwantificering van reacties - Beoordelingvan de kwaliteit van items in vooronderzoek - Dichotome items
Hoe worden de waarden van goede en foute antwoorden aangeduid bij dichotome items?
Wanneer is een dichotome item goed? Bijvoorbeeld vraag naar psychologen die werken met archetypen/3 antwoordmogeliijkheden
Hoe kun je bepalen of de antwoorden gegokt zijn op een vraag?
Bij een uniforme verdeling waarbij alle waarden even vaak voor komen, zou iedereen uit de onderzochte groep naar het goede antwoord gegist kunnen hebben. Aanvullende informatie kan dan worden verkregen uit de correlaties met andere items in de test. Indien er daadwerkelijk door iedereen is gegist, dan zijn de scores op het volledig bepaald door toeval en de correlaties van het item met de andere items nul.
- Hogere cijfers + sneller leren
- Niets twee keer studeren
- 100% zeker alles onthouden
Hoe kan je de kwaliteit van een item beoordelen?
Voorbeeld:
- steekproefgrootte = 112
- frequentie op antwoord a = 23, b = 18, c = 71
- relatieve frequentie: 23/112 = 0.21, 18/112 = 0.16, 71/112 = 0.63
- c is het goede antwoord; a en b zijn de afleiders
Hoe kun je bepalen of de antwoorden gegokt zijn op een vraag?
Zie afbeelding voor oefen tentamenvraag.
Wat kan worden gebruikt bij de beoordeling van een dichotoom item?
Deze kunnen informatief zijn voor de beoordeling van de kwaliteit van het item.
Er wordt meestal gebruikt gemaakt van relatieve frequenties.
Hoe noem je de relatieve frequentie op de afleiders (de foute antwoorden) ookwel?
Hoe kan worden nagegaan of een item in een studietoets goed gefunctioneerd heeft?
Idee is dat bij beheersing lesstof het juiste antwoord gekozen wordt en bij niet beheersen de afleiders even aantrekkelijk zijn.
Wat gebeurt er met de items die naar bovenkomen uit het vooronderzoek?
Kwaliteit van meerkeuze-items in vooronderzoek:
Als er grootschalig is gegist bij de beantwoording van een meerkeuze-item, dan is de verwachting dat de frequentieverdeling van de reacties op het item
Hoe zou een goede verhouding zijn van de p-waarde en de a-waarden?
=> de hoogste waarde voor de p-waarde en duidelijk lagere maar wel ongeveer gelijke waardes voor de a-waarden.
Waarom dient de steekproef zo groot te zijn bij het hoofdonderzoek?
- Dat heeft er vaak mee te maken dat de populatie vaak in diverse deelgroepen moet worden opgesplitst. Denk aan leeftijds- en niveaugroepen bij een intelligentietest.
- Hiervoor dienen aparte normen te worden voorgesteld. Daarom zijn er per deelgroep enkele honderden deelnemers vereist
Wanneer hebben de items op een studietoets goed gefunctioneerd?
Wanneer krijg je vaak een uniforme verdeling?
Voorbeeld frequentieverdeling met uitleg over de p en de a waarde
Verdeling II: relatieve frequentieverdeling: a = .33; b = .33; c = .33.
Leg uit:
- deze verdeling zou gevonden worden als iederen uit de onderzochte groep naar het goede antwoord gegist zou hebben
- om te weten of er daadwerkelijk grootschalig is gegist, hebben we dus aanvullende evidentie nodig
- bijv. uit de correlaties van het item met de andere items in de test: als er daadwerkelijk door iederen is gegist, dan zijn de scores op het item volledig bepaald door toeval en de correlaties van het item met de andere items nul
- --> het item is te moeilijk
- --> het item is slecht geformuleerd
Verdeling III: relatieve frequentieverdeling: a = .03; b = .03; c = .94.
Leg uit:
- kan erop duiden dat het item te gemakkelijk is of dat er iets triviaals wordt gevraagd
- in het geval van een studietoets kan deze verdeling ook betekenen dat de stof gewoon goed bestudeerd en begrepen is
- de afleiders zijn niet plausibel
Verdeling IV: relatieve frequentieverdeling: a = .10; b = .60; c = .30.
Leg uit:
- een van de afleiders kan een valstrik bevatten, waar de meeste personen intrappen
- de bewuste afleider zou wel eens juist kunnen zijn
Hoe worden de relatieve frequenties op het goede antwoord en op de afleiders genoemd?
- Goede antwoord = p-waarden
- Afleiders = a-waarden
bv: 112 proefpersonen krijgen een testvraag voorgelegd (daarbij is antwoord c het goede antwoord). 23 kiezen a, 18 kiezen b en 71 kiezen voor c. De relatieve frequentie voor het goede antwoord (de p-waarde) is 71/112 = 0.63. De relatieve frequentie voor de afleiders (de a-waarde) is 23/112 = 0.21 en 18/112 = 0.16.
Wanneer weten we of een item uit een studietoets goed functioneert?
zoals bij het voorgaande vb functioneert het item goed. De p-waarde is het meeste gekozen (0.63) en de a-waarde zijn bijna net zo vaak gekozen (0.21 vs. 0.16)
Welke conclusie kan je trekken uit bovenstaande score (2.4)
Welk item functioneert goed, waarom wel of niet?
score: 0-1-2-3-4
item 1: 0.1-0.1-0.2-0.5-0.1
item 2: 0.0-0.0-0.05-0.05-0.9
item 2 is uitgesproken scheef. Iedereen heeft positief gescoord. Dit kan met de stelling te maken hebben. Bv 'bij het uitvoeren van euthanasie moet altijd een arts betrokken zijn', bij deze stelling zullen weinig mensen oneens zijn. Vanuit testtheoretisch oogpunt is dat een vervelend resultaat omdat een test bedoeld is om onderscheid te maken tussen personen. het item is te populair en moet uit de test gehaald worden (vergelijkbaar met item op prestatieniveau die te makkelijk is)
Wanneer laat je item 2 wel in een test zitten (scheefverdeling-populaire item)?
Het item geeft dan aan waar de ondergrens ligt wat betreft het niveau van de attitude jegens een bepaald onderwerp (bv euthanasie)
De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:
- Een unieke studie- en oefentool
- Nooit meer iets twee keer studeren
- Haal de cijfers waar je op hoopt
- 100% zeker alles onthouden