Constructie van items en kwantificering van reacties - Opdrachten
21 belangrijke vragen over Constructie van items en kwantificering van reacties - Opdrachten
In paragraaf 4.1 worden diverse voorbeelden van items genoemd, die worden onderscheiden naar de van de respondent gevraagde activiteit. Bedenk er zelf nog een die daar niet wordt genoemd.
- theoretische opdrachten - meten cognitieve capaciteiten en vaardigheden, antwoorden zijn goed of fout, of soms gedeeltelijk goed of fout
- stellingen - meten persoonlijkheidstrekken, opinies, houdingen en voorkeuren, antwoorden kunnen niet goed of fout zijn, maar de positie van de respondent op de schaal van de veronderstelde eigenschappen aangeven
- praktijkproeven - het gaat om de meting van capaciteiten en vaardigheden door middel van een arbeidsproef
- projectietests - dienen om de persoonlijkheid in kaart te brengen - wat hier aan activiteit gevraagd wordt is vaak een juist zo 'vrij' mogelijke reactie
Noem drie bezwaren tegen open vragen.
- het beoordelen en categoriseren van de antwoorden op open vragen is voor de onderzoeker een tijdrovende aangelegenheid
- respondenten begrijpen niet altijd wat er met een vraag bedoeld wordt
- niet alle respondenten zijn even goed in staat om hun gedachten op papier te zetten
- doordat de respondent kan laten zien wat hij allemaal weet of van allerlei zaken vindt, zijn de antwoorden voor de onderzoeker gezien de vraagstelling van het onderzoek niet altijd relevant
Wat is een 'rating scale'-item? Geef zelf een voorbeeld.
- de respondent wordt gevraagd om in een vakje dat zijn positie het beste weergeeft, een kruisje te zetten
- dit type item heet 'rating scale'-item, vanwege de geordende schaal waarop de respondent zichzelf dient te beoordelen
- 'ik ben in gezelschappen maar weinig aan het woord'
- Hogere cijfers + sneller leren
- Niets twee keer studeren
- 100% zeker alles onthouden
Bedenk ten minste drie eigenschappen die beter met open vragen gemeten kunnen worden.
- voor de meting van creatieve taalvaardigheid kan men de respondenten beter een opstel laten schrijven
- schriftelijke uitdrukkingsvaardigheid in het Engels kan beter worden vastgesteld door een brief te laten schrijven
- in intelligentietests wordt eveneens vaak gebruik gemaakt van open vragen en opdrachten: doolhof, puzzel...
Zijn er groepen personen die maar beter niet met meerkeuzevragen onderzocht kunnen worden?
Noem een praktisch nadeel van meerkeuzevragen:
- een test bestaande uit meerkeuzevragen vereist een uitvoerig vooronderzoek
- het bedenken van meerkeuzevragen is lastig
- het inschatten van de moeilijkheidsgraad van dit type items is lastig
- de kans dat respondenten door louter te raden vele goede antwoorden kunnen krijgen
- in tegenstelling tot open vragen, zouden slechts eenvoudige cognitieve vaardigheden mee kunnen worden gemeten
- de meerkeuzevragen zouden slechts geschikt zijn voor meting van kennis en 'weetjes', die bovendien niet via een reproductieproces maar via een herkenningsproces gemeten worden
Geef commentaar op het vermeende bezwaar tegen meerkeuzevragen dat zij slechts geschikt zijn om eenvoudige cognitieve eigenschappen en kennis mee te meten:
- Mellenbergh (1971) analyseerde zeventig empirische studies, waarin de twee vraagvormen werden vergeleken. Zijn conclusie was dat het in vele gevallen mogelijk is met meerkeuzevragen hetzelfde te meten als met open vragen, mits de meerkeuzevragen goed geconstrueerd zijn.
- ook de 'hogere' functies uit bijv. het hierarchische systeem van onderwijskundige doeleinden volgens Bloom (1956), zoals begrip, toepassing, analyse, synthese en evaluatie, blijken wel degelijk toegankelijk te zijn voor meerkeuzevragen
Leg uit hoe de auteurs tot een raadkans van 1/15 komen voor items uit de Test voor Niet-Verbale Abstractie, waarin 2 van de 6 keuzemogelijkheden goed zijn en het antwoord pas wordt goedgekeurd als de respondent beide antwoorden heeft gekozen:
Leg uit dat meerkeuze-items niet alleen maar herkenning van de geleerde stof vragen:
ook de 'hogere' functies uit bijv. het hierarchische systeem van onderwijskundige doeleinden volgens Bloom (1956), zoals begrip, toepassing, analyse, synthese en evaluatie, blijken wel degelijk toegankelijk te zijn voor meerkeuzevragen
Wat wordt verstaan onder de stam van een meerkeuze-item?
- een uitspraak, een bewering, een vraag of een probleemstelling
- gevolgd door twee of meer antwoorden waaruit de respondent dient te kiezen
- de gesleutelde respons ('keyed response') ofwel het goede antwoord
- de afleiders ofwel de foute antwoorden
Noem een bezwaar van een item dat gebaseerd is op het principe van 'matching':
- de keuzes geschieden niet onafhankelijk van elkaar: hoe minder onzekere combinaties overblijven, hoe meer kans op juistheid men heeft bij raden
Noem voor- en nadelen van een even aantal geordende antwoordcategorieen op een 'rating scale':
- een voordeel van een even aantal antwoordmogelijkheden is dat de respondent gedwongen wordt om kleur te bekennen, omdat er geen 'neutrale' middencategorie is
- het nadeel is dat respondenten geen neutrale categorie kunnen aankruisen als zij echt geen voorkeur hebben
Waarom is het aantal geordende antwoordcategorieen op een 'rating scale' vrijwel nooit groter dan zeven?
Noem voor- en nadelen van naamgeving aan de antwoordcategorieen op een 'rating scale':
- het gebruik maken van beschrijvingen van de schaalposities wordt wel eens bekritiseerd omdat verschillende respondenten deze aanduidingen weer verschillend kunnen interpreteren
- bij weglaten van aanduidingen wordt de typering van de tussenliggende opties volledig aan de respondent overgelaten, hetgeen de ongewenste invloed van verschillen in interpretatie alleen maar groter maakt
Wat is het algemene principe van de toekenning van scores aan de reacties op een item?
Waarom is het volgens de auteurs niet zo erg dat bij kwantificering van gedrag informatie over de onderzochte verloren gaat?
Hoe staan de auteurs tegenover verschillende weging van items die is gebaseerd op de statistische analyse van de itemscores?
Waarom moet een steekproef in een testconstrutieonderzoek liefst ten minste 500 proefpersonen bevatten?
- dat dergelijke steekproeven vaak groot zijn, heeft ermee te maken dat de populatie vaak in diverse interessante deelgroepen valt op te splitsen, waarvoor aparte normen dienen te worden opgesteld
- alle deelgroepen behoren op zichzelf groot genoeg te zijn om normverdelingen van testscores voldoende nauwkeurig te kunnen schatten
- meestal zijn dan wel minimaal enkele honderden proefpersonen per deelgroep vereist
- de steekproef dient nu wel de gehele populatie te representeren; vandaar de nadruk op de representativiteit van de steekproef
Bereken bij deze tabel de p-waarden en de a-waarden antwoord c is het juiste) in vier verschillende groepen, genummerd I, II, III en IV:
alternatief frequentieverdeling
I II III IV
a 18 34 11 27
b 14 38 8 156
c 57 31 123 57
- I: p-waarde: .64; a-waarden: .16, .20
- II: p-waarde: .30; a-waarden: .37, .33
- III: p-waarde: .87; a-waarden: .06, .08
- IV: p-waarde: .24; a-waarden: .65, .11
Waarom dienen de afleiders van een meerkeuze-item plausibel te zijn?
- de achterliggende gedachte is dat bij een goede inzet van docent en studenten de meeste studenten in staat zouden moeten zijn om de meeste items goed te beantwoorden
- voor degenen die de stof onvoldoende beheersen moeten de afleiders ongeveer even aantrekkelijk zijn
- de verdeling in I duidt er dus op dat het item goed heeft gefunctioneerd, want de a-waarden verschillen maar weinig
- overigens volgt uit een dergelijke frequentieverdeling niet het definitieve bewijs dat het item goed functioneert, maar de verdeling is wel informatief
Stel, een van de onjuiste antwoorden van een meerkeuze-item is als gedeeltelijk juist te verdedigen. Hoe zou men dit in de scoring van het item tot uiting kunnen laten komen?
De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:
- Een unieke studie- en oefentool
- Nooit meer iets twee keer studeren
- Haal de cijfers waar je op hoopt
- 100% zeker alles onthouden