Modellen, designs en onderzoeksvragen - Verdelingsvormen (k2)
20 belangrijke vragen over Modellen, designs en onderzoeksvragen - Verdelingsvormen (k2)
Les uit hoe verdelingsvormen uitgebeeld worden.
2.2 Verdelingsvormen (k2)
Om datapunten weer te kunnen geven wordt een datareeks in een grafische weergave geplaatst. Hierdoor ontstaat er een 'verdelingsvorm'. Wat is een verdelingsvorm?
2.2 Verdelingsvormen (k2)
Een grafische weergave om een beeld te kunnen krijgen van de verdeling is het histogram. Welke waarden worden op de x-as geplaatst en welke op de y-as?
- X-as, horizontaal; balkjes die een breedte van de data bevatten. Wat een bruikbare breedte is wisselt per datareeks
- Y-as, verticaal; de hoogte bepaald het aantal datapunten in de onderverdeling (het balkje) van de datareeks
- Hogere cijfers + sneller leren
- Niets twee keer studeren
- 100% zeker alles onthouden
Wat betekend een ovaal en wat een rechthoek?
Geef een beschrijving van de verdelingsvorm modaliteit/toppigheid
Wat betekend de pijltjes dan?
Welke termen kunnen worden gebruikt om de verdelingsvorm te beschrijven?
- Modaliteit of toppigheid;
- Scheefheid;
- Spitsheid.
2.2 Verdelingsvormen (k2)
Er wordt bij het verdelen van de datapunten een onderscheid gemaakt tussen de 'verdeling van steekproefscores' en de 'populatieverdeling'. Naar welke verdeling is men op zoek bij wetenschappelijk onderzoek? En wat is de valkuil bij het in beeld krijgen van deze verdeling?
- De populatieverdeling is waarin men in geïnteresseerd is.
- Deze verdeling kunnen we echter nooit kennen. Gelukkig kunnen we wel steekproeven nemen en hoe groter de steekproef wordt, hoe kleiner de rol van toeval (in de vorm van steekproeffout en meetfout) en hoe meer de verdeling van steekproefscores gaat lijken op de populatieverdeling.
Geef een beschrijving van de 3 verdelingen van de verdelingsvorm scheefheid (skewness)
Rechtsscheve verdeling: Modus meest voorkomende waarde, gemiddelde is groter dan de mediaan en de modus.
Linksscheve verdeling: Gemiddelde kleiner dan mediaan en modus
2.2 Verdelingsvormen (k2)
Wat wordt er bedoeld met de verdelingsvorm 'modaliteit'? En welke vormen zijn er?
- Beschrijft het aantal toppen van de verdeling
- Unimodaal of eentoppig = verdeling met een top
- Multimodaal of meertoppig = verdeling met meer toppen. Multimodale toppen zijn vaak een indicatie dat de populatie uit meer subpopulaties bestaat
- Bimodale of tweetoppige = multimodale verdeling van 2 toppen
- Het is niet altijd duidelijk hoeveel toppen een verdeling heeft, dit is dan het gevolg van de steekproeffout en meetfout.
2.2 Verdelingsvormen (k2)
Wat wordt er bedoeld met de verdelingsvorm 'scheefheid'? En welke vormen zijn er?
- Een asymmetrische verdeling
- Linksscheve of negatief scheve verdeling = de meeste datapunten liggen rechts van het gemiddelde, minder links en deze liggen wat verder van het gemiddelde af
- Rechtsscheve of positief scheve verdeling = de meeste punten liggen links van het gemiddelde, minder rechts en deze liggen wat verder van het gemiddelde af
2.2 Verdelingsvormen (k2)
Wat is een normale verdeling ook wel 'normaaldistributie' genoemd?
Welke waarden zijn bij een normaaldistributie allemaal gelijk?
Ook gelden voor de normaal verdeling een aantal belangrijke empirische kenmerken. Welke zijn dit?
Welke variabelen hebben meestal een normaal verdeling?
- Een verdelingsvorm die unimodaal, symmetrisch en niet bijzonder plat of spits is.
- Het gemiddelde, de mediaan en de modus zijn allemaal gelijk
- 1) 68% vd datapunten ligt binnen 1 sd van het gemiddelde
gemiddelde
3) 99,7% vd datapunten ligt binnen 3 sd
van het gemiddelde
- Veel variabelen in de natuur zijn normaal verdeeld
Geef betekening aan onderstaande drie punten en beschrijf waarom het handig is.
1. Destinyplot
2. Groene lijn
3. Blauwe lijn
Groen: Destineyplot van de normaalverdeling
Blauw: Destineyplot van de steekproef
Waar het omgaat is:
Het is handig voor de data, je hebt een steekproef gedaan, je ziet dan de boogje. In hoeverre wijkt het blauwe boogje van het groene boogje. Je kunt zien hoeveel je steekproef van je normaalverdeling afwijkt.
2.2 Verdelingsvormen (k2)
Bij een standaardnormale verdeling ook wel een z-verdeling genoemd is er sprake van een gemiddelde van 0 en een sd van 1.
Hoe worden de datapunten in een z-verdeling genoemd?
En hoe worden deze berekend?
Waarom worden de datapunten omgerekend naar z-scores?
Wat is belangrijk om te beseffen bij het omrekenen van deze datapunten?
- Z-scores
- Waarde datapunt - het gemiddelde : sd = z
- Het omrekenen is handig omdat van iedere z-score meteen duidelijk is hoever deze van het gemiddelde afligt. Bij een z-score van 2 is bijvoorbeeld meteen duidelijk dat deze 2 sd boven het gemiddelde ligt
- De verdelingsvorm van een datareeks verandert niet door het berekenen van de z-score. Deze scores worden altijd z-scores genoemd maar dit garandeert niet dat er ook sprake is van een z-verdeling. Dit kan pas gezegd worden als de verdeling nader is bekeken
Wat geeft een dip test weer?
2.2 Verdelingsvormen (k2)
Normaal verdelingen worden meestal niet weergegeven in een histogram maar eerder in een density plot. De vloeiende lijn van deze plot geeft de dichtheid (density) van de verdeling aan.
Wat wordt er verstaan onder de dichtheid van een plot?
Wat is de oppervlakte van een density plot?
Wat is de meetwaarde voor datapunten die niet voorkomen?
Wat kan je doen met een density plot?
Hoe kunnen density plots een histogram verrijken. Wat is het nut daarvan?
- Dichtheid van een density staat voor hoeveel datapunten er voor een gegeven meetwaarde zijn (y-as)
- De oppervlakte is altijd 1
- Meetwaarde voor niet voorkomende datapunten is 0
- Een densityplot is handig om kansen te kunnen berekenen
- Een densityplot kan over een histogram heen getekend worden. Hier overheen kan een densityplot van een normaal verdeling getekend worden. Zo kan deze plot vergeleken worden met de plot van de variabele zodat afwijkingen snel gevonden kunnen worden.
2.2 Verdelingsvormen (k2)
Er is nog een ander visueel perspectief om meer informatie over de datareeks zichtbaar te krijgen. Dit is ook een plot, hoe heet deze plot?
Hoe wordt deze plot ingedeeld en opgesteld?
Wat is de meerwaarde van deze plot?
- De boxplot
- De boxplot is opgedeeld in 3 kwartielen (dus 4 kwantielen). De spreidingsmaat is het minimum en het maximum. De mediaan van het totaal is de middelste lijn. De mediaan van de eerste helft (Q1) is de eerste lijn van de box en de mediaan van de tweede helft (Q3) is de laatste lijn van de box.
- Mogelijke outliers worden in de boxplot weergegeven in de vorm van stippen. Op deze wijze kan er worden vastgesteld of er inderdaad sprake is van outliers of niet.
2.2 Verdelingsvormen (k2)
Naast visuele hulpmiddelen om een indruk te krijgen van de verdeling van een datareeks zijn er ook kwantitatieve indicatoren voor unimodaliteit, scheefheid en spitsheid. De zgn verdelingsmaten. Deze liggen vast in een tabel Dip Test. Wat kan men, adhv deze Dip Test, over het algemeen zeggen?
- modaliteit; naarmate een verdeling meertoppiger is wordt het getal steeds groter
- scheefheid/ skewness; linksscheef, het getal wordt steeds kleiner; rechtsscheef, het getal wordt steeds groter
- spitsheid/ kurtosis; als de verdeling platter is, is het getal kleiner dan 0, wanneer het getal groter is wordt de verdeling steeds spitser
2.2 Verdelingsvormen (k2)
We zijn (bijna) nooit geïnteresseerd in de verdelingsvorm van de datareeksen uit een steekproef. Die steekproef heeft namelijk alleen bestaansrecht als instrument om iets te leren over de populatie. Het is dus alleen interessant omdat het iets kan vertellen over de vorm van de populatieverdeling. Dit bepalen is een subjectief proces waarbij het belangrijk is om verschillende informatiebronnen te combineren en er kritisch over na te denken. Wat is verder nog meer zeer belangrijk bij data, statistiek en wetenschap?
Wat geeft de verdelingsmaat skewness weer?
De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:
- Een unieke studie- en oefentool
- Nooit meer iets twee keer studeren
- Haal de cijfers waar je op hoopt
- 100% zeker alles onthouden