Variabelen beschrijven en data-integriteit verifiëren - Univariatie analyse - Verdelingsvormen

18 belangrijke vragen over Variabelen beschrijven en data-integriteit verifiëren - Univariatie analyse - Verdelingsvormen

De centrum- en spreidingsmaten geven al veel informatie, maar we hebben een?

Verdelingsvorm nodig om te weten hoe de datapunten verdeeld zijn

De populatieverdeling is de verdeling waarin we zijn geïnteresseerd

Tegelijkertijd kunnen we deze verdeling nooit kennen. Gelukkig kunnen we wel steekproeven nemen, en hoe groter de steekproef wordt, hoe kleiner de rol van toeval (in de vorm van steekproeffout en meetfout) en hoe meer de verdeling van steekproefscores gaat lijken op de populatieverdeling

Wat is een scheve verdeling?

is een asymmetrische verdeling.
  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

In een symmetrische, eentoppige verdeling liggen de meeste datapunten rondom het

gemiddelde en worden datapunten dus steeds zeldzamer naarmate de afstand tot het gemiddelde groter wordt (een bell curve).

Er zijn twee manieren waarop een eentoppige verdeling asymmetrisch kan zijn

Ten eerste kunnen de meeste datapunten rechts van het gemiddelde liggen. Er liggen dan wat minder datapunten links van het gemiddelde en die liggen wat verder van het gemiddelde af. Dit wordt een linksscheve of negatief scheve verdeling genoemd.

Daartegenover staat een rechtsscheve of positief scheve verdeling. In die verdeling liggen de meeste datapunten juist links van het gemiddelde. De top van de verdeling ligt nu aan de linkerkant, en de staart aan de rechterkant.

Hoe heet een verdeling die bijzonder spits is?

Een leptokurte verdeling (hier hebben ze bijna allemaal dezelfde waarden)

Hoe heet een verdeling die bijzonder plat is?

Een platykurte verdeling (bijv. Opgooien van een muntje)

Een playkurte, symmetrische en leptokurte verdeling

Aanduiding

Van alle verdelingen is er één die vaker terugkomt:

een unimodale, symmetrische verdeling, die niet bijzonder plat of spits is. Deze verdeling wordt de normaalverdeling of normaaldistributie genoemd.

Wat is er met veel variabelen in de natuur?

zijn op deze manier verdeeld, dus op de manier van de normaalverdeling. Bovendien is ruis, zoals meetfout, ook normaal verdeeld.

Datapunten kunnen altijd worden omgerekend naar deze z-scores door het gemiddelde er van af te trekken en het resultaat te delen door de standaarddeviatie:

Formule

Bovendien zijn gestandaardiseerde datapunten vergelijkbaar met gestandaardiseerde datapunten uit andere datareeksen, zelfs als de datareeksen verschillende variabelen betreffen die op verschillende schalen zijn gemeten.

De deling door de standaarddeviatie verwijdert immers de schaalinformatie uit de datareeks en vertaalt elke datareeks naar dezelfde schaal, waarbij 1 staat voor één standaarddeviatie.

68% van de datapunten ligt altijd binnen één standaarddeviatie van het gemiddelde, 95% van de datapunten liggen binnen twee standaarddeviaties en  99.7% van de datapunten liggen altijd binnen drie standaarddeviaties. Dat kan gemakkelijk worden verbeeld in de density plot van de normaalverdeling:

Normaalverdeling met lijnen voor de standaarddeviaties.
Op deze manier kunnen we density plots gebruiken om te kijken hoe groot de kans is dat we een bepaald datapunt vinden.

Density plot en de kans op een bepaalde waarde

Stel dat een density plot de verdeling van leeftijden in Nederland weergeeft. We kunnen dan de kans dat iemand 34 jaar of ouder is, bepalen door in de plot een verticale lijn te tekenen bij 34 jaar. De oppervlakte van de plot rechts van deze lijn is dan de kans dat iemand 34 jaar of ouder is. Deze kans kan met statistische software berekend worden (en is in dit voorbeeld 0.6).

Het is niet altijd gemakkelijk om twee lijnen te vergelijken en te zien in welke mate ze overeenkomen

Het kan behulpzaam zijn om meerdere informatiebronnen tegelijkertijd te raadplegen om een vollediger indruk te krijgen van de verdelingsvorm en de mate waarin die de normale verdeling benadert. Een bruikbare informatiebron is de zogenaamde Q-Q-plot

Voor de drie verdelingen (een spitse verdeling, een bijna normale verdeling en een rechtsscheve verdeling) gelden de volgende waarden voor de zogenaamde Hartigans’ Dip Test, voor skewness (scheefheid) en voor kurtosis (spitsheid):

De verdelingsmaten

De getallen voor Dip Test, skewness en kurtosis zijn niet altijd gemakkelijk te interpreteren.

Dit komt door de rol van toeval: er is immers altijd sprake van steekproeftoeval en meetfout. Om die reden is het belangrijk om verschillende informatiebronnen tegelijk te gebruiken.

Data, statistiek en wetenschap

Het is belangrijk om bij besluiten op basis van data en statistiek altijd de redenering te documenteren, zodat andere wetenschappers na publicatie eventuele fouten kunnen detecteren. Bovendien kunnen verschillende wetenschappers het ook simpelweg oneens zijn: in dat geval is het inzichtelijk als niet alleen het uiteindelijke besluit, maar ook de onderliggende redenering toegankelijk is.

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo