Variabelen beschrijven en data-integriteit verifiëren - Univariatie analyse - Field - Field over frequentieverdelingen

9 belangrijke vragen over Variabelen beschrijven en data-integriteit verifiëren - Univariatie analyse - Field - Field over frequentieverdelingen

Waar ligt het vertrekpunt voor het analyseren van de verzamelde data?

Bij een frequentieverdeling of histogram.

Naast het bepalen van de centrummaten, is ook de spreiding van een verdeling belangrijk

De eenvoudigste manier om spreiding te bepalen, is de kleinste van de grootste waarde af te trekken: de range of scores. De interquartile range vinden we door de reeks van waarden in vier kwartielen te verdelen, waarbij de interquartile range de afstand tussen het hoogste en het laagste kwartiel weergeeft.

We kunnen de spreiding ook berekenen door te bepalen in welke mate elke waarde verschilt van het midden van de verdeling. Achtereenvolgens geldt dan:

De laatste spreidingsmaat staat bekend als de standaarddeviatie.
  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

We kunnen ook naar frequentieverdelingen kijken om te bepalen hoe waarschijnlijk het is dat een bepaalde waarde zich voordoet: de probability

Deze waarschijnlijkheid (of kans) kan geschat worden op basis van de frequenties in en de oppervlakte van een gebied in een frequentieverdeling.

Voor allerlei veel voorkomende frequentieverdelingen bestaan probability density functions, die een ideale versie van een frequentieverdeling weergeven

Een PDF kan vervolgens grafisch worden weergegeven in een probability distribution. De oppervlakte onder de curve van een probability distribution geeft ons informatie over de waarschijnlijkheid dat een bepaalde waarde voorkomt.

Probability distributions komen voor in de vorm van een normaaldistributie,

maar ook van een t-distribution, χ 2 distribution of F-distribution.

Verdelingen kunnen verschillende gemiddelden en standaarddeviaties hebben. Voor een probability distribution gebruiken we ?

standaard een normaaldistributie met een gemiddelde van 0 en een standaarddeviatie van 1. Het voordeel hiervan is dat we probabilities in een tabel kunnen weergeven, een zogenaamde z-table. Om deze standaard te gebruiken, moeten we een dataset converteren naar een dataset met een gemiddelde van 0 en een standaarddeviatie van 1. Om het gemiddelde op 0 te stellen trekken we van elke waarde het gemiddelde van alle waarden af. Om de standaarddeviatie op 1 te stellen, delen we het gevonden resultaat door de oorspronkelijke standaarddeviatie. Het eindresultaat is de z-score:

Onderstaande afbeelding toont een voorbeeld van een probability distribution en een gedeelte van een z-table:

(De kolom uiterst links toont het aantal standaarddeviaties. De kolomkoppen geven de tweede decimaal van de standaarddeviaties weer.)

Een andere handige toepassing van de z-score is het bepalen van grenswaarden waarbinnen bepaalde percentages vallen. Een aantal waarden wordt veel gebruikt:

› De middelste 68% komt overeen met z-waarden van -1 en 1.
› De middelste 95% komt overeen met z-waarden van -1.96 en 1.96.
› De middelste 99% komt overeen met z-waarden van -2.58 en 2.58
› De middelste 99.9% komt overeen met z-waarden van -3.29 en 3.29.  

Deze waarden zijn interessant, omdat ze gebruikt worden bij het bepalen van betrouwbaarheidsintervallen (als afstanden tot het midden, gerekend in standaarddeviaties).

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo