Variabelen beschrijven en data-integriteit verifiëren - Univariatie analyse - Verdelingsvormen
18 belangrijke vragen over Variabelen beschrijven en data-integriteit verifiëren - Univariatie analyse - Verdelingsvormen
De centrum- en spreidingsmaten geven al veel informatie, maar we hebben een?
De populatieverdeling is de verdeling waarin we zijn geïnteresseerd
Wat is een scheve verdeling?
- Hogere cijfers + sneller leren
- Niets twee keer studeren
- 100% zeker alles onthouden
In een symmetrische, eentoppige verdeling liggen de meeste datapunten rondom het
Er zijn twee manieren waarop een eentoppige verdeling asymmetrisch kan zijn
Daartegenover staat een rechtsscheve of positief scheve verdeling. In die verdeling liggen de meeste datapunten juist links van het gemiddelde. De top van de verdeling ligt nu aan de linkerkant, en de staart aan de rechterkant.
Hoe heet een verdeling die bijzonder spits is?
Hoe heet een verdeling die bijzonder plat is?
Een playkurte, symmetrische en leptokurte verdeling
Van alle verdelingen is er één die vaker terugkomt:
Wat is er met veel variabelen in de natuur?
Datapunten kunnen altijd worden omgerekend naar deze z-scores door het gemiddelde er van af te trekken en het resultaat te delen door de standaarddeviatie:
Bovendien zijn gestandaardiseerde datapunten vergelijkbaar met gestandaardiseerde datapunten uit andere datareeksen, zelfs als de datareeksen verschillende variabelen betreffen die op verschillende schalen zijn gemeten.
68% van de datapunten ligt altijd binnen één standaarddeviatie van het gemiddelde, 95% van de datapunten liggen binnen twee standaarddeviaties en 99.7% van de datapunten liggen altijd binnen drie standaarddeviaties. Dat kan gemakkelijk worden verbeeld in de density plot van de normaalverdeling:
Op deze manier kunnen we density plots gebruiken om te kijken hoe groot de kans is dat we een bepaald datapunt vinden.
Density plot en de kans op een bepaalde waarde
Het is niet altijd gemakkelijk om twee lijnen te vergelijken en te zien in welke mate ze overeenkomen
Voor de drie verdelingen (een spitse verdeling, een bijna normale verdeling en een rechtsscheve verdeling) gelden de volgende waarden voor de zogenaamde Hartigans’ Dip Test, voor skewness (scheefheid) en voor kurtosis (spitsheid):
De getallen voor Dip Test, skewness en kurtosis zijn niet altijd gemakkelijk te interpreteren.
Data, statistiek en wetenschap
De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:
- Een unieke studie- en oefentool
- Nooit meer iets twee keer studeren
- Haal de cijfers waar je op hoopt
- 100% zeker alles onthouden