Displaying Distributions with Graphs

32 belangrijke vragen over Displaying Distributions with Graphs

1.1 Distributies grafisch weergeven
Wat wordt er in een verkennende data-analyse (exploratory analysis) beschreven? 

Hierin worden de belangrijkste kenmerken van een dataset beschreven.
 

Welke twee strategieën  kunnen gebruikt worden voor een data-analyse?

  • Onderzoek elke variabele eerst afzonderlijk. Vervolgens kijk je naar de relatie tussen de variabelen

  • Geef eerst grafisch de waarden van variabelen weer. Vervolgens kunnen er numerieke samenvattingen gemaakt worden van deze waarden

Diagrammen voor categorische variabelen
Hoe kan een distributie grafisch weergeven worden?

Door gebruik te maken van een:

  • Staafdiagram (bar graph):
    De hoogte geeft weer hoe vaak bep. waarden voorkomen. De frequenties staan op de y-as en de lengtes v.d. staven dienen daar ook mee te corresponderen 

  • Circeldiagram (pie chart):
    Hiermee kun je zien of er meer vrouwen dan mannen mee gebben gedaan aan een onderzoek. Circeldiagrammen maken geen gebruik van schalen. De hoeveelheden worden uitgedrukt in percentages! Het geheel moet altijd op 100% uitkomen. 
  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

Wat is het verschil tussen een staafdiagram en een cirkeldiagram?

Staafdiagrammen zijn makkelijker te interpreteren en zijn flexibeler. 
Bij een cirkeldiagram moet je op 100% uitkomen. Bij een staafdiagram kun je onafhankelijke groepen met elkaar vergelijken. 

Welk diagram wordt gebruikt voor kwantitatieve variabelen?

Een stam-en-bladdiagram oftwel stemplot wordt hiervoor gebruikt.

Wat is een stam-en-bladdiagram?

Een stam-en-bladdiagram geeft snel een beeld van de vorm van een distributie. Iedere waarde wordt in de oorspronkelijke vorm toegevoegd. 

Wanneer is het het handigst om een stam-en-bladdiagram te gebruiken?

Als er sprake is van niet al te veel observaties (die allemaal groter dan nul zijn). 

Wat is een rug-tot-rugdiagram (back to back stemplot)

Dit is een variant van de stam-en-bladdiagram. 

Wat kan je met een rug-tot-rugdiagram?

Met deze diagram kunnen twee gerelateerde distributies vergeleken worden. De diagram maakt gebruik van gemeenschappelijke stammen. 

Wat kan je als voorbeeld in een rug-tot-rugdiagram verwerken?

Het gewicht van mannen en vrouwen.
De stammen van de gewichten staan dan in het midden en er worden twee lijnen (zowel links als rechts) vanaf de stammen getrokken. Aan de rechterkant kun je dan bv. de bladeren van de vrouwen noteren en aan de linkerkant de bladeren van de mannen opschrijven.

Wanneer is het niet handig om stam-en-bladdiagrammen en rug-tot-rugdiagrammen te gebruiken?

Wanneer er een grote dataset gebruikt wordt.

Wat is het gevolg wanneer je het toch gebruikt?

Het kost je veel tijd om elke waarde in de diagram te verwerken en het ziet er onoverzichtelijk uit. 

Wat kan je het beste gebruiken om het probleem van tijd en onoverzichtelijkheid tegen gaan? 

Je kan het beste gebruik maken van:

Splitting each stem: Elke stam door twee te delen, en de bladeren verdelen van 0 tot 4 bij de eerste stam, en 5 tot 9 bij de tweede stam

Trimming: Je maakt de cijfers passend wanneer de geobserveerde waarden veel cijfers bevatten. Dit wordt gedaan door de laatste cijfers te verwijderen voordat een stam-en-bladdiagram gemaakt wordt. 

Wat gebeurt er wanneer te weinig klassen zijn gemaakt?

Dan krijg je een pancake grafiek, waarbij de meeste staven een of geen observaties bevat. 

Welke ..gram duurt het langst om te maken en waarom?

Histogrammen vergen het meeste tijd, in vergelijking met stam-en-bladdiagrammen. De oorspronkelijke datawaarden komen niet letterlijk voor in een histrogram

Verschillen tussen histogrammen en staafsiagrammen
Kenmerken van een histogram zijn?

  • de staven staan precies tegen elkaar aan

  • het gaat om de frequenties of percentages van verschillende waarden van een variabele

  • Als het gaat om een numerieke variabele (bijvoorbeeld IQ, lengte of gewicht), wordt er gebruik gemaakt van een histogram! 

Welk diagram gebruik je bij categorische variabelen?

Staafdiagrammen

Wat zijn de belangrijkste kenmerken van de distributie?

  • Bekijk het algemene patroon (overall pattern) en let goed op opvallende afwijkingen van het algemene patroon (deviatons)

  • Er moet gekeken naar de vorm (shape), het midden (center) en de spreiding (spread) binnen een dataset. 

Wat is het midden van een distributie?

Het midden is de waarde waardoor de helft van de observaties kleiner is dan die waarde en de andere helft groter is dan die waarde. 

Hoe kan de spreiding van een distributie het beste beschreven worden?

De spreiding kan het beschreven worden door naar de kleinste en grootste waarden te kijken. Bv. bij IQ.

Hoe heet een verdeling met 1 piek (mode)?

Unimodaal

Wanneer is een distributie symmetrisch? 

Wanneer de waarden kleiner en groter dan het midden punt aan elkaar gespiegeld kunnen worden. 

Wanneer de distributie een afwijking naar rechts heeft (skewed to the right), wat is er dan aan de hand?

Dan is de rechterstaart (die bestaat uit grotere waarden) veel langer dan de linkerstaart (die uit kleine waarden bestaat). 

Wat voor distributie hebben huizenprijzen?

Huizenprijzen hebben een distributie met een afwijking naar rechts. Veel huizen zijn ongeveer even duur, terwijl er een aantal zeer dure villa's bestaan.

Wat voor distributie hebben lengte en IQ vaak?

Lengte en IQ zijn variabelen die vaak een (ongeveer) symmetrische distributie hebben. Er zijn nl. maar weinig mensen die extreem klein of extreem groot zijn en de gros van de mensen scoort gemiddeld. 

Uitbijters
Wat is een uitbijter (outlier)?

Dit is een individuele score die duidelijk buiten het algemene patroon valt

Hoe stel je vast dat er uitbijters aanwezig zijn?

Dit gaat niet volgens specifieke regels. Je moet zelf op onderzoek uit welke scores als afwijkend bestempeld moeten worden. Zoek naar de waarden die anders zijn dan de meeste waarden. 

Tijdplots (time plots)
Waarom is het handig om een tijdplot te gebruiken?

Wanneer data door de tijd heen verzameld wordt, is het handig om a.d.h.v. tijdplots de observaties grafisch op volgorde te verwerken. 

Waarom zijn historammen en stam-en-bladdiagrammen niet goed te gebruiken voor informatie die door de tijd heen is verzameld?

Er kan nl. sprake zijn van systematische veranderingen door de tijd heen.

Wat is een tijdserie (time series)?

Dit zijn metingen van een variabele die op verschillende momenten zijn gedaan. Bv. landelijke werkeloosheid per kwartaal.

Wat is seizoen gerelateerde variatie (seasonal variation?)

Een patroon die zich in een tijdserie steeds op specifieke momenten herhaalt

Waarom wordt er gebruik gemaakt van seizoen gerelateerde aanpassing (seasonal adjustment)?

Zodat de onderzoeksresultaten geen misleidend effect hebben. 

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo