Correlation and Linear Regression

9 belangrijke vragen over Correlation and Linear Regression

Interpretatie van correlatie / PCC

Moet heel voorzichtig gebeuren aangezien wellicht wel een numeriek verband wordt aangetoond maar geen causaal verband kan worden aangetoond.

  • Als x verandert met 1 standaard deviatie,  met hoeveel standaard deviatie verandert dan y?
  • r2

Wanneer kan de 'r' niet worden berekend middels Pearson's CC?

  1. Bij niet normaal verdeelde data
  2. niet lineaire samenhang
  3. flinke uitschieters in de spreiding

ALTIJD EERST JE DATA in Scatterplot BEKIJKEN!!!

Welke test kan men inzetten als de Pearson's CC (parametrisch) niet kan worden gedaan?

Spearman RANK CC (NON-parametrisch)
  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

Spearman's rank CC (NON-Parametrische test)

  • Wordt ingezet als er uitschieters zijn in de scatterplot of niet normaal verdeeld data en de 'r' niet kan worden bepaald.
  • non-parametrische test
  • Maakt gebruik van rangnummers die aan data wordt toegekend en waarop de 'r' wordt berekend
  • Inzetten bij kleine sample size!
  • Ook deze non-parametrische test is conservatief en onderschat het effect van de correlatie en overschat de p-waarde. Dit maakt de toets conservatiever en statistisch minder krachtig.


Hierna wordt de 'r' waarde berekend net als bij parametrische toetsten. Maar dan op rangnummer.

Wanneer wordt Spearman's Rank ook ingezet?

  1. Als x en y wordt gemeten op een ordinale schaal
  2. Bij kleine sample size

Wanneer wordt Lineaire Regressie ingezet?

Om voorspellingen te doen over een variabele met de waarde van een andere variabele. Met regressie wordt de beste passende lijn getrokken door een scatterplot met verschillende punten erin.
Dit gebeurt met een statistische truc:

EERSTE GRAAD FUNCTIE:
y = a + bx + e (=error)


Y = Afhankelijke variabele (outcome)
X= Onafhankelijke variabele (predictor)
a= intercept
b =

Lineaire regressie: least square method

  • Ideale regressielijn: totale gekwadrateerde verticale afstand tussen de punten en de regressielijn, is zo klein mogelijk.
  • Verticale afstanden: residuen
  • Testen middels uitrekenen van de 'R' =
  • Gestandaardiseerde regressie-coëfficient.
  • R2 wordt uitgerekend = verklaarde variantie.
  • = percentage van de variabiliteit van y die verklaard wort door de variabiliteit in waarde x
  • Adjusted R2= conservatiever dan R2 en is aangepast voor de overschatting van R2.

Lineaire Regressie, testen met

  • De waarde R berekenen: Gestandaardiseerde Regressie-coefficient
  • ANOVA test met F-ratio berekenen met een p-waarde!

F-ratio drukt voorspellend vermogen van de regressielijn tov gemiddelde uit.
F=0 is goed! Tevens getoetst met p-waarde

Assumpties voor Lineaire Regressie:

  1. Er is sprake van lineair verband tussen x en y.
  2. Dit kun je beoordelen met SCATTERPLOT
  3. Variantie is normaal verdeeld
  4. Dat kun je achterhalen door een analyse te maken van de residuen > verdeling moet normaal zijn.
  5. Variantie van waarden x moeten constant zijn:
  6. variabiliteit van alle waarden y in de populatie zijn gelijk voor alle waarden x.    
  7. analyse van de residuen...   

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo