Regressie - Field - Field over regressie

11 belangrijke vragen over Regressie - Field - Field over regressie

Rechtlijnige verbanden worden weergegeven met een?

lineair model, dat kan worden afgebeeld als een regressielijn.

Wat geeft een linear model?

ons de mogelijkheid om op basis van dit model een voorspelling te doen over de uitkomst bij een bepaalde waarde van een predictor variabele

In de Nederlandse context worden lineaire modellen als volgt weergegeven:

In dit model is X1 een predictor variabele, b0 de intercept van de lijn en b1 de representatie van de helling of gradiënt van de lijn. Het laatste gedeelte εi is een term die de fout aangeeft die gepaard gaat met een voorspelling.
  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

Hoe goed een model de werkelijkheid weergeeft, kunnen we nagaan door te kijken naar de?

afwijkingen tussen het model en de verzamelde data, met andere woorden naar de residuals, de verschillen tussen door het model voorspelde waarden en de werkelijke datapunten. Deze werkwijze is ook van toepassing op een regressielijn.

De totale ruis of error in een model bestaat uit de gekwadrateerde verschillen (zie hiervoor ook pagina 31):

Dit totaal wordt de residual sum of squares (SSR) genoemd. SSR is daarmee een maat voor de juistheid van het model. Met de methode ordinary least squares (OLS) kunnen de waarden van de parameters b in het regressiemodel geschat worden die de kleinst mogelijke waarde voor SSR opleveren.

Om de goodness of fit van een model te bepalen, hebben we een baseline model nodig. We gebruiken hiervoor het gemiddelde van de uitkomst, omdat dit overeenkomt met een model waarin geen verband voorkomt.

We berekenen het totaal van de gekwadrateerde verschillen SST tussen de werkelijke waarden en de waarden die het baseline model voorspelt (die altijd dezelfde waarde hebben, namelijk van het gemiddelde), vervolgens de SSR van het lineaire model en tenslotte de verschillen SSM tussen het gemiddelde van Y en het model. SSM, de model sum of squares, is het verschil tussen SST en SSR en bepaalt hoeveel beter het lineaire model de werkelijkheid representeert dan het baseline model. Dat gebeurt met R^2 , die de verhouding weergeeft tussen model sum of squares en total sum of squares:

De sums of squares worden ook gebruikt voor de F-toets.

De test statistic F is gebaseerd op de verhouding tussen SSM en SSR maar maakt gebruik van de mean squares. Deze mean sum of squares is de sum of squares, gedeeld door de vrijheidsgraden. Voor SSM geldt dat het aantal vrijheidsgraden gelijk is aan het aantal predictors k in het model. Voor SSR is het aantal vrijheidsgraden gelijk aan het aantal waarnemingen N, minus het aantal b parameters (wat neerkomt op k + 1) en daarmee gelijk aan N – k – 1. Daarom geldt het volgende:

Voor t geldt een verdeling die afhangt van?

vrijheidsgraden. De vrijheidsgraden zijn in dit geval N – k – 1. Met één predictor komt dit neer op N – 2. Met gebruik van een juiste t-distributie kan een p-waarde berekend worden die een indicatie is van de waarschijnlijkheid dat we een t krijgen die minstens zo groot is als wanneer de nulhypothese waar zou zijn. Als deze p kleiner is dan (bijvoorbeeld) 0.05 mag aangenomen worden dat b significant verschilt van 0 en dat de predictor een significant effect heeft op de uitkomst.

Tot nu toe hebben we alleen naar niet-gestandaardiseerde residuals gekeken, gemeten in dezelfde eenheden als de uitkomstvariabele. Hierdoor was het moeilijk om algemene uitspraken te doen. Dit kan opgelost worden door?

te werken met gestandaardiseerde residuals. De residuals worden geconverteerd naar z-scores, worden uitgedrukt in standaarddeviaties en zijn verdeeld rond een gemiddelde van 0. Een derde soort vormen de gestudentiseerde residuals: de niet-gestandaardiseerde residuals gedeeld door een schatting van de standaarddeviatie per datapunt.

We willen een lineair model graag kunnen generaliseren naar andere steekproeven. Daarvoor moet aan een aantal voorwaarden worden voldaan. Een lineair model moet de volgende kenmerken hebben:

Additiviteit en lineariteit: de uitkomstvariabele moet lineair gerelateerd zijn aan de predictor.

Onafhankelijke fouten: de residuals uit verschillende steekproeven mogen niet gecorreleerd zijn; er mag geen sprake zijn van autocorrelatie.

Homoscedasticiteit: de variantie van de residuals moet bij elke grootte van de predictor constant zijn.

Normaal verdeelde fouten: de residuals in het model moeten random en normaal verdeelde variabelen zijn met een gemiddelde van 0.

Bij het toepassen van lineaire modellen, moeten we een aantal stappen doorlopen:

› Het genereren van scatterplots om een indruk te krijgen van de lineariteit en om outliers te signaleren.

› Het zo nodig transformeren van data om eventuele problemen uit de vorige stap op te lossen.

› Het toepassen van het model en controleren op lineariteit, significantie, verdeling, betrouwbaarheidsintervallen, homoscedasticiteit en onafhankelijkheid.

› Het zo nodig aanpassen van het model. Aandachtspunt daarbij is dat, als de steekproef groot genoeg is, zaken als normaalverdeling vanzelf goed gaan.

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo