Samenhang tussen twee variabelen met gelijk meetniveau - Kruistabel

28 belangrijke vragen over Samenhang tussen twee variabelen met gelijk meetniveau - Kruistabel

Welke toets wordt er gebruikt om de correlatiecoëfficiënt te toetsen?

T = r / wortel [ (1 - r^2) / (n - 2)] ~ t (n-2).

Veronderstellingen:
Aselecte steekproef;
Gezamenlijke normaliteit in de populatie.

Op welke veronderstellingen is de T toets voor onafhankelijke steekproeven gebaseerd?

Deelpopulaties zijn normaal verdeeld;
De steekproeven zijn uit beide deelpopulaties A-select getrokken;
De elementen in beide deelsteekproeven zijn onafhankelijk (de observaties zijn niet gekoppeld).

Van welke toetsgrootheid maak je gebruik wanneer de veronderstellingen van de t-toets ernstig worden geschonden?

Onafhankelijkheid schending = t-toets gepaarde waarnemingen;
Normaliteit schending = Mann-Whitney (bij onafhankelijke steekproeven) of de Wilcoxon Rank Sum test (bij afhankelijke steekproeven). Dit zijn verdelingsvrije toetsen. H0/H1 veranderen naar mediaan1 = mediaan2.
  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

Op het moment dat we twee deelpopulaties onderzoeken, dan vormt het toetsen van de gelijkheid van het toetsen van de gelijkheid van de varianties een belangrijk onderdeel, waar is dat?

1 wens om inzicht te krijgen in eventuele verschillen in de variantie in beide deelpopulaties als doel op zichzelf;
2 een keuze te kunnen maken tussen de beschikbare t-toetsgrootheden Ts of Tp voor het evalueren van hypothesen over verschillen tussen gemiddelden van deelpopulaties.

Welke toetgrootheden kunnen er worden gebruikt om de gelijkheid van varianties in twee deelpopulaties te onderzoeken?

Snedecor-Fisher F-toets;
Levene's F-toets;

Beide toetsen worden gebruikt voor het evalueren van de veronderstelde gelijkheid van varianties van de deelpopulaties: H0 : variantie1 = variantie2.

De Snedecor-Fisher F-toetsgrootheid is simpelweg gedefinieerd als F = variantie1 / variantie2 ~F(n1-1, n2-1); ze wordt tweezijdig uitgevoerd (of eenzijdig afhankelijk van H1)

De Levene F-toetsgrootheid is een anova F-grootheid voor een doelvariabele gedefinieerd als absolute waarde van het verschil tussen waarnemingsuitkomsten en groepsgemiddelde F = MSB/MSW ~ F (1, n-2); ze wordt altijd eenzijdig uitgevoerd.

Op basis van welke veronderstelling is de F-grootheid gebaseerd?

De steekproeven zijn aselect (en onafhankelijk) getrokken uit normaal verdeelde deelpopulaties ~n(mu, sigma^2)

Hoe bepaalde je de linker en rechter grenswaarde bij onderzoek naar gelijkheid varianties van twee deelpopulaties?

CR = F x,y, 0.05
CL = 1 / F y,x,0.05 <- let op dat de vrijheidsgraden df1 en df2 hier omdraaien!

Wat betekenen experimental design, response variable, factor en treatment??

experimental design verwijst naar de oorspronkelijke toepassing van variantie-analyse in experimenten;
Response variabele is een afhankelijke variabele Y;
Factoren zijn de verklarende variabelen (in variantieanalyse vaak A en B);
Treatments zijn de uitkomsten van de verklarende factor A, i=1,...,a. Je kan bijvoorbeeld wel/geen informatie laten zien dan zijn de factoren 0 en 1 geen en wel informatie.

Wat betekenen Total variation, between variation en within variation?

Total variation (tatale variatie): SST variatie van de te verklarende variabele (S^2) maal het aantal observaties minus één (n-1);
Som van (het gemiddelde van elke uitkomst ten opzichten van het overal gemiddelde.)

Between variation (verklaarde variatie): SSB variatie tussen groepsgemiddelden;
Som van (het gemiddelde van elke groep ten opzichten van het overall gemiddelde maal het aantal elementen in een deelsteekproef).

Within variation (niet-verklaarde variatie): SSW niet-verklaarde variatie, residuele variatie, variatie binnen groepen;
Som van (het aantal elementen uit een groep maal de variantie binnen de groep).

Wat is een simultaan betrouwbaarheidsinterval?

Een betrouwbaarheidsinterval dat alle verschillende paarsgewijze verschillen schat. Het is dus de kans dat de interval schatting alle de intervalschattingen tegelijk (simultaan) de a(a-1) verschillen omsluit.

De consequentie hiervan is dat je een breder (onnauwkeuriger) interval krijgt dan corresponderende intervalschattingen van specifieke gevallen.

De Tukey (HSD) kan gebruikt worden om deze simultane betrouwbaarheidsintervallen te construeren.

Wat is de mate van verklaring R^2 (goodness-of-fit)?

Het aandeel van de verklaarde variantie ten opzichten van het totale variantie:
Bij regressie:
SST - SSE / SST = 1 - (SSE / SST) = SSR / SST

Bij anova:
SST - SSW / SST = 1 - (SSW / SST) = SSB / SST
Dit kan bij een één factor anova model omdat het identiek is aan een regressiemodel met dummyvariabelen voor de onderscheiden deelpopulaties van de factor. De opsplitsing van de kwadratensom bij anova is dezelfde als bij regressieanalyse, de hieruit afgeleide R^2 en F-toetsen zijn ook identiek.

Wat zijn de bijbehorende vrijheidsgraden van de verschillende means of squares bij een tweefactor variantieanalyse?

dfMSB = ab-1
dfMSBa*b = (a-1)(b-1)
dfMSBa = a-1
dfMSBb = b-1
dfMSW = n-ab

Hoe bepaal je de bijdrage van hoofdtermen, interactie termen en het model als geheel in een tweefactor variantie analyse?

Hoofdeffect = SSBa / ( SSBa + SSW)
Interactie effect = SSBa*b / SSVa*b + SSW)
Model als geheel = SSB = ( SSB + SSW) = gelijk aan de R^2

Wat zijn schaal uit schaal en tijd uit tijd verklaringen?

Schaal uit schaal:
Betrokken variabelen X en Y hebben beide sterke volume componenten. Bijvoorbeeld lengte en gewicht van respondenten; er wordt dan een sterke samenhang gevonden zonder dat per se sprake is van een oorzakelijk verband.

TIjd uit tijd verklaring:
Betrokken variabelen X en Y variëren op dezelfde manier in de tijd. Voorbeeld: aanbod bloemkolen op veilingen en geboortes in Nederland, in 1950-2000; de gevonden sterke (positieve) samenhang is niet per se een aanwijzing van een oorzakelijk verband.

Hoe werkt de partiële correlatie?

Oude correlaties;
Opschonen;
Toetsen van correlatiecoëfficiënten van zowel voor als na.
Verschillen beschrijven (aard, mate, significantie)

Hoe werkt de anova met covariaat?

Oude F waarde (significant ja/nee);
Opschonen door two-way anova;
Is de uitkomst MSBa nog steeds even groot en significant ja/nee?;
Is de variabele waarvoor opgeschoond wordt ook significant?

Conclusie

Waarom wordt er gebruik gemaakt van regressieanalyse?

1 Behoefte aan inzicht in gezamenlijke bijdrage verschillende onafhankelijke variabelen aan verklaring variatie afhankelijke variabele;
2 Behoefte aan inzicht in grootte effecten van afzonderlijke onafhankelijke variabelen op de verwachte waarde van de afhankelijke variabele;
3 Behoefte aan instrument om voorspellingen te doen over verwachte of individuele waarden van de afhankelijke variabele;
4 Behoefte aan een methode waarmee van meet af aan rekening wordt gehouden met overlappende verklaring door de onafhankelijk variabelen.

Wat betekend het dat een regressie model lineair additief in de parameters is?

Dit betekend dat de termen van het regressiemodel als een optelling (additief) gespecificeerd zijn, waarbij elke parameter slehct op enkelvoudig (inleair) voorkomt.

Dit wordt geïllustreerd door ver vergelijking y = a + b1x1 + b2x2 (lineair, additief).

Wat is het verschil tussen een populatie regressiemodel en een steekproef regressie mode;?

Het populatie regressiemodel vat alle veronderstellingen over de relatie in de populatie samen.

Y= alpha + beta1X1 + ... +betakXk + epsilon, epsilon ~ iin(0,sigma^2) [ Onafhankelijk Identiek normaal verdeeld.]

Het steekproef regressiemodel geeft deze veronderstellingen weer op basis van het steekproef geschatte regressie model.

Y= alpha + beta1X1 + ... +betakXk + epsilon
Epsilon dakje = residu = echte waarde - voorspelde waarde Y.
Op de variabelen komen dakjes te staan

Wat is de storingsterm en welke veronderstellingen spelen er bij de storingsterm?

Niet-waarneembare of anderszins weggelaten variabelen;
Specificatiefouten (bijvoorbeeld niet-lineariteit);
Niet systematische meetfouten. 

Veronderstellingen:
1 Verwachte waarde is 0: E(sigma) = 0.
Dit betekend dat het model gemiddeld genomen goed zit.
2 Variantie's zijn allemaal gelijk (sigma).
Wanneer dit zo is wordt dit homoskedasticiteit genoemd.
3 De storingen zijn onafhankelijk van elkaar;
4 De storingen zijn onafhankelijk van systematisch del model;
5 De storingen zijn normaal verdeeld (met name van belang bij kleine steekproeven);

Wat is het verschil tussen de storingsterm en het residu?

Storingsterm is onderdeel van het populatieregressiemode;
Residuen zijn onderdeel van het steekproefmodel;
Residuen zijn op te vatten als voorspellers van de storingsterm epsilon evenals Ydak is op te vatten als voorspeller van Y.

Wat is de OLS methode?

De methode der kleinste kwadraten komt neer op het vinden van scharringen voor de onbekende parameters alpha en beta zodanig dat de som van de gekwadrateerde verschillen van de waargenomen Yi tot de geschatte regressielijn zo klein mogelijk is.

Formeel: Min a,b van de SOM (Yi - (a+b * Xi))^2.

Wat is de gekwdrateerde standaardfout van het regressiemodel?

De som van [de gekwadrateerde residuën / (n-k-1)]

Uit welke elementen bestaat de standaard rapportage van een regressiemodel?

Y = alpha - beta1 X1
   (standaardfout) (standaardfout)
R^2 = .. sigma = ... n = ...

Wat is de H0 en H1 bij het toetsen van restricties?

H0: Beta1 = ... = Betax = 0 (... wel benoemen!)
H1 : niet al deze n B's gelijk aan 0.

Wat is multicolineariteit en waarom kan dit niet voorkomen in een enkelvoudig regressiemodel?

Onderlinge samenhang tussen de verklarende variabelen in een model. Multicolineariteit is een ander woord voor meervoudige samenhang.

Dit komt altijd in zekere mate voor, maar soms is het zo erg dat het een probleem wordt:

In regressieanalyse wordt er mee bedoeld dat de onafhankelijk, verklarende variabelen in het regressiemodel, zo sterk samenhangen dat hun gezamenlijke bijdrage aan de verklaring van de afhankelijk, te verklaren variabele, wel kan worden vastgesteld maar hun individuele bijdrage niet.

Waarom is multicollineariteit een probleem?

1 nadelige consequentie is dat de standaardfouten van de parameterschatting groot worden waardoor de geschatte bijdrage van de betreffende variabelen niet significant is.

2 een andere nadelige consequentie is dat de parameterschattingen zelf niet langer plausibel zijn (niet goed weergeven wat er werkelijk speelt).

In beide gevallen kan men tot verkeerde conclusies voer de bijdrage van een variabele aan de verklaring van de afhankelijk komen.

Deze redeneringen zijn echter niet omkeerbaar: een niet-significante parameterschatting betekent nog niet dat sprake is van multicollineariteit maar kan ook betekenen dat er simpelweg geen effect is.

Hoe wordt een eventueel multicolineariteitsprobleem onderzocht aan de hand van de tolerantiewaarde?

Er worden hulpregressiemodellen opgesteld voor elke afzonderlijke verklarende variabele. Hieruit komt een R squared voor per hulpregressiemodel. De tolerantiewaarde wordt gevonden als 1- r squared, hoe hoger de tolerantiewaarde hoe beter.

De variance inflation factor VIF die berekend wordt door 1 / tol is een vergelijkbaar alternatief.

Hoe hoger de Tol (dichter bij 1), des te lager de R squared, des te minder hangt de afhankelijk variabele samen met de overige verklarende variabelen en des te minder reden is er om multicolineariteit te vermoeden.

Vuistregel: als de Tol lager dan 0,2 is, dan is er mogelijk sprake van een multicolineariteitsprobleem.

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo