Samenhang tussen twee variabelen met gelijk meetniveau - Kruistabel
28 belangrijke vragen over Samenhang tussen twee variabelen met gelijk meetniveau - Kruistabel
Welke toets wordt er gebruikt om de correlatiecoëfficiënt te toetsen?
Veronderstellingen:
Aselecte steekproef;
Gezamenlijke normaliteit in de populatie.
Op welke veronderstellingen is de T toets voor onafhankelijke steekproeven gebaseerd?
De steekproeven zijn uit beide deelpopulaties A-select getrokken;
De elementen in beide deelsteekproeven zijn onafhankelijk (de observaties zijn niet gekoppeld).
Van welke toetsgrootheid maak je gebruik wanneer de veronderstellingen van de t-toets ernstig worden geschonden?
Normaliteit schending = Mann-Whitney (bij onafhankelijke steekproeven) of de Wilcoxon Rank Sum test (bij afhankelijke steekproeven). Dit zijn verdelingsvrije toetsen. H0/H1 veranderen naar mediaan1 = mediaan2.
- Hogere cijfers + sneller leren
- Niets twee keer studeren
- 100% zeker alles onthouden
Op het moment dat we twee deelpopulaties onderzoeken, dan vormt het toetsen van de gelijkheid van het toetsen van de gelijkheid van de varianties een belangrijk onderdeel, waar is dat?
2 een keuze te kunnen maken tussen de beschikbare t-toetsgrootheden Ts of Tp voor het evalueren van hypothesen over verschillen tussen gemiddelden van deelpopulaties.
Welke toetgrootheden kunnen er worden gebruikt om de gelijkheid van varianties in twee deelpopulaties te onderzoeken?
Levene's F-toets;
Beide toetsen worden gebruikt voor het evalueren van de veronderstelde gelijkheid van varianties van de deelpopulaties: H0 : variantie1 = variantie2.
De Snedecor-Fisher F-toetsgrootheid is simpelweg gedefinieerd als F = variantie1 / variantie2 ~F(n1-1, n2-1); ze wordt tweezijdig uitgevoerd (of eenzijdig afhankelijk van H1)
De Levene F-toetsgrootheid is een anova F-grootheid voor een doelvariabele gedefinieerd als absolute waarde van het verschil tussen waarnemingsuitkomsten en groepsgemiddelde F = MSB/MSW ~ F (1, n-2); ze wordt altijd eenzijdig uitgevoerd.
Op basis van welke veronderstelling is de F-grootheid gebaseerd?
Hoe bepaalde je de linker en rechter grenswaarde bij onderzoek naar gelijkheid varianties van twee deelpopulaties?
CL = 1 / F y,x,0.05 <- let op dat de vrijheidsgraden df1 en df2 hier omdraaien!
Wat betekenen experimental design, response variable, factor en treatment??
Response variabele is een afhankelijke variabele Y;
Factoren zijn de verklarende variabelen (in variantieanalyse vaak A en B);
Treatments zijn de uitkomsten van de verklarende factor A, i=1,...,a. Je kan bijvoorbeeld wel/geen informatie laten zien dan zijn de factoren 0 en 1 geen en wel informatie.
Wat betekenen Total variation, between variation en within variation?
Som van (het gemiddelde van elke uitkomst ten opzichten van het overal gemiddelde.)
Between variation (verklaarde variatie): SSB variatie tussen groepsgemiddelden;
Som van (het gemiddelde van elke groep ten opzichten van het overall gemiddelde maal het aantal elementen in een deelsteekproef).
Within variation (niet-verklaarde variatie): SSW niet-verklaarde variatie, residuele variatie, variatie binnen groepen;
Som van (het aantal elementen uit een groep maal de variantie binnen de groep).
Wat is een simultaan betrouwbaarheidsinterval?
De consequentie hiervan is dat je een breder (onnauwkeuriger) interval krijgt dan corresponderende intervalschattingen van specifieke gevallen.
De Tukey (HSD) kan gebruikt worden om deze simultane betrouwbaarheidsintervallen te construeren.
Wat is de mate van verklaring R^2 (goodness-of-fit)?
Bij regressie:
SST - SSE / SST = 1 - (SSE / SST) = SSR / SST
Bij anova:
SST - SSW / SST = 1 - (SSW / SST) = SSB / SST
Dit kan bij een één factor anova model omdat het identiek is aan een regressiemodel met dummyvariabelen voor de onderscheiden deelpopulaties van de factor. De opsplitsing van de kwadratensom bij anova is dezelfde als bij regressieanalyse, de hieruit afgeleide R^2 en F-toetsen zijn ook identiek.
Wat zijn de bijbehorende vrijheidsgraden van de verschillende means of squares bij een tweefactor variantieanalyse?
dfMSBa*b = (a-1)(b-1)
dfMSBa = a-1
dfMSBb = b-1
dfMSW = n-ab
Hoe bepaal je de bijdrage van hoofdtermen, interactie termen en het model als geheel in een tweefactor variantie analyse?
Interactie effect = SSBa*b / SSVa*b + SSW)
Model als geheel = SSB = ( SSB + SSW) = gelijk aan de R^2
Wat zijn schaal uit schaal en tijd uit tijd verklaringen?
Betrokken variabelen X en Y hebben beide sterke volume componenten. Bijvoorbeeld lengte en gewicht van respondenten; er wordt dan een sterke samenhang gevonden zonder dat per se sprake is van een oorzakelijk verband.
TIjd uit tijd verklaring:
Betrokken variabelen X en Y variëren op dezelfde manier in de tijd. Voorbeeld: aanbod bloemkolen op veilingen en geboortes in Nederland, in 1950-2000; de gevonden sterke (positieve) samenhang is niet per se een aanwijzing van een oorzakelijk verband.
Hoe werkt de partiële correlatie?
Opschonen;
Toetsen van correlatiecoëfficiënten van zowel voor als na.
Verschillen beschrijven (aard, mate, significantie)
Hoe werkt de anova met covariaat?
Opschonen door two-way anova;
Is de uitkomst MSBa nog steeds even groot en significant ja/nee?;
Is de variabele waarvoor opgeschoond wordt ook significant?
Conclusie
Waarom wordt er gebruik gemaakt van regressieanalyse?
2 Behoefte aan inzicht in grootte effecten van afzonderlijke onafhankelijke variabelen op de verwachte waarde van de afhankelijke variabele;
3 Behoefte aan instrument om voorspellingen te doen over verwachte of individuele waarden van de afhankelijke variabele;
4 Behoefte aan een methode waarmee van meet af aan rekening wordt gehouden met overlappende verklaring door de onafhankelijk variabelen.
Wat betekend het dat een regressie model lineair additief in de parameters is?
Dit wordt geïllustreerd door ver vergelijking y = a + b1x1 + b2x2 (lineair, additief).
Wat is het verschil tussen een populatie regressiemodel en een steekproef regressie mode;?
Y= alpha + beta1X1 + ... +betakXk + epsilon, epsilon ~ iin(0,sigma^2) [ Onafhankelijk Identiek normaal verdeeld.]
Het steekproef regressiemodel geeft deze veronderstellingen weer op basis van het steekproef geschatte regressie model.
Y= alpha + beta1X1 + ... +betakXk + epsilon
Epsilon dakje = residu = echte waarde - voorspelde waarde Y.
Op de variabelen komen dakjes te staan
Wat is de storingsterm en welke veronderstellingen spelen er bij de storingsterm?
Specificatiefouten (bijvoorbeeld niet-lineariteit);
Niet systematische meetfouten.
Veronderstellingen:
1 Verwachte waarde is 0: E(sigma) = 0.
Dit betekend dat het model gemiddeld genomen goed zit.
2 Variantie's zijn allemaal gelijk (sigma).
Wanneer dit zo is wordt dit homoskedasticiteit genoemd.
3 De storingen zijn onafhankelijk van elkaar;
4 De storingen zijn onafhankelijk van systematisch del model;
5 De storingen zijn normaal verdeeld (met name van belang bij kleine steekproeven);
Wat is het verschil tussen de storingsterm en het residu?
Residuen zijn onderdeel van het steekproefmodel;
Residuen zijn op te vatten als voorspellers van de storingsterm epsilon evenals Ydak is op te vatten als voorspeller van Y.
Wat is de OLS methode?
Formeel: Min a,b van de SOM (Yi - (a+b * Xi))^2.
Wat is de gekwdrateerde standaardfout van het regressiemodel?
Uit welke elementen bestaat de standaard rapportage van een regressiemodel?
(standaardfout) (standaardfout)
R^2 = .. sigma = ... n = ...
Wat is de H0 en H1 bij het toetsen van restricties?
H1 : niet al deze n B's gelijk aan 0.
Wat is multicolineariteit en waarom kan dit niet voorkomen in een enkelvoudig regressiemodel?
Dit komt altijd in zekere mate voor, maar soms is het zo erg dat het een probleem wordt:
In regressieanalyse wordt er mee bedoeld dat de onafhankelijk, verklarende variabelen in het regressiemodel, zo sterk samenhangen dat hun gezamenlijke bijdrage aan de verklaring van de afhankelijk, te verklaren variabele, wel kan worden vastgesteld maar hun individuele bijdrage niet.
Waarom is multicollineariteit een probleem?
2 een andere nadelige consequentie is dat de parameterschattingen zelf niet langer plausibel zijn (niet goed weergeven wat er werkelijk speelt).
In beide gevallen kan men tot verkeerde conclusies voer de bijdrage van een variabele aan de verklaring van de afhankelijk komen.
Deze redeneringen zijn echter niet omkeerbaar: een niet-significante parameterschatting betekent nog niet dat sprake is van multicollineariteit maar kan ook betekenen dat er simpelweg geen effect is.
Hoe wordt een eventueel multicolineariteitsprobleem onderzocht aan de hand van de tolerantiewaarde?
De variance inflation factor VIF die berekend wordt door 1 / tol is een vergelijkbaar alternatief.
Hoe hoger de Tol (dichter bij 1), des te lager de R squared, des te minder hangt de afhankelijk variabele samen met de overige verklarende variabelen en des te minder reden is er om multicolineariteit te vermoeden.
Vuistregel: als de Tol lager dan 0,2 is, dan is er mogelijk sprake van een multicolineariteitsprobleem.
De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:
- Een unieke studie- en oefentool
- Nooit meer iets twee keer studeren
- Haal de cijfers waar je op hoopt
- 100% zeker alles onthouden