Cross Validation
8 belangrijke vragen over Cross Validation
Wat is een nadeel van het gebruik van ontwikkelingsdata bij het schatten van één of twee hyperparameters?
Wat houdt k-fold cross-validatie in?
- Het algoritme wordt getraind op k-1 delen en getest op het overgebleven deel.
- Dit proces wordt k keer herhaald, waarbij elke keer een ander deel wordt gebruikt voor validatie.
- De gemiddelde prestatie over de k delen geeft een schatting van de modelprestaties.
- Herhaal voor elke mogelijke combinatie van hyperparameters om de beste configuratie te bepalen.
Welke waardes van K worden typisch gebruikt in k-fold cross-validatie en waarom?
- Meest gebruikelijk is K = 10 (tienvoudige cross-validatie) voor een goede schatting van modelprestatie.
- K = 5 wordt gebruikt om efficiëntieredenen.
- K = 2 om subtiele statistische redenen.
- K = N – 1 staat bekend als leave-one-out cross-validatie (LOO).
- Hogere cijfers + sneller leren
- Niets twee keer studeren
- 100% zeker alles onthouden
Welke opties heb je na het draaien van cross-validatie en welke is beter?
- Train een nieuw model op alle data, gebruikmakend van de door cross-validatie geselecteerde hyperparameters (betere optie).
- Cross-validatie is kostbaar om uit te voeren, behalve voor KNN.
Hoe wordt het algoritme genoemd dat is beschreven in de voorziene pseudocode?
- De waarde van K kan variëren afhankelijk van de behoeften, zoals efficiëntie of statistische nauwkeurigheid.
- Idealiter worden hyperparameterinstellingen die de laagste fout opleveren vastgelegd.
Wat houdt cross-validatie voor KNN in volgens Algorithm 9 KNN-Train-LOO(D)?
- Voor elke trainingselement wordt gecontroleerd of de classificatie correct zou zijn over alle mogelijke K-waarden.
- De algehele berekening is gelijk aan het bepalen van de K dichtstbijzijnde buren voor de hoogste K-waarde.
- Het algoritme retourneert de K-waarde met de laagste fout.
Wat zijn de voordelen van Cross Validation vergeleken met ontwikkelingsdata?
- Biedt snelheid bij het evalueren van modellen
Waar moet men op letten bij het toepassen van Cross Validation?
- Beide datasets moeten uit dezelfde distributie getrokken worden
De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:
- Een unieke studie- en oefentool
- Nooit meer iets twee keer studeren
- Haal de cijfers waar je op hoopt
- 100% zeker alles onthouden