Feature Pruning and Normalization

6 belangrijke vragen over Feature Pruning and Normalization

Wat is de methode genaamd om woorden die niet vaak voorkomen in tekstcategorisatieproblemen te verwijderen?

Deze methode staat bekend als Pruning, een proces van het verwijderen van woorden om de dataset te verkleinen.

Is het behouden van een binair kenmerk dat slechts een klein aantal keer voorkomt aan te raden in tekstcategorisatie?

Bij binaire kenmerken kan het verwijderen van kenmerken die slechts een klein aantal K keer voorkomen, nuttig zijn.

Wat is een redelijke cutoff bij het toepassen van pruning op een dataset met 1000 items?

Een cutoff van 5 wordt als redelijk beschouwd wanneer toegepast op een dataset met 1000 items.
  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

Wat zijn de twee typen normalisatieprocedures die vaak worden toegepast in data-verwerking?

- Feature normalisatie past een aanpassing toe op elk kenmerk over alle voorbeelden heen, met methoden zoals centreren, schalen van variantie, en absoluut schalen.
- Example normalisatie past een aanpassing toe op elk individueel voorbeeld, zodanig dat de lengte van elke voorbeeldvector één wordt.

Wat houden de normalisatieprocessen 'centreren', 'variantie schalen' en 'absoluut schalen' precies in?

- Centreren: betekent dat de gegevensset zo wordt verplaatst dat deze rond de oorsprong gecentreerd is. Dit helpt te voorkomen dat sommige kenmerken arbitrair groot zijn.
- Variantie schalen: her-schaalt elk kenmerk zodat de variantie over de trainingsdata gelijk is aan 1.
- Absoluut schalen: her-schaalt elk kenmerk zodat de maximale absolute waarde gelijk is aan 1 over de trainingsdata.

Hoe bereken je de waarden voor μd, σd en rd die worden gebruikt bij feature normalisatie?

- μd is het gemiddelde van de waarden van een kenmerk over alle voorbeelden.
- σd is de standaardafwijking van de waarden van een kenmerk.
- rd is de maximale absolute waarde van de waarden van een kenmerk.

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo