Instrumenten voor Business Intelligence - Data Mining - Data Mining Proces

19 belangrijke vragen over Instrumenten voor Business Intelligence - Data Mining - Data Mining Proces

Welke fasen kent een data mining proces?

  • Probleemidentificatie
  • Definieëren en construeren van de mining-tabel
  • Data mining
  • Modelevaluatie
  • Interpretatie
  • Gebruik van de resultaten
  • Modelmonitoring

 

Wat gebeurt er in de fase definieëren en construeren van de mining-tabel?

Het definieëren is in logische zin. Alle informatie over een voorkomen (instantie) van het mining-object dient in één record te worden weergegeven.

Bij het definiëren van de mining-tabel dient de structuur van de tabel te worden vastgelegd: welke attributen komen erin foor en hoe zijn ze gedefinieerd.

Welke mogelijkheid moet de data mining-omgeving bieden?

Om de data-marts die worden geïmplementeerd, te kunnen raadplegen. De data mart dient als uitgangsputn voor de gebruiker voor het opstellen van de mining tabel

  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

Noem een aantal voordelen van het minen op de originele dataset?

  • Er is sprake van inladen vanuit de data-mart naar de data mining-omgeving, waardoor performanceproblemen een kleinere rol spelen
  • Specifieke functies van het DBMS die worden gebruikt door de datamart kunnen worden benut, bijv indexen
  • Als de data-mart toegankelijk is voor schrijven, kunnen attributen gemaakt in, dan wel afgeleid uit, de data-mining omgeving hierin worden opgeslagen. Op deze manier is altijd op één plaats de inhoud van de data-mart beschikbaar

Noem een aantal nadelen van het minen op de originele dataset?

  • Als de data-mart read only is, kunnen nieuwe attributen die binnen de data mining omgeving worden gemaakt of afgeleid niet worden opgeslagen in de data mart. Deze attributen kunnen dan niet worden gebruikt bij het minen, tenzij het data mining systeem over een eigen cache beschikt waarin afgeleide gegevens kunnen worden bewaard
  • De inhoud van de data-mart is dynamisch. Aangezien analyses zich over een langere periode kunnen uitstrekken, zijn de gegevens waarop analyses plaatsvinden niet constant.

 

Wat is een voordeel van het minen op een kopie van de data-mart?

De data-analist is vrij om nieuwe attributen te definiëren en deze vast te leggen in de kopie

Wat is een nadeel van het minen op een kopie van de data-mart?

Dit neemt meer schrijfruimte in beslag, omdat de kopie bewaard moet worden

 

Noem een aantal redenen waardoor tijdens data mining projecten de eerste inventarisatie van eisen en wensen niet compleet is geweest

  • Niet alle eisen en wensen zijn aan het begin van de pilot duidelijk gedefinieerd
  • nieuwe data komen beschikbaar tijdens het project
  • nieuwe inzichten leiden tot de behoefte aan meer en andere data

Noem een aantal voorbeelden van het toevoegen van nieuwe attributen obv reeds in de tabel aanwezige attributen

  • Het afronden van numerieke attributen
  • het indelen in groepen (binning) van numerieke of discrete attributen, bijv leeftijdscategorieën
  • het afleiden van een nieuw attribuut obv een datumveld, bijv leeftijd obv datums
  • het afgeleide attribuut is een functie van een of meer andere attributen

Wat is aggregeren van attributen?

Het kantelen van tabellen waarbij attribuutwaarden uit de ene tabel omgezet worden naar attributen in de te minen tabel.

Wat moet de mining tool kunnen?

  • aggregeren van attributen
  • koppelen van tabellen
  • ontbrekende waarden invullen of negeren
  • ontdekken en elimineren van onjuiste waarden
  • sampling (steekproeven)

Welke functionaliteit moet aanwezig zijn bij het gebruik van de techniek Classificatiebomen?

  • Welke algoritmen (CART, C4.5, CHAID, etc) worden er ondersteund?
  • Is het mogelijk interactief splits af te dwingen/te 'prunen' /snoeien?
  • Is automatische pruning voorhanden?
  • Kunnen numerieke variabelen automatisch worden gediscretiseerd?
  • Zijn er verschillende kwaliteitsmaten voor evaluatie/vorming van de classficatieboom? (entropie, gini-index, etc)
  • Kunnen waarden van discrete variabelen automatisch worden gegroepeerd?
  • kan er gebruik worden gemaakt van prior-kansen, misclassificatiekosten en het wegen van observaties?

Welke functionaliteit moet aanwezig zijn bij het gebruik van de techniek associatieregels?

  • Met welke parameters kan de verzameling van regels X1,...,Xp -> Y beperkt worden tot een relevante/werkbare subset?
  • Kan interactief aangegeven worden welke variabelen in het rechterlid en/of in het linkerlid moeten voorkomen?
  • Zijn er verschillende zoekalgoritmen
  • Is het zoekproces te beïnvloeden via parameters?
  • Wordt het gebruik van hiërarchieën ondersteund?
  • Is alleen boolean toegestaan of ook andersoortige variabelen?
  • Hoe wordt er met elkaar overlappende regels omgegeaan?
  • Kunnen numerieke variabelen automatisch worden gediscretiseerd?
  • Kunnen waarden van discrete variabelen automatisch worden gegroepeerd?

Waarom is het gebruikelijk om bij de technieken classificatie/regressiemethoden te werken met een trainingsverzameling en een testverzameling?

Bij flexibele classificatie/regressiemethoden levert het in sample' (dwz op de trainingsverzameling) schatten van de goodness of fit een te positief resultaat op

Wat is het nadeel van het apart houden van een testverzameling voor de evaluatie?

Dat er minder gegevens beschikbaar zijn voor het construeren van het model

Welke functionaliteit dient de data mining-tool ten aanzien van validatie te hebben?

  • het evalueren van het model op een onafhankelijke testverzameling
  • het evalueren van het model met behulp van kruisvalidatie
  • automatische optimalisatie van de complexiteitsparameters
  • keuze uit verschillende evaluatiecriteria

Hoe kan interpretatie van resultaten worden ondersteund?

  • Eenvoudig te interpreteren modelrepresentatie. Een classificatieboom is bijvoorbeeld gemakkelijker te interpreteren dan een neuraal netwerk
  • Visualisatie van resultaten
  • Postprocessing van het model om interpretatie voor de gebruiker eenvoudiger te maken.

Wanneer een rapportage wordt opgemaakt, wat moet hierin worden weergegeven?

  • een beschrijving van de dataset
  • een beschrijving van de gevonden patronen/modellen
  • een aantal statistische gegevens als verdeling van attributen binnen de dataset
  • annotaties van de gebruiker

De mining tool moet een goed overzicht bijhouden van:

  • de tabellen waarop de verschillende analyses zijn uitgevoerd en de attributen die daarin voorkomen
  • de analyses die zijn uitgevoerd
  • de resultaten (modellen) die de analyses hebben opgeleverd
  • annotaties van de gebruiker bij tabellen en resultaten ten  behoeve van rapportage

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo