A Sanity Check

24 belangrijke vragen over A Sanity Check

Wat gebeurt er in de eerste stap van de RL training procedure?

De omgeving wordt gereset om \( o_0 \) te verkrijgen.

Waarvan is de training in Reinforcement Learning afhankelijk?

Van de interacties tussen de omgeving en de beslissingen van de agent.

Wat wordt aangepast aan de hand van verzamelde beloningen in RL?

Het beleid (\( \pi \)) om acties te kiezen wordt aangepast.
  • Hogere cijfers + sneller leren
  • Niets twee keer studeren
  • 100% zeker alles onthouden
Ontdek Study Smart

Hoe wordt de procedure van Reinforcement Learning doorgaans uitgebreid?

Met steunsystemen zoals:
- Korte termijn geheugen
- Verbeterde goksubprocedures

Wie ontwerpt en voert de RL training procedure uit?

Menselijke werkers met behulp van een gespecialiseerde gereedschapsset.

Hoe functioneert de controller na te zijn ingezet in productie?

Het past de geleerde beleidsneuraalnetwerk toe op invoervectoren om een uitvoer te produceren.

Wat is de rol van de simulator in de RL training procedure?

De simulator reageert op acties met beloningen en updates van de staat.

Wat onderbreekt de cyclus in de RL procedure?

Een subprocedure die beslist de cyclus te stoppen voor een nieuwe sessie.

Hoe wordt de efficiëntie van de controller beoordeeld in RL?

Op basis van prestaties over geselecteerde stalen van de trainingsdistributie.

Welk principe is essentieel voor het stoppen van de RL training procedure?

De testdistributie moet hetzelfde zijn als de trainingsdistributie.

Wat is de functie van de observatie \( a_t, \eta_t \) in de RL procedure?

Om de volgende acties en beleid updates te informeren.

Wat is het doel van het bijwerken van het beleid \( \pi \) in RL?

Om de gekozen acties te verbeteren op basis van waargenomen beloningen.

Hoe wordt in de RL procedure de interactie met de omgeving uitgevoerd?

Door herhaalde cycli van acties en waarnemingen tot een subprocedure de stop zet.

Wat gebeurt er met de controller na de training in RL?

Het herhaalt hetzelfde geleerde beleid tegen zintuiglijke inputs zonder echte overweging.

Welke kritiek werd geuit op kunstmatige intelligentie door Hervé Bourlard?

"Artificiële intelligentie heeft geen intelligentie."

Wat is het primaire doel van Reinforcement Learning (RL)?

Het automatiseren van de productie van software voor een specifieke taak in een specifieke omgeving.

Waarmee wordt een typisch RL-beleid in technische termen vergeleken?

Een 'curried planner' met betrekking tot een vooraf gedefinieerde doel/omgeving-koppeling.

Waarin verschilt de ambitie van RL van algemene intelligentie?

RL richt zich op specifieke taken, terwijl algemene intelligentie arbitraire bevelen verwerkt.

Wat wordt bedoeld met 'compilatie' in de context van RL?

Het compileren van interactielogboeken in plaats van bijvoorbeeld C++ code.

Waarom wordt 'compressie' de voorkeur gegeven in machine learning (ML)?

Omdat in ML de term verwijst naar het compileren van interactielogboeken.

Onder welke voorwaarde is RL een geldig kosten-efficiënt alternatief voor standaard engineeringprocedures?

Als de wereld en de taak blijven zoals ze waren tijdens de training.

Welke resources worden aangenomen nodig te zijn voor het bouwen van een snelle simulator in RL?

Domeinkennis en fondsen.

Wat impliceert de discrepantie tussen RL en algemene intelligentie volgens de tekst?

Dat ze fundamenteel verschillende ambities hebben.

Hoe beschrijft de tekst de aanpak van RL vanuit een engineeringperspectief?

Als een compilatieprocedure.

De vragen op deze pagina komen uit de samenvatting van het volgende studiemateriaal:

  • Een unieke studie- en oefentool
  • Nooit meer iets twee keer studeren
  • Haal de cijfers waar je op hoopt
  • 100% zeker alles onthouden
Onthoud sneller, leer beter. Wetenschappelijk bewezen.
Trustpilot-logo