Ga naar de inhoud
Informatica · Klas 5 VWO · Kunstmatige Intelligentie en Maatschappij · Periode 4

Data voor Machine Learning: Kwaliteit en Bias

Leerlingen onderzoeken het belang van datakwaliteit en de impact van bias in trainingsdata op de prestaties van ML-modellen.

SLO Kerndoelen en EindtermenSLO: Voortgezet onderwijs - AnalyseSLO: Voortgezet onderwijs - Ethiek

Over dit onderwerp

Dit onderwerp richt zich op de cruciale rol van datakwaliteit en bias in machine learning. Leerlingen in klas 5 VWO onderzoeken hoe incomplete, onnauwkeurige of onevenwichtige trainingsdata de prestaties van ML-modellen ondermijnt. Ze analyseren voorbeelden zoals gezichtsherkenningssystemen die minder accuraat zijn voor donkere huidskleuren door biased datasets. Dit bouwt begrip op voor concepten als precisie, recall en fairness metrics.

In de SLO-kerndoelen voor voortgezet onderwijs verbindt dit topic analysevaardigheden met ethische overwegingen in kunstmatige intelligentie. Leerlingen leren datasets te inspecteren op vertekening, zoals demografische onevenwichtigheid, en strategieën te ontwikkelen voor mitigatie, bijvoorbeeld door oversampling of data-augmentatie. Het stimuleert kritisch denken over maatschappelijke impact, relevant voor de unit Kunstmatige Intelligentie en Maatschappij.

Actieve leerbenaderingen maken dit onderwerp effectief omdat abstracte begrippen zoals bias tastbaar worden door praktische datasetanalyses. Wanneer leerlingen in groepen echte datasets onderzoeken en biased uitkomsten simuleren, internaliseren ze de noodzaak van kwaliteitscontrole en ontwikkelen ze vaardigheden in ethische besluitvorming.

Kernvragen

  1. Hoe beïnvloedt de kwaliteit van trainingsdata de uitkomst van een model?
  2. Analyseer hoe vooroordelen in data kunnen leiden tot algoritmische bias.
  3. Ontwerp een strategie om bias in een dataset te identificeren en te mitigeren.

Leerdoelen

  • Analyseer de impact van datakwaliteit op de nauwkeurigheid van een getraind machine learning-model.
  • Classificeer verschillende soorten bias (bijvoorbeeld selectiebias, meetbias) binnen een gegeven dataset.
  • Evalueer de ethische implicaties van algoritmische bias in maatschappelijke toepassingen, zoals werving of kredietverlening.
  • Ontwerp een strategie om bias in een specifieke dataset te identificeren en te mitigeren met behulp van concrete technieken.
  • Vergelijk de prestaties van een ML-model getraind op een gebiaste dataset met een model getraind op een gebalanceerde dataset.

Voordat je begint

Basisprincipes van Machine Learning

Waarom: Leerlingen moeten begrijpen wat een ML-model is en hoe het 'leert' van data om de impact van trainingsdata te kunnen analyseren.

Data-analyse en Visualisatie

Waarom: Basale vaardigheden in het inspecteren en interpreteren van data zijn nodig om patronen en potentiële bias te kunnen identificeren.

Kernbegrippen

TrainingsdataDe dataset die wordt gebruikt om een machine learning-model te 'leren'. De kwaliteit en representativiteit hiervan zijn cruciaal voor de prestaties van het model.
Algoritmische biasSystematische en herhaalbare fouten in een computersysteem die leiden tot oneerlijke uitkomsten, vaak voortkomend uit vooringenomen data of ontwerpprincipes.
DatakwaliteitDe mate waarin data accuraat, volledig, consistent, tijdig en relevant is voor het beoogde doel. Lage datakwaliteit kan leiden tot onbetrouwbare modellen.
MitigatieHet proces van het verminderen of voorkomen van de negatieve effecten van bias in datasets en machine learning-modellen.
RepresentativiteitDe mate waarin een dataset de werkelijke populatie of het werkelijke fenomeen weerspiegelt dat gemodelleerd moet worden. Een gebrek hieraan leidt tot bias.

Pas op voor deze misvattingen

Veelvoorkomende misvattingMeer data betekent altijd betere modellen.

Wat je in plaats daarvan kunt onderwijzen

Kwantiteit alleen garandeert geen kwaliteit; noisy of biased data verslechtert prestaties. Actieve oefeningen zoals datasetvergelijkingen laten leerlingen zien hoe cleaning superieur presteert, wat kritisch denken versterkt.

Veelvoorkomende misvattingML-modellen zijn objectief en biasvrij.

Wat je in plaats daarvan kunt onderwijzen

Modellen spiegelen biases in trainingsdata. Groepsdiscussies over reële cases helpen leerlingen patronen te herkennen en mitigatiestrategieën te waarderen via peerfeedback.

Veelvoorkomende misvattingBias is alleen een probleem bij gevoelige data zoals ras.

Wat je in plaats daarvan kunt onderwijzen

Bias treft elk domein, van medische diagnoses tot aanbevelingssystemen. Hands-on audits van diverse datasets tonen universele risico's en bevorderen brede ethische bewustwording.

Ideeën voor actief leren

Bekijk alle activiteiten

Verbinding met de Echte Wereld

  • Bij het ontwikkelen van gezichtsherkenningssoftware voor beveiligingscamera's is het essentieel dat de trainingsdata representatief is voor diverse bevolkingsgroepen. Een gebrek hieraan kan leiden tot hogere foutmarges voor bepaalde etnische groepen, zoals gedocumenteerd bij systemen die minder goed werken voor donkere huidskleuren.
  • Financiële instellingen gebruiken algoritmes voor kredietbeoordelingen. Als de historische data die gebruikt wordt om deze algoritmes te trainen, bevooroordeeld is tegen bepaalde demografische groepen, kunnen deze groepen onterecht lagere kredietwaardigheid krijgen, wat leidt tot discriminatie op de arbeidsmarkt of bij woningtoewijzing.
  • Recruitmenttools die getraind zijn op historische succesvolle kandidaten kunnen onbewust gender- of etniciteitsbias overnemen. Dit kan ertoe leiden dat gekwalificeerde kandidaten uit ondervertegenwoordigde groepen worden gediskwalificeerd, nog voordat een menselijke recruiter ze heeft gezien.

Toetsideeën

Discussievraag

Stel de klas de vraag: 'Stel je voor dat je een app ontwikkelt die studenten helpt bij het kiezen van een vervolgstudie. Welke potentiële biases zou je kunnen tegenkomen in de data die je hiervoor zou gebruiken, en hoe zou dit de uitkomst beïnvloeden?' Laat leerlingen in kleine groepen brainstormen en hun bevindingen delen.

Uitgangskaart

Geef elke leerling een korte beschrijving van een fictieve dataset (bijvoorbeeld: 'een dataset met foto's van mensen die glimlachen, verzameld via een populaire social media app'). Vraag hen om twee mogelijke bronnen van bias te identificeren en één concrete methode te noemen om deze bias te verminderen.

Snelle Controle

Presenteer een korte casestudy over een ML-toepassing met bekende bias (bijvoorbeeld een algoritme dat verkeersboetes uitschrijft). Vraag leerlingen om te beoordelen of de datakwaliteit waarschijnlijk een rol speelde en zo ja, hoe. Gebruik een pollsysteem of een korte schriftelijke reactie.

Veelgestelde vragen

Hoe beïnvloedt datakwaliteit ML-modellen?
Slechte datakwaliteit leidt tot overfitting, underfitting of verkeerde voorspellingen door incomplete of noisy data. Leerlingen leren metrics als accuracy en F1-score te gebruiken. Door praktische cleaning-oefeningen zien ze directe verbeteringen, wat analysevaardigheden aanscherpt en ethische verantwoordelijkheid benadrukt in AI-ontwikkeling.
Wat zijn voorbeelden van bias in trainingsdata?
Bias ontstaat door onderrepresentatie, zoals vrouwen in techdatasets of stedelijke data in klimaatmodellen. Dit veroorzaakt discriminerende uitkomsten. Leerlingen analyseren zulke cases om fairness te kwantificeren en technieken als balancing toe te passen, cruciaal voor maatschappelijk verantwoorde AI.
Hoe identificeer en mitigeer je bias in datasets?
Identificeer via visualisaties, statistische tests en subgroup-analyses. Mitigeer met resampling, synthetic data of auditing. In lessen ontwerpen leerlingen strategieën, wat hen leert proactief te handelen en SLO-ethiekdoelen te bereiken.
Hoe helpt actief leren bij begrip van data bias?
Actieve methoden zoals datasetstations en groepsdebatten maken bias zichtbaar en bespreekbaar. Leerlingen ervaren gevolgen door simulaties, wat abstracte concepten concreet maakt. Dit bevordert diep begrip, samenwerking en toepassing van kennis, essentieel voor VWO-niveau ethische AI-discussies.