Informatica · Klas 5 VWO · Kunstmatige Intelligentie en Maatschappij · Periode 4

Data voor Machine Learning: Kwaliteit en Bias

Leerlingen onderzoeken het belang van datakwaliteit en de impact van bias in trainingsdata op de prestaties van ML-modellen.

SLO Kerndoelen en EindtermenSLO: Voortgezet onderwijs - AnalyseSLO: Voortgezet onderwijs - Ethiek

Over dit onderwerp

Dit onderwerp richt zich op de cruciale rol van datakwaliteit en bias in machine learning. Leerlingen in klas 5 VWO onderzoeken hoe incomplete, onnauwkeurige of onevenwichtige trainingsdata de prestaties van ML-modellen ondermijnt. Ze analyseren voorbeelden zoals gezichtsherkenningssystemen die minder accuraat zijn voor donkere huidskleuren door biased datasets. Dit bouwt begrip op voor concepten als precisie, recall en fairness metrics.

In de SLO-kerndoelen voor voortgezet onderwijs verbindt dit topic analysevaardigheden met ethische overwegingen in kunstmatige intelligentie. Leerlingen leren datasets te inspecteren op vertekening, zoals demografische onevenwichtigheid, en strategieën te ontwikkelen voor mitigatie, bijvoorbeeld door oversampling of data-augmentatie. Het stimuleert kritisch denken over maatschappelijke impact, relevant voor de unit Kunstmatige Intelligentie en Maatschappij.

Actieve leerbenaderingen maken dit onderwerp effectief omdat abstracte begrippen zoals bias tastbaar worden door praktische datasetanalyses. Wanneer leerlingen in groepen echte datasets onderzoeken en biased uitkomsten simuleren, internaliseren ze de noodzaak van kwaliteitscontrole en ontwikkelen ze vaardigheden in ethische besluitvorming.

Kernvragen

Hoe beïnvloedt de kwaliteit van trainingsdata de uitkomst van een model?
Analyseer hoe vooroordelen in data kunnen leiden tot algoritmische bias.
Ontwerp een strategie om bias in een dataset te identificeren en te mitigeren.

Leerdoelen

Analyseer de impact van datakwaliteit op de nauwkeurigheid van een getraind machine learning-model.
Classificeer verschillende soorten bias (bijvoorbeeld selectiebias, meetbias) binnen een gegeven dataset.
Evalueer de ethische implicaties van algoritmische bias in maatschappelijke toepassingen, zoals werving of kredietverlening.
Ontwerp een strategie om bias in een specifieke dataset te identificeren en te mitigeren met behulp van concrete technieken.
Vergelijk de prestaties van een ML-model getraind op een gebiaste dataset met een model getraind op een gebalanceerde dataset.

Voordat je begint

Basisprincipes van Machine Learning

Waarom: Leerlingen moeten begrijpen wat een ML-model is en hoe het 'leert' van data om de impact van trainingsdata te kunnen analyseren.

Data-analyse en Visualisatie

Waarom: Basale vaardigheden in het inspecteren en interpreteren van data zijn nodig om patronen en potentiële bias te kunnen identificeren.

Kernbegrippen

Trainingsdata	De dataset die wordt gebruikt om een machine learning-model te 'leren'. De kwaliteit en representativiteit hiervan zijn cruciaal voor de prestaties van het model.
Algoritmische bias	Systematische en herhaalbare fouten in een computersysteem die leiden tot oneerlijke uitkomsten, vaak voortkomend uit vooringenomen data of ontwerpprincipes.
Datakwaliteit	De mate waarin data accuraat, volledig, consistent, tijdig en relevant is voor het beoogde doel. Lage datakwaliteit kan leiden tot onbetrouwbare modellen.
Mitigatie	Het proces van het verminderen of voorkomen van de negatieve effecten van bias in datasets en machine learning-modellen.
Representativiteit	De mate waarin een dataset de werkelijke populatie of het werkelijke fenomeen weerspiegelt dat gemodelleerd moet worden. Een gebrek hieraan leidt tot bias.

Pas op voor deze misvattingen

Veelvoorkomende misvattingMeer data betekent altijd betere modellen.

Wat je in plaats daarvan kunt onderwijzen

Kwantiteit alleen garandeert geen kwaliteit; noisy of biased data verslechtert prestaties. Actieve oefeningen zoals datasetvergelijkingen laten leerlingen zien hoe cleaning superieur presteert, wat kritisch denken versterkt.

Veelvoorkomende misvattingML-modellen zijn objectief en biasvrij.

Wat je in plaats daarvan kunt onderwijzen

Modellen spiegelen biases in trainingsdata. Groepsdiscussies over reële cases helpen leerlingen patronen te herkennen en mitigatiestrategieën te waarderen via peerfeedback.

Veelvoorkomende misvattingBias is alleen een probleem bij gevoelige data zoals ras.

Wat je in plaats daarvan kunt onderwijzen

Bias treft elk domein, van medische diagnoses tot aanbevelingssystemen. Hands-on audits van diverse datasets tonen universele risico's en bevorderen brede ethische bewustwording.

Ideeën voor actief leren

Bekijk alle activiteiten

Station Rotatie: Dataset Kwaliteit

Richt vier stations in: 1) data cleaning met missing values, 2) duplicaten verwijderen, 3) outlier detectie visualiseren, 4) kwantiteit vs kwaliteit vergelijken. Groepen rouleren elke 10 minuten en noteren bevindingen in een gedeeld logboek. Sluit af met een korte presentatie.

45 min·Kleine groepjes

Paarwerk: Bias Identificatie

Deel een dataset uit over leningen of sollicitaties. Leerlingen in paren plotten distributies per geslacht of etniciteit, berekenen onevenwichtigheid en bespreken mogelijke gevolgen voor ML-modellen. Ze stellen twee mitigatiestappen voor.

30 min·Duo's

Groepsdebat: Bias Mitigatie

Verdeel de klas in teams die voor- en nadelen bespreken van technieken als resampling of synthetische data. Elke groep bereidt argumenten voor en debatteert met de hele klas. Stem af met een polltool.

40 min·Kleine groepjes

Individueel: Strategie Ontwerp

Leerlingen ontwerpen een checklist voor biasdetectie in een nieuwe dataset. Ze testen deze op een voorbeeld en reflecteren op ethische implicaties in een kort verslag.

25 min·Individueel

Verbinding met de Echte Wereld

Bij het ontwikkelen van gezichtsherkenningssoftware voor beveiligingscamera's is het essentieel dat de trainingsdata representatief is voor diverse bevolkingsgroepen. Een gebrek hieraan kan leiden tot hogere foutmarges voor bepaalde etnische groepen, zoals gedocumenteerd bij systemen die minder goed werken voor donkere huidskleuren.
Financiële instellingen gebruiken algoritmes voor kredietbeoordelingen. Als de historische data die gebruikt wordt om deze algoritmes te trainen, bevooroordeeld is tegen bepaalde demografische groepen, kunnen deze groepen onterecht lagere kredietwaardigheid krijgen, wat leidt tot discriminatie op de arbeidsmarkt of bij woningtoewijzing.
Recruitmenttools die getraind zijn op historische succesvolle kandidaten kunnen onbewust gender- of etniciteitsbias overnemen. Dit kan ertoe leiden dat gekwalificeerde kandidaten uit ondervertegenwoordigde groepen worden gediskwalificeerd, nog voordat een menselijke recruiter ze heeft gezien.

Toetsideeën

Discussievraag

Stel de klas de vraag: 'Stel je voor dat je een app ontwikkelt die studenten helpt bij het kiezen van een vervolgstudie. Welke potentiële biases zou je kunnen tegenkomen in de data die je hiervoor zou gebruiken, en hoe zou dit de uitkomst beïnvloeden?' Laat leerlingen in kleine groepen brainstormen en hun bevindingen delen.

Uitgangskaart

Geef elke leerling een korte beschrijving van een fictieve dataset (bijvoorbeeld: 'een dataset met foto's van mensen die glimlachen, verzameld via een populaire social media app'). Vraag hen om twee mogelijke bronnen van bias te identificeren en één concrete methode te noemen om deze bias te verminderen.

Snelle Controle

Presenteer een korte casestudy over een ML-toepassing met bekende bias (bijvoorbeeld een algoritme dat verkeersboetes uitschrijft). Vraag leerlingen om te beoordelen of de datakwaliteit waarschijnlijk een rol speelde en zo ja, hoe. Gebruik een pollsysteem of een korte schriftelijke reactie.

Veelgestelde vragen

Hoe beïnvloedt datakwaliteit ML-modellen?

Slechte datakwaliteit leidt tot overfitting, underfitting of verkeerde voorspellingen door incomplete of noisy data. Leerlingen leren metrics als accuracy en F1-score te gebruiken. Door praktische cleaning-oefeningen zien ze directe verbeteringen, wat analysevaardigheden aanscherpt en ethische verantwoordelijkheid benadrukt in AI-ontwikkeling.

Wat zijn voorbeelden van bias in trainingsdata?

Bias ontstaat door onderrepresentatie, zoals vrouwen in techdatasets of stedelijke data in klimaatmodellen. Dit veroorzaakt discriminerende uitkomsten. Leerlingen analyseren zulke cases om fairness te kwantificeren en technieken als balancing toe te passen, cruciaal voor maatschappelijk verantwoorde AI.

Hoe identificeer en mitigeer je bias in datasets?

Identificeer via visualisaties, statistische tests en subgroup-analyses. Mitigeer met resampling, synthetic data of auditing. In lessen ontwerpen leerlingen strategieën, wat hen leert proactief te handelen en SLO-ethiekdoelen te bereiken.

Hoe helpt actief leren bij begrip van data bias?

Actieve methoden zoals datasetstations en groepsdebatten maken bias zichtbaar en bespreekbaar. Leerlingen ervaren gevolgen door simulaties, wat abstracte concepten concreet maakt. Dit bevordert diep begrip, samenwerking en toepassing van kennis, essentieel voor VWO-niveau ethische AI-discussies.

Meer in Kunstmatige Intelligentie en Maatschappij

Inleiding tot Kunstmatige Intelligentie

Leerlingen maken kennis met de geschiedenis, definities en verschillende benaderingen van Kunstmatige Intelligentie (AI).

2 methodologies

Machine Learning Basisprincipes

Leerlingen begrijpen de kernconcepten van Machine Learning, inclusief supervised, unsupervised en reinforcement learning.

2 methodologies

AI in het Dagelijks Leven

Leerlingen herkennen voorbeelden van Kunstmatige Intelligentie (AI) in hun dagelijks leven en begrijpen de basisprincipes ervan.

2 methodologies

Algoritmische Bias en Eerlijkheid

Leerlingen onderzoeken de ethische implicaties van algoritmische bias en de zoektocht naar eerlijke AI-systemen.

2 methodologies

AI en Beslissingen Nemen

Leerlingen bespreken hoe AI-systemen beslissingen nemen en de mogelijke gevolgen daarvan voor mensen en de maatschappij.

2 methodologies

AI en Privacy

Leerlingen onderzoeken de spanning tussen de voordelen van AI en de bescherming van privacy, inclusief technieken zoals privacy-preserving AI.

2 methodologies