Skip to content
Informática · 11.º Ano

Ideias de aprendizagem ativa

Avaliação de Modelos de ML

A avaliação de modelos de Machine Learning exige que os alunos experimentem métricas em contexto real para compreenderem os trade-offs entre precisão e recall. A aprendizagem ativa através de estações rotativas e debates em grupo permite que os alunos testem hipóteses, identifiquem limitações e tomem decisões fundamentadas sobre métricas. Ao manipularem métricas em datasets variados, os alunos desenvolvem intuição crítica sobre quando uma métrica é mais adequada do que outra.

Aprendizagens EssenciaisDGE: Secundário - Inteligência ArtificialDGE: Secundário - Ciência de Dados
30–50 minPares → Turma inteira4 atividades

Atividade 01

Análise de Estudo de Caso50 min · Pequenos grupos

Estações Rotativas: Cálculo de Métricas

Crie quatro estações com datasets desequilibrados: uma para precisão, outra para recall, F1-score e matriz de confusão. Os grupos rotacionam a cada 10 minutos, calculam métricas manualmente e num software como Python ou Google Colab, registando resultados num quadro partilhado.

Como podemos medir objetivamente o desempenho de um modelo de Machine Learning?

Sugestão de FacilitaçãoDurante as Estações Rotativas, circule entre os grupos para esclarecer dúvidas, especialmente em cálculos de métricas, e incentive os alunos a compararem os seus resultados com os dos colegas.

O que observarEntregue a cada aluno um pequeno conjunto de resultados de um modelo (ex: 10 verdadeiros positivos, 2 falsos positivos, 3 verdadeiros negativos, 5 falsos negativos). Peça para calcularem a precisão, o recall e o F1-score, e escreverem uma frase justificando qual métrica seria mais importante para um sistema de alerta de sismos.

AnalisarAvaliarCriarTomada de DecisãoAutogestão
Gerar Aula Completa

Atividade 02

Parcerias: Overfitting vs Underfitting

Em pares, os alunos treinam o mesmo modelo com diferentes níveis de complexidade num dataset público. Calculam métricas em treino e teste, plotam curvas de aprendizagem e concluem sobre overfitting ou underfitting, partilhando conclusões com a turma.

Diferencie overfitting de underfitting e as suas implicações.

Sugestão de FacilitaçãoNas Parcerias, forneça exemplos visuais de curvas de aprendizagem para que os alunos possam traçar paralelos entre overfitting e underfitting usando dados reais.

O que observarApresente duas descrições de cenários de ML (ex: deteção de spam vs. diagnóstico de doença rara). Peça aos alunos para, em pares, escolherem a métrica mais relevante para cada cenário e explicarem o seu raciocínio em 2-3 frases.

AnalisarAvaliarCriarTomada de DecisãoAutogestão
Gerar Aula Completa

Atividade 03

Análise de Estudo de Caso35 min · Pequenos grupos

Debate em Grupo: Escolha de Métricas

Divida a turma em grupos para cenários reais como deteção de spam ou cancro. Cada grupo justifica uma métrica principal, apresenta cálculos e defende contra contra-argumentos dos pares, votando no final na melhor escolha.

Justifique a escolha de uma métrica de avaliação específica para um problema de ML.

Sugestão de FacilitaçãoNo Debate em Grupo, atribua papéis específicos (ex: defensor da precisão, do recall) para garantir que todos participam ativamente e ouvem argumentos variados.

O que observarColoque a seguinte questão no quadro: 'Se um modelo de recomendação de filmes tem 99% de precisão, isso significa que é um bom modelo?'. Guie a discussão para explorar as limitações da precisão e a importância de considerar o recall e o F1-score, especialmente se a maioria dos utilizadores não interage com a maioria dos filmes recomendados.

AnalisarAvaliarCriarTomada de DecisãoAutogestão
Gerar Aula Completa

Atividade 04

Análise de Estudo de Caso30 min · Individual

Individual: Autoavaliação de Modelo

Cada aluno carrega um modelo pré-treinado, testa com dados novos e gera relatório com métricas e gráfico ROC. Partilham relatórios num fórum de turma para feedback coletivo.

Como podemos medir objetivamente o desempenho de um modelo de Machine Learning?

Sugestão de FacilitaçãoNa Autoavaliação Individual, peça aos alunos que escrevam não apenas os cálculos, mas também uma reflexão sobre as limitações das métricas que escolheram.

O que observarEntregue a cada aluno um pequeno conjunto de resultados de um modelo (ex: 10 verdadeiros positivos, 2 falsos positivos, 3 verdadeiros negativos, 5 falsos negativos). Peça para calcularem a precisão, o recall e o F1-score, e escreverem uma frase justificando qual métrica seria mais importante para um sistema de alerta de sismos.

AnalisarAvaliarCriarTomada de DecisãoAutogestão
Gerar Aula Completa

Algumas notas sobre lecionar esta unidade

Comece por introduzir as métricas com exemplos concretos de datasets desequilibrados, como deteção de fraudes ou doenças raras, para que os alunos percebam a relevância prática. Evite começar por fórmulas abstratas; em vez disso, use tabelas de confusão visuais e cálculos passo a passo. Pesquisas mostram que os alunos retêm melhor quando aplicam conceitos em tarefas hands-on e quando são desafiados a defender as suas escolhas perante os pares.

No final das atividades, os alunos devem ser capazes de calcular e justificar as métricas de avaliação mais adequadas a diferentes cenários de ML. Espera-se que consigam explicar os trade-offs entre precisão, recall e F1-score, e que identifiquem sinais de overfitting ou underfitting em curvas de aprendizagem. A comunicação clara das suas decisões, com base em evidências, é um indicador de sucesso.


Atenção a estes erros comuns

  • Durante as Estações Rotativas, watch for alunos que assumem que a precisão é sempre a métrica mais importante.

    Peça aos grupos que calculem todas as métricas para um dataset desequilibrado e discutam em voz alta por que razão a precisão pode ser enganadora, usando os exemplos fornecidos nas estações.

  • Durante as Parcerias, watch for afirmações como 'Overfitting ocorre sempre que o modelo tem alta precisão no treino'.

    Durante a discussão em pares, peça aos alunos que tracem curvas de aprendizagem com base nos dados das estações e identifiquem onde a precisão no treino diverge da precisão no teste.

  • Durante o Debate em Grupo, watch for generalizações como 'O F1-score é sempre a melhor métrica'.

    No debate, desafie os grupos a apresentarem cenários específicos onde outras métricas, como a especificidade ou o custo de falsos negativos, seriam mais relevantes, usando os exemplos discutidos.


Metodologias usadas neste resumo