Skip to content

Avaliação de Modelos de MLAtividades e Estratégias de Ensino

A avaliação de modelos de Machine Learning exige que os alunos experimentem métricas em contexto real para compreenderem os trade-offs entre precisão e recall. A aprendizagem ativa através de estações rotativas e debates em grupo permite que os alunos testem hipóteses, identifiquem limitações e tomem decisões fundamentadas sobre métricas. Ao manipularem métricas em datasets variados, os alunos desenvolvem intuição crítica sobre quando uma métrica é mais adequada do que outra.

11° AnoInovação Digital e Pensamento Computacional Avançado4 atividades30 min50 min

Objetivos de Aprendizagem

  1. 1Calcular a precisão, o recall e o F1-score de um modelo de classificação binária para quantificar o seu desempenho.
  2. 2Comparar o desempenho de diferentes modelos de Machine Learning utilizando métricas de avaliação específicas.
  3. 3Explicar as causas e consequências do overfitting e do underfitting num modelo de Machine Learning.
  4. 4Analisar um problema de classificação e justificar a escolha da métrica de avaliação mais apropriada para o seu contexto.

Pretende um plano de aula completo com estes objetivos? Gerar uma Missão

50 min·Pequenos grupos

Estações Rotativas: Cálculo de Métricas

Crie quatro estações com datasets desequilibrados: uma para precisão, outra para recall, F1-score e matriz de confusão. Os grupos rotacionam a cada 10 minutos, calculam métricas manualmente e num software como Python ou Google Colab, registando resultados num quadro partilhado.

Preparação e detalhes

Como podemos medir objetivamente o desempenho de um modelo de Machine Learning?

Sugestão de Facilitação: Durante as Estações Rotativas, circule entre os grupos para esclarecer dúvidas, especialmente em cálculos de métricas, e incentive os alunos a compararem os seus resultados com os dos colegas.

Setup: Grupos organizados em mesas com os materiais do caso

Materials: Dossiê do estudo de caso (3 a 5 páginas), Ficha de análise estruturada, Modelo para a apresentação final

AnalisarAvaliarCriarTomada de DecisãoAutogestão

Parcerias: Overfitting vs Underfitting

Em pares, os alunos treinam o mesmo modelo com diferentes níveis de complexidade num dataset público. Calculam métricas em treino e teste, plotam curvas de aprendizagem e concluem sobre overfitting ou underfitting, partilhando conclusões com a turma.

Preparação e detalhes

Diferencie overfitting de underfitting e as suas implicações.

Sugestão de Facilitação: Nas Parcerias, forneça exemplos visuais de curvas de aprendizagem para que os alunos possam traçar paralelos entre overfitting e underfitting usando dados reais.

Setup: Grupos organizados em mesas com os materiais do caso

Materials: Dossiê do estudo de caso (3 a 5 páginas), Ficha de análise estruturada, Modelo para a apresentação final

AnalisarAvaliarCriarTomada de DecisãoAutogestão
35 min·Pequenos grupos

Debate em Grupo: Escolha de Métricas

Divida a turma em grupos para cenários reais como deteção de spam ou cancro. Cada grupo justifica uma métrica principal, apresenta cálculos e defende contra contra-argumentos dos pares, votando no final na melhor escolha.

Preparação e detalhes

Justifique a escolha de uma métrica de avaliação específica para um problema de ML.

Sugestão de Facilitação: No Debate em Grupo, atribua papéis específicos (ex: defensor da precisão, do recall) para garantir que todos participam ativamente e ouvem argumentos variados.

Setup: Grupos organizados em mesas com os materiais do caso

Materials: Dossiê do estudo de caso (3 a 5 páginas), Ficha de análise estruturada, Modelo para a apresentação final

AnalisarAvaliarCriarTomada de DecisãoAutogestão
30 min·Individual

Individual: Autoavaliação de Modelo

Cada aluno carrega um modelo pré-treinado, testa com dados novos e gera relatório com métricas e gráfico ROC. Partilham relatórios num fórum de turma para feedback coletivo.

Preparação e detalhes

Como podemos medir objetivamente o desempenho de um modelo de Machine Learning?

Sugestão de Facilitação: Na Autoavaliação Individual, peça aos alunos que escrevam não apenas os cálculos, mas também uma reflexão sobre as limitações das métricas que escolheram.

Setup: Grupos organizados em mesas com os materiais do caso

Materials: Dossiê do estudo de caso (3 a 5 páginas), Ficha de análise estruturada, Modelo para a apresentação final

AnalisarAvaliarCriarTomada de DecisãoAutogestão

Ensinar Este Tópico

Comece por introduzir as métricas com exemplos concretos de datasets desequilibrados, como deteção de fraudes ou doenças raras, para que os alunos percebam a relevância prática. Evite começar por fórmulas abstratas; em vez disso, use tabelas de confusão visuais e cálculos passo a passo. Pesquisas mostram que os alunos retêm melhor quando aplicam conceitos em tarefas hands-on e quando são desafiados a defender as suas escolhas perante os pares.

O Que Esperar

No final das atividades, os alunos devem ser capazes de calcular e justificar as métricas de avaliação mais adequadas a diferentes cenários de ML. Espera-se que consigam explicar os trade-offs entre precisão, recall e F1-score, e que identifiquem sinais de overfitting ou underfitting em curvas de aprendizagem. A comunicação clara das suas decisões, com base em evidências, é um indicador de sucesso.

Estas atividades são um ponto de partida. A missão completa é a experiência.

  • Guião completo de facilitação com falas do professor
  • Materiais imprimíveis para o aluno, prontos para a aula
  • Estratégias de diferenciação para cada tipo de aluno
Gerar uma Missão

Atenção a estes erros comuns

Erro comumDurante as Estações Rotativas, watch for alunos que assumem que a precisão é sempre a métrica mais importante.

O que ensinar em alternativa

Peça aos grupos que calculem todas as métricas para um dataset desequilibrado e discutam em voz alta por que razão a precisão pode ser enganadora, usando os exemplos fornecidos nas estações.

Erro comumDurante as Parcerias, watch for afirmações como 'Overfitting ocorre sempre que o modelo tem alta precisão no treino'.

O que ensinar em alternativa

Durante a discussão em pares, peça aos alunos que tracem curvas de aprendizagem com base nos dados das estações e identifiquem onde a precisão no treino diverge da precisão no teste.

Erro comumDurante o Debate em Grupo, watch for generalizações como 'O F1-score é sempre a melhor métrica'.

O que ensinar em alternativa

No debate, desafie os grupos a apresentarem cenários específicos onde outras métricas, como a especificidade ou o custo de falsos negativos, seriam mais relevantes, usando os exemplos discutidos.

Ideias de Avaliação

Bilhete de Saída

Após as Estações Rotativas, entregue a cada aluno um pequeno conjunto de resultados de um modelo e peça-lhes que calculem a precisão, o recall e o F1-score, justificando qual métrica seria mais importante para um sistema de alerta de sismos.

Verificação Rápida

Durante as Parcerias, apresente dois cenários de ML e peça aos alunos, em pares, que escolham a métrica mais relevante para cada um, explicando o seu raciocínio em 2-3 frases com base nas discussões anteriores.

Questão para Discussão

Durante o Debate em Grupo, coloque a seguinte questão no quadro: 'Se um modelo de recomendação de filmes tem 99% de precisão, isso significa que é um bom modelo?'. Guie a discussão para explorar as limitações da precisão e a importância de considerar o recall e o F1-score, especialmente em datasets desequilibrados.

Extensões e Apoio

  • Challenge: Peça aos alunos que criem um dataset artificial com 100 exemplos e calculem as métricas para três modelos hipotéticos, justificando qual teria melhor desempenho num cenário de deteção de spam.
  • Scaffolding: Para alunos que lutam com cálculos, forneça uma folha de cálculo pré-preenchida com uma tabela de confusão e os passos para calcular precisão e recall.
  • Deeper: Explore o conceito de curvas ROC e AUC, pedindo aos alunos que comparem como diferentes modelos se comportam em diferentes limiares de decisão.

Vocabulário-Chave

Precisão (Accuracy)Mede a proporção de previsões corretas (verdadeiros positivos e verdadeiros negativos) em relação ao total de previsões efetuadas.
Recall (Sensibilidade)Mede a proporção de casos positivos reais que foram corretamente identificados pelo modelo, em relação a todos os casos positivos existentes.
F1-ScoreÉ a média harmónica da precisão e do recall, fornecendo uma métrica equilibrada, especialmente útil em conjuntos de dados desequilibrados.
OverfittingOcorre quando um modelo aprende os dados de treino demasiado bem, incluindo o ruído, o que resulta num mau desempenho em dados novos e não vistos.
UnderfittingOcorre quando um modelo é demasiado simples para capturar os padrões subjacentes nos dados, levando a um desempenho fraco tanto nos dados de treino como nos dados de teste.

Preparado para lecionar Avaliação de Modelos de ML?

Gere uma missão completa com tudo o que precisa

Gerar uma Missão