Saltar para o conteúdo
Informática · 11.º Ano · Cibersegurança, Inteligência Artificial e Desenvolvimento de Projetos · 3o Periodo

Avaliação de Modelos de ML

Os alunos aprendem métricas para avaliar o desempenho de modelos de Machine Learning, como precisão, recall e F1-score.

Aprendizagens EssenciaisDGE: Secundário - Inteligência ArtificialDGE: Secundário - Ciência de Dados

Sobre este tópico

A avaliação de modelos de Machine Learning centra-se em métricas como precisão, recall e F1-score, que permitem medir o desempenho de forma objetiva. Os alunos calculam a precisão como a proporção de previsões positivas corretas entre todas as positivas previstas, o recall como a proporção de casos positivos reais identificados, e o F1-score como a média harmónica destes dois, ideal para conjuntos de dados desequilibrados. Estas ferramentas ajudam a responder à questão de como quantificar o sucesso de um modelo em tarefas reais, como deteção de fraudes ou diagnóstico médico.

No âmbito do currículo nacional de Inovação Digital, este tema integra-se na unidade de Cibersegurança, Inteligência Artificial e Desenvolvimento de Projetos. Os alunos distinguem overfitting, onde o modelo memoriza os dados de treino mas falha em novos dados, de underfitting, onde o modelo é demasiado simples e não captura padrões. Aprendem a justificar a escolha de uma métrica específica consoante o problema, promovendo decisões informadas baseadas em standards da DGE para Secundário em Inteligência Artificial e Ciência de Dados.

A aprendizagem ativa beneficia este tópico porque os alunos treinam modelos simples em Python, calculam métricas em datasets reais e comparam resultados em grupo. Esta abordagem torna conceitos abstractos práticos, fomenta debate sobre trade-offs e reforça a compreensão através de iterações hands-on.

Questões-Chave

  1. Como podemos medir objetivamente o desempenho de um modelo de Machine Learning?
  2. Diferencie overfitting de underfitting e as suas implicações.
  3. Justifique a escolha de uma métrica de avaliação específica para um problema de ML.

Objetivos de Aprendizagem

  • Calcular a precisão, o recall e o F1-score de um modelo de classificação binária para quantificar o seu desempenho.
  • Comparar o desempenho de diferentes modelos de Machine Learning utilizando métricas de avaliação específicas.
  • Explicar as causas e consequências do overfitting e do underfitting num modelo de Machine Learning.
  • Analisar um problema de classificação e justificar a escolha da métrica de avaliação mais apropriada para o seu contexto.

Antes de Começar

Introdução ao Machine Learning e Tipos de Tarefas

Porquê: Os alunos precisam de compreender o que é Machine Learning e as diferenças entre tarefas de classificação e regressão para poderem aplicar métricas de avaliação.

Fundamentos de Python para Ciência de Dados

Porquê: A capacidade de escrever e executar código Python é essencial para calcular métricas e treinar modelos simples.

Conceitos de Dados: Tabelas e Colunas

Porquê: É necessário entender a estrutura de dados tabulares para manipular os resultados de um modelo e calcular as métricas.

Vocabulário-Chave

Precisão (Accuracy)Mede a proporção de previsões corretas (verdadeiros positivos e verdadeiros negativos) em relação ao total de previsões efetuadas.
Recall (Sensibilidade)Mede a proporção de casos positivos reais que foram corretamente identificados pelo modelo, em relação a todos os casos positivos existentes.
F1-ScoreÉ a média harmónica da precisão e do recall, fornecendo uma métrica equilibrada, especialmente útil em conjuntos de dados desequilibrados.
OverfittingOcorre quando um modelo aprende os dados de treino demasiado bem, incluindo o ruído, o que resulta num mau desempenho em dados novos e não vistos.
UnderfittingOcorre quando um modelo é demasiado simples para capturar os padrões subjacentes nos dados, levando a um desempenho fraco tanto nos dados de treino como nos dados de teste.

Atenção a estes erros comuns

Erro comumA precisão é sempre a melhor métrica para avaliar um modelo.

O que ensinar em alternativa

A precisão ignora casos negativos verdadeiros em dados desequilibrados, como em deteção de doenças raras. Abordagens ativas, como comparar métricas em grupos com datasets reais, ajudam os alunos a ver trade-offs e a priorizar recall nesses contextos.

Erro comumOverfitting ocorre sempre que o modelo tem alta precisão no treino.

O que ensinar em alternativa

Alta precisão no treino com baixa no teste indica overfitting, mas precisa de validação cruzada para confirmar. Discussões em pares sobre curvas de aprendizagem revelam esta distinção, promovendo análise crítica.

Erro comumF1-score é superior a todas as outras métricas em qualquer problema.

O que ensinar em alternativa

O F1 equilibra precisão e recall, mas não é ideal para todos os casos, como quando o custo de falsos negativos varia. Experiências hands-on com cenários variados mostram aos alunos quando optar por outras métricas.

Ideias de aprendizagem ativa

Ver todas as atividades

Ligações ao Mundo Real

  • Profissionais de cibersegurança utilizam métricas como precisão e recall para avaliar a eficácia de modelos de deteção de intrusão, garantindo que ameaças reais são identificadas sem gerar demasiados falsos alarmes.
  • Médicos e cientistas de dados em hospitais aplicam estas métricas para avaliar modelos de diagnóstico por imagem, como a deteção de tumores, onde um alto recall é crucial para não falhar casos positivos, mesmo que isso implique alguns falsos positivos que serão revistos por especialistas.

Ideias de Avaliação

Bilhete de Saída

Entregue a cada aluno um pequeno conjunto de resultados de um modelo (ex: 10 verdadeiros positivos, 2 falsos positivos, 3 verdadeiros negativos, 5 falsos negativos). Peça para calcularem a precisão, o recall e o F1-score, e escreverem uma frase justificando qual métrica seria mais importante para um sistema de alerta de sismos.

Verificação Rápida

Apresente duas descrições de cenários de ML (ex: deteção de spam vs. diagnóstico de doença rara). Peça aos alunos para, em pares, escolherem a métrica mais relevante para cada cenário e explicarem o seu raciocínio em 2-3 frases.

Questão para Discussão

Coloque a seguinte questão no quadro: 'Se um modelo de recomendação de filmes tem 99% de precisão, isso significa que é um bom modelo?'. Guie a discussão para explorar as limitações da precisão e a importância de considerar o recall e o F1-score, especialmente se a maioria dos utilizadores não interage com a maioria dos filmes recomendados.

Perguntas frequentes

Como calcular precisão, recall e F1-score num modelo de ML?
A precisão é TP/(TP+FP), recall TP/(TP+FN) e F1 2*(precisão*recall)/(precisão+recall), onde TP são verdadeiros positivos, FP falsos positivos e FN falsos negativos. Use matrizes de confusão em ferramentas como scikit-learn para automatizar. Pratique com datasets como Iris ou Titanic para fixar fórmulas e interpretações numéricas.
O que diferencia overfitting de underfitting e como detetar?
Overfitting surge quando o modelo performa bem no treino mas mal no teste, memorizando ruído; underfitting quando é demasiado simples e falha em ambos. Detete com curvas de aprendizagem e validação cruzada. Métricas como gap entre treino/teste guiam regularização ou complexidade do modelo.
Como o aprendizagem ativa ajuda na avaliação de modelos de ML?
A aprendizagem ativa envolve os alunos em treinar modelos, calcular métricas e debater escolhas em grupos, transformando teoria em prática. Atividades como estações rotativas ou simulações em Python revelam trade-offs reais, como precisão vs recall, fomentando pensamento crítico e retenção superior a aulas expositivas.
Qual métrica escolher para um problema específico de ML?
Escolha consoante o contexto: recall para deteção de fraudes (evitar falsos negativos), precisão para spam (evitar falsos positivos). F1 para equilíbrio em dados desequilibrados. Justifique com custos de erros e valide com hold-out sets ou k-fold cross-validation.