Avaliação de Modelos de ML
Os alunos aprendem métricas para avaliar o desempenho de modelos de Machine Learning, como precisão, recall e F1-score.
Sobre este tópico
A avaliação de modelos de Machine Learning centra-se em métricas como precisão, recall e F1-score, que permitem medir o desempenho de forma objetiva. Os alunos calculam a precisão como a proporção de previsões positivas corretas entre todas as positivas previstas, o recall como a proporção de casos positivos reais identificados, e o F1-score como a média harmónica destes dois, ideal para conjuntos de dados desequilibrados. Estas ferramentas ajudam a responder à questão de como quantificar o sucesso de um modelo em tarefas reais, como deteção de fraudes ou diagnóstico médico.
No âmbito do currículo nacional de Inovação Digital, este tema integra-se na unidade de Cibersegurança, Inteligência Artificial e Desenvolvimento de Projetos. Os alunos distinguem overfitting, onde o modelo memoriza os dados de treino mas falha em novos dados, de underfitting, onde o modelo é demasiado simples e não captura padrões. Aprendem a justificar a escolha de uma métrica específica consoante o problema, promovendo decisões informadas baseadas em standards da DGE para Secundário em Inteligência Artificial e Ciência de Dados.
A aprendizagem ativa beneficia este tópico porque os alunos treinam modelos simples em Python, calculam métricas em datasets reais e comparam resultados em grupo. Esta abordagem torna conceitos abstractos práticos, fomenta debate sobre trade-offs e reforça a compreensão através de iterações hands-on.
Questões-Chave
- Como podemos medir objetivamente o desempenho de um modelo de Machine Learning?
- Diferencie overfitting de underfitting e as suas implicações.
- Justifique a escolha de uma métrica de avaliação específica para um problema de ML.
Objetivos de Aprendizagem
- Calcular a precisão, o recall e o F1-score de um modelo de classificação binária para quantificar o seu desempenho.
- Comparar o desempenho de diferentes modelos de Machine Learning utilizando métricas de avaliação específicas.
- Explicar as causas e consequências do overfitting e do underfitting num modelo de Machine Learning.
- Analisar um problema de classificação e justificar a escolha da métrica de avaliação mais apropriada para o seu contexto.
Antes de Começar
Porquê: Os alunos precisam de compreender o que é Machine Learning e as diferenças entre tarefas de classificação e regressão para poderem aplicar métricas de avaliação.
Porquê: A capacidade de escrever e executar código Python é essencial para calcular métricas e treinar modelos simples.
Porquê: É necessário entender a estrutura de dados tabulares para manipular os resultados de um modelo e calcular as métricas.
Vocabulário-Chave
| Precisão (Accuracy) | Mede a proporção de previsões corretas (verdadeiros positivos e verdadeiros negativos) em relação ao total de previsões efetuadas. |
| Recall (Sensibilidade) | Mede a proporção de casos positivos reais que foram corretamente identificados pelo modelo, em relação a todos os casos positivos existentes. |
| F1-Score | É a média harmónica da precisão e do recall, fornecendo uma métrica equilibrada, especialmente útil em conjuntos de dados desequilibrados. |
| Overfitting | Ocorre quando um modelo aprende os dados de treino demasiado bem, incluindo o ruído, o que resulta num mau desempenho em dados novos e não vistos. |
| Underfitting | Ocorre quando um modelo é demasiado simples para capturar os padrões subjacentes nos dados, levando a um desempenho fraco tanto nos dados de treino como nos dados de teste. |
Atenção a estes erros comuns
Erro comumA precisão é sempre a melhor métrica para avaliar um modelo.
O que ensinar em alternativa
A precisão ignora casos negativos verdadeiros em dados desequilibrados, como em deteção de doenças raras. Abordagens ativas, como comparar métricas em grupos com datasets reais, ajudam os alunos a ver trade-offs e a priorizar recall nesses contextos.
Erro comumOverfitting ocorre sempre que o modelo tem alta precisão no treino.
O que ensinar em alternativa
Alta precisão no treino com baixa no teste indica overfitting, mas precisa de validação cruzada para confirmar. Discussões em pares sobre curvas de aprendizagem revelam esta distinção, promovendo análise crítica.
Erro comumF1-score é superior a todas as outras métricas em qualquer problema.
O que ensinar em alternativa
O F1 equilibra precisão e recall, mas não é ideal para todos os casos, como quando o custo de falsos negativos varia. Experiências hands-on com cenários variados mostram aos alunos quando optar por outras métricas.
Ideias de aprendizagem ativa
Ver todas as atividadesEstações Rotativas: Cálculo de Métricas
Crie quatro estações com datasets desequilibrados: uma para precisão, outra para recall, F1-score e matriz de confusão. Os grupos rotacionam a cada 10 minutos, calculam métricas manualmente e num software como Python ou Google Colab, registando resultados num quadro partilhado.
Parcerias: Overfitting vs Underfitting
Em pares, os alunos treinam o mesmo modelo com diferentes níveis de complexidade num dataset público. Calculam métricas em treino e teste, plotam curvas de aprendizagem e concluem sobre overfitting ou underfitting, partilhando conclusões com a turma.
Debate em Grupo: Escolha de Métricas
Divida a turma em grupos para cenários reais como deteção de spam ou cancro. Cada grupo justifica uma métrica principal, apresenta cálculos e defende contra contra-argumentos dos pares, votando no final na melhor escolha.
Individual: Autoavaliação de Modelo
Cada aluno carrega um modelo pré-treinado, testa com dados novos e gera relatório com métricas e gráfico ROC. Partilham relatórios num fórum de turma para feedback coletivo.
Ligações ao Mundo Real
- Profissionais de cibersegurança utilizam métricas como precisão e recall para avaliar a eficácia de modelos de deteção de intrusão, garantindo que ameaças reais são identificadas sem gerar demasiados falsos alarmes.
- Médicos e cientistas de dados em hospitais aplicam estas métricas para avaliar modelos de diagnóstico por imagem, como a deteção de tumores, onde um alto recall é crucial para não falhar casos positivos, mesmo que isso implique alguns falsos positivos que serão revistos por especialistas.
Ideias de Avaliação
Entregue a cada aluno um pequeno conjunto de resultados de um modelo (ex: 10 verdadeiros positivos, 2 falsos positivos, 3 verdadeiros negativos, 5 falsos negativos). Peça para calcularem a precisão, o recall e o F1-score, e escreverem uma frase justificando qual métrica seria mais importante para um sistema de alerta de sismos.
Apresente duas descrições de cenários de ML (ex: deteção de spam vs. diagnóstico de doença rara). Peça aos alunos para, em pares, escolherem a métrica mais relevante para cada cenário e explicarem o seu raciocínio em 2-3 frases.
Coloque a seguinte questão no quadro: 'Se um modelo de recomendação de filmes tem 99% de precisão, isso significa que é um bom modelo?'. Guie a discussão para explorar as limitações da precisão e a importância de considerar o recall e o F1-score, especialmente se a maioria dos utilizadores não interage com a maioria dos filmes recomendados.
Perguntas frequentes
Como calcular precisão, recall e F1-score num modelo de ML?
O que diferencia overfitting de underfitting e como detetar?
Como o aprendizagem ativa ajuda na avaliação de modelos de ML?
Qual métrica escolher para um problema específico de ML?
Mais em Cibersegurança, Inteligência Artificial e Desenvolvimento de Projetos
Ameaças Cibernéticas Comuns
Os alunos identificam e classificam diferentes tipos de malware (vírus, ransomware, spyware) e ataques cibernéticos.
2 methodologies
Engenharia Social e Phishing
Os alunos exploram técnicas de engenharia social e phishing, aprendendo a identificar e proteger-se contra estas ameaças.
2 methodologies
Defesas Cibernéticas e Boas Práticas
Os alunos aprendem sobre firewalls, antivírus, backups e outras medidas defensivas para proteger sistemas e dados.
2 methodologies
Impacto do Cibercrime
Os alunos analisam o impacto económico, social e político do cibercrime a nível global, incluindo casos de estudo.
2 methodologies
Introdução a Machine Learning
Os alunos são introduzidos aos conceitos fundamentais de Machine Learning, tipos de aprendizagem (supervisionada, não supervisionada).
2 methodologies
Tipos de Problemas em Machine Learning
Os alunos exploram os tipos de problemas que o Machine Learning pode resolver, focando-se na distinção entre classificação (prever categorias) e regressão (prever valores contínuos) com exemplos práticos.
2 methodologies