Machine Learning: Aprendizagem Supervisionada
Os alunos exploram os conceitos de aprendizagem supervisionada, incluindo algoritmos de classificação e regressão.
Sobre este tópico
A aprendizagem supervisionada constitui uma abordagem fundamental na machine learning, na qual modelos são treinados com conjuntos de dados rotulados para realizar previsões precisas. No 12.º ano, os alunos exploram algoritmos de classificação, usados para categorizar entradas como imagens de gatos ou cães, e algoritmos de regressão, aplicados a previsões contínuas como temperaturas ou preços imobiliários. Os dados de treino desempenham um papel central, pois a sua qualidade e quantidade determinam diretamente a precisão do modelo final.
Este tópico integra-se no Currículo Nacional, alinhando-se com os domínios de Pensamento Computacional e Dados e Análise do secundário. Os alunos analisam como conjuntos de dados enviesados ou insuficientes levam a modelos pouco fiáveis, distinguem problemas de classificação de regressão através de exemplos práticos, e compreendem a validação cruzada como método essencial para avaliar a generalização dos modelos, evitando fenómenos como o overfitting.
A aprendizagem ativa beneficia particularmente este tópico, pois permite aos alunos manipularem dados reais em ferramentas como Python ou plataformas visuais, treinarem modelos passo a passo e observarem impactos imediatos de alterações nos dados. Estas experiências tornam conceitos abstractos tangíveis, promovem a experimentação colaborativa e desenvolvem competências de análise crítica essenciais para a inovação digital.
Questões-Chave
- Como os dados de treino influenciam a precisão de um modelo de machine learning?
- Analise a diferença entre problemas de classificação e regressão e os seus algoritmos.
- Explique a importância da validação cruzada na avaliação de modelos de aprendizagem supervisionada.
Objetivos de Aprendizagem
- Classificar problemas de machine learning como problemas de classificação ou regressão, justificando a escolha com base nas características dos dados e do resultado esperado.
- Avaliar a influência da qualidade e quantidade dos dados de treino na performance de um modelo de aprendizagem supervisionada, utilizando métricas apropriadas.
- Comparar e contrastar os princípios de funcionamento de pelo menos dois algoritmos de classificação (ex: Árvores de Decisão, Regressão Logística) e dois algoritmos de regressão (ex: Regressão Linear, Árvores de Decisão para Regressão).
- Explicar o conceito de validação cruzada e demonstrar a sua importância na prevenção do overfitting e na avaliação robusta de modelos.
- Desenvolver um modelo simples de aprendizagem supervisionada utilizando um conjunto de dados rotulado e ferramentas de programação ou plataformas visuais.
Antes de Começar
Porquê: Os alunos precisam de familiaridade com a sintaxe básica de Python e estruturas de dados para implementar e experimentar com algoritmos de machine learning.
Porquê: Compreender como carregar, limpar e visualizar dados é fundamental antes de os usar para treinar modelos de machine learning.
Porquê: Uma compreensão básica de como os algoritmos funcionam e a sua eficiência é útil para entender os princípios por trás dos algoritmos de machine learning.
Vocabulário-Chave
| Aprendizagem Supervisionada | Um tipo de machine learning onde o modelo aprende a partir de um conjunto de dados de treino que inclui tanto as entradas (features) como as saídas desejadas (rótulos). |
| Dados de Treino | O conjunto de dados rotulados utilizado para treinar um modelo de machine learning, permitindo que este aprenda padrões e relações. |
| Classificação | Um problema de aprendizagem supervisionada onde o objetivo é prever uma categoria discreta ou rótulo para uma dada entrada (ex: spam/não spam, gato/cão). |
| Regressão | Um problema de aprendizagem supervisionada onde o objetivo é prever um valor contínuo ou numérico para uma dada entrada (ex: preço de uma casa, temperatura de amanhã). |
| Validação Cruzada | Uma técnica para avaliar a performance de um modelo de machine learning, dividindo os dados em múltiplos subconjuntos e treinando/testando o modelo iterativamente para obter uma estimativa mais fiável da sua generalização. |
| Overfitting | Um fenómeno onde um modelo de machine learning aprende os dados de treino demasiado bem, incluindo o ruído e os detalhes específicos, o que leva a uma má performance em dados novos e não vistos. |
Atenção a estes erros comuns
Erro comumMais dados de treino sempre melhoram a precisão do modelo.
O que ensinar em alternativa
Na verdade, dados excessivos ou de baixa qualidade podem causar overfitting, onde o modelo memoriza o treino em vez de generalizar. Abordagens activas como experimentação em pares com datasets variados ajudam os alunos a observarem este fenómeno em tempo real e a ajustarem estratégias de pré-processamento.
Erro comumClassificação e regressão usam os mesmos algoritmos.
O que ensinar em alternativa
Classificação produz categorias discretas, enquanto regressão prevê valores contínuos; algoritmos como k-NN adaptam-se a ambos, mas logística aplica-se só a classificação. Actividades de rotação por estações permitem comparações directas, clarificando diferenças através de saídas visuais e discussões em grupo.
Erro comumValidação cruzada é apenas um teste final.
O que ensinar em alternativa
É um método iterativo que divide dados em múltiplos conjuntos de treino e teste para avaliação robusta. Simulações em classe inteira revelam a sua importância, pois os alunos calculam métricas médias e debatem variabilidade, fortalecendo a compreensão prática.
Ideias de aprendizagem ativa
Ver todas as atividadesEstações de Rotação: Classificação vs Regressão
Crie quatro estações com conjuntos de dados simples: uma para classificação de flores Iris, outra para regressão de preços de casas, uma terceira para treino com dados enviesados e a última para validação cruzada. Os grupos rotacionam a cada 10 minutos, registando previsões e métricas de precisão em fichas partilhadas.
Parcerias: Treino de Modelo Simples
Em pares, os alunos selecionam um dataset do UCI Repository, preparam os dados de treino e testam um algoritmo de classificação com scikit-learn. Discutem ajustes para melhorar a precisão e comparam resultados com o parceiro.
Classe Inteira: Simulação de Validação Cruzada
Apresente um dataset comum à turma. Divida em subgrupos para rodadas de treino e teste alternados, calculando médias de precisão no quadro. A classe debate colectivamente os resultados e a importância da validação.
Individual: Análise de Dados de Treino
Cada aluno recebe um dataset com ruído intencional, treina um modelo e avalia a precisão antes e após limpeza. Regista observações num relatório individual para partilha posterior.
Ligações ao Mundo Real
- Analistas de dados em empresas de e-commerce utilizam modelos de classificação para prever se um cliente irá clicar num anúncio ou comprar um produto, otimizando campanhas de marketing digital.
- Engenheiros de machine learning em empresas automóveis desenvolvem modelos de regressão para prever o consumo de combustível de um veículo com base nas suas características e condições de condução, visando a eficiência energética.
- Cientistas de dados na área da saúde usam algoritmos supervisionados para classificar imagens médicas (ex: raios-X) como contendo ou não sinais de doença, auxiliando no diagnóstico precoce.
Ideias de Avaliação
Entregue aos alunos um pequeno conjunto de dados fictício com descrições de casas (área, número de quartos) e os seus preços. Peça-lhes para: 1. Identificar se este é um problema de classificação ou regressão e justificar. 2. Sugerir duas métricas que poderiam ser usadas para avaliar um modelo treinado com estes dados.
Durante a explicação da validação cruzada, apresente um cenário: 'Um modelo de previsão de desemprego tem uma precisão de 99% nos dados de treino, mas apenas 60% nos dados de teste.' Pergunte aos alunos: 'Qual é o problema mais provável aqui e como a validação cruzada poderia ter ajudado a detetá-lo mais cedo?'
Coloque a seguinte questão para discussão em pequenos grupos: 'Imaginem que estão a construir um modelo para prever a probabilidade de um aluno ter sucesso numa disciplina. Que tipo de dados de treino seriam essenciais? Que problemas poderiam surgir com dados de treino incompletos ou enviesados e como poderiam mitigar esses riscos?'
Perguntas frequentes
Como os dados de treino influenciam a precisão de um modelo de machine learning?
Qual a diferença entre problemas de classificação e regressão?
Por que é importante a validação cruzada na aprendizagem supervisionada?
Como pode a aprendizagem activa ajudar no ensino de aprendizagem supervisionada?
Mais em Bases de Dados e Sistemas de Informação
Arquitetura de Redes e Modelo OSI
Os alunos estudam o modelo OSI e os protocolos que permitem a comunicação global, compreendendo a estrutura das redes.
2 methodologies
Protocolos TCP/IP e Endereçamento
Os alunos aprofundam os protocolos TCP/IP, endereçamento IP (IPv4 e IPv6) e o funcionamento do DNS.
2 methodologies
Dispositivos de Rede e Topologias
Os alunos identificam e compreendem a função de dispositivos de rede (routers, switches, hubs) e diferentes topologias de rede.
2 methodologies
Criptografia Simétrica e Assimétrica
Os alunos analisam métodos de cifragem simétrica e assimétrica para garantir a confidencialidade da informação.
2 methodologies
Assinaturas Digitais e Certificados
Os alunos compreendem o funcionamento de assinaturas digitais e certificados para garantir autenticidade e integridade de dados.
2 methodologies
Ameaças Cibernéticas e Vetores de Ataque
Os alunos identificam diferentes tipos de malware, phishing, ataques de negação de serviço e outros vetores de ataque.
2 methodologies