Aplicações Informáticas B · 12.º Ano · Bases de Dados e Sistemas de Informação · 3.º Período

Machine Learning: Aprendizagem Supervisionada

Os alunos exploram os conceitos de aprendizagem supervisionada, incluindo algoritmos de classificação e regressão.

Em síntese:A aprendizagem supervisionada exige que os alunos compreendam a relação entre dados, algoritmos e resultados práticos. Atividades práticas em estações ou simulações permitem-lhes manipular variáveis reais e observar diretamente como escolhas no pré-processamento ou na seleção de algoritmos afetam o desempenho do modelo.

Aprendizagens EssenciaisDGE: Secundário - Pensamento ComputacionalDGE: Secundário - Dados e Análise

Sobre este tópico

A aprendizagem supervisionada constitui uma abordagem fundamental na machine learning, na qual modelos são treinados com conjuntos de dados rotulados para realizar previsões precisas. No 12.º ano, os alunos exploram algoritmos de classificação, usados para categorizar entradas como imagens de gatos ou cães, e algoritmos de regressão, aplicados a previsões contínuas como temperaturas ou preços imobiliários. Os dados de treino desempenham um papel central, pois a sua qualidade e quantidade determinam diretamente a precisão do modelo final.

Este tópico integra-se no Currículo Nacional, alinhando-se com os domínios de Pensamento Computacional e Dados e Análise do secundário. Os alunos analisam como conjuntos de dados enviesados ou insuficientes levam a modelos pouco fiáveis, distinguem problemas de classificação de regressão através de exemplos práticos, e compreendem a validação cruzada como método essencial para avaliar a generalização dos modelos, evitando fenómenos como o overfitting.

A aprendizagem ativa beneficia particularmente este tópico, pois permite aos alunos manipularem dados reais em ferramentas como Python ou plataformas visuais, treinarem modelos passo a passo e observarem impactos imediatos de alterações nos dados. Estas experiências tornam conceitos abstractos tangíveis, promovem a experimentação colaborativa e desenvolvem competências de análise crítica essenciais para a inovação digital.

Questões-Chave

Como os dados de treino influenciam a precisão de um modelo de machine learning?
Analise a diferença entre problemas de classificação e regressão e os seus algoritmos.
Explique a importância da validação cruzada na avaliação de modelos de aprendizagem supervisionada.

Objetivos de Aprendizagem

Classificar problemas de machine learning como problemas de classificação ou regressão, justificando a escolha com base nas características dos dados e do resultado esperado.
Avaliar a influência da qualidade e quantidade dos dados de treino na performance de um modelo de aprendizagem supervisionada, utilizando métricas apropriadas.
Comparar e contrastar os princípios de funcionamento de pelo menos dois algoritmos de classificação (ex: Árvores de Decisão, Regressão Logística) e dois algoritmos de regressão (ex: Regressão Linear, Árvores de Decisão para Regressão).
Explicar o conceito de validação cruzada e demonstrar a sua importância na prevenção do overfitting e na avaliação robusta de modelos.
Desenvolver um modelo simples de aprendizagem supervisionada utilizando um conjunto de dados rotulado e ferramentas de programação ou plataformas visuais.

Antes de Começar

Introdução à Programação com Python

Porquê: Os alunos precisam de familiaridade com a sintaxe básica de Python e estruturas de dados para implementar e experimentar com algoritmos de machine learning.

Manipulação e Visualização de Dados

Porquê: Compreender como carregar, limpar e visualizar dados é fundamental antes de os usar para treinar modelos de machine learning.

Conceitos de Algoritmos e Estruturas de Dados

Porquê: Uma compreensão básica de como os algoritmos funcionam e a sua eficiência é útil para entender os princípios por trás dos algoritmos de machine learning.

Vocabulário-Chave

Aprendizagem Supervisionada	Um tipo de machine learning onde o modelo aprende a partir de um conjunto de dados de treino que inclui tanto as entradas (features) como as saídas desejadas (rótulos).
Dados de Treino	O conjunto de dados rotulados utilizado para treinar um modelo de machine learning, permitindo que este aprenda padrões e relações.
Classificação	Um problema de aprendizagem supervisionada onde o objetivo é prever uma categoria discreta ou rótulo para uma dada entrada (ex: spam/não spam, gato/cão).
Regressão	Um problema de aprendizagem supervisionada onde o objetivo é prever um valor contínuo ou numérico para uma dada entrada (ex: preço de uma casa, temperatura de amanhã).
Validação Cruzada	Uma técnica para avaliar a performance de um modelo de machine learning, dividindo os dados em múltiplos subconjuntos e treinando/testando o modelo iterativamente para obter uma estimativa mais fiável da sua generalização.
Overfitting	Um fenómeno onde um modelo de machine learning aprende os dados de treino demasiado bem, incluindo o ruído e os detalhes específicos, o que leva a uma má performance em dados novos e não vistos.

Atenção a estes erros comuns

Erro comumMais dados de treino sempre melhoram a precisão do modelo.

O que ensinar em alternativa

Na verdade, dados excessivos ou de baixa qualidade podem causar overfitting, onde o modelo memoriza o treino em vez de generalizar. Abordagens activas como experimentação em pares com datasets variados ajudam os alunos a observarem este fenómeno em tempo real e a ajustarem estratégias de pré-processamento.

Erro comumClassificação e regressão usam os mesmos algoritmos.

O que ensinar em alternativa

Classificação produz categorias discretas, enquanto regressão prevê valores contínuos; algoritmos como k-NN adaptam-se a ambos, mas logística aplica-se só a classificação. Actividades de rotação por estações permitem comparações directas, clarificando diferenças através de saídas visuais e discussões em grupo.

Erro comumValidação cruzada é apenas um teste final.

O que ensinar em alternativa

É um método iterativo que divide dados em múltiplos conjuntos de treino e teste para avaliação robusta. Simulações em classe inteira revelam a sua importância, pois os alunos calculam métricas médias e debatem variabilidade, fortalecendo a compreensão prática.

Ideias de aprendizagem ativa

Ver todas as atividades→

Resolução Colaborativa de Problemas

Estações de Rotação: Classificação vs Regressão

Crie quatro estações com conjuntos de dados simples: uma para classificação de flores Iris, outra para regressão de preços de casas, uma terceira para treino com dados enviesados e a última para validação cruzada. Os grupos rotacionam a cada 10 minutos, registando previsões e métricas de precisão em fichas partilhadas.

45 min·Pequenos grupos

Resolução Colaborativa de Problemas

Parcerias: Treino de Modelo Simples

Em pares, os alunos selecionam um dataset do UCI Repository, preparam os dados de treino e testam um algoritmo de classificação com scikit-learn. Discutem ajustes para melhorar a precisão e comparam resultados com o parceiro.

30 min·Pares

Resolução Colaborativa de Problemas

Classe Inteira: Simulação de Validação Cruzada

Apresente um dataset comum à turma. Divida em subgrupos para rodadas de treino e teste alternados, calculando médias de precisão no quadro. A classe debate colectivamente os resultados e a importância da validação.

35 min·Turma inteira

Ligações ao Mundo Real

Analistas de dados em empresas de e-commerce utilizam modelos de classificação para prever se um cliente irá clicar num anúncio ou comprar um produto, otimizando campanhas de marketing digital.
Engenheiros de machine learning em empresas automóveis desenvolvem modelos de regressão para prever o consumo de combustível de um veículo com base nas suas características e condições de condução, visando a eficiência energética.
Cientistas de dados na área da saúde usam algoritmos supervisionados para classificar imagens médicas (ex: raios-X) como contendo ou não sinais de doença, auxiliando no diagnóstico precoce.

Ideias de Avaliação

Bilhete de Saída

Entregue aos alunos um pequeno conjunto de dados fictício com descrições de casas (área, número de quartos) e os seus preços. Peça-lhes para: 1. Identificar se este é um problema de classificação ou regressão e justificar. 2. Sugerir duas métricas que poderiam ser usadas para avaliar um modelo treinado com estes dados.

Verificação Rápida

Durante a explicação da validação cruzada, apresente um cenário: 'Um modelo de previsão de desemprego tem uma precisão de 99% nos dados de treino, mas apenas 60% nos dados de teste.' Pergunte aos alunos: 'Qual é o problema mais provável aqui e como a validação cruzada poderia ter ajudado a detetá-lo mais cedo?'

Questão para Discussão

Coloque a seguinte questão para discussão em pequenos grupos: 'Imaginem que estão a construir um modelo para prever a probabilidade de um aluno ter sucesso numa disciplina. Que tipo de dados de treino seriam essenciais? Que problemas poderiam surgir com dados de treino incompletos ou enviesados e como poderiam mitigar esses riscos?'

Perguntas frequentes

Como os dados de treino influenciam a precisão de um modelo de machine learning?

Os dados de treino fornecem os exemplos rotulados que o modelo usa para aprender padrões. Conjuntos grandes, diversificados e sem ruído aumentam a precisão, mas enviesados levam a previsões erradas em novos dados. Actividades práticas com manipulação de datasets mostram aos alunos como limpeza e balanceamento melhoram resultados, promovendo decisões informadas em projectos reais. (62 palavras)

Qual a diferença entre problemas de classificação e regressão?

Classificação atribui categorias discretas, como 'benigno' ou 'maligno' em diagnósticos médicos, usando métricas como precisão e recall. Regressão prevê valores contínuos, como salários baseados em experiência, avaliados por erro quadrático médio. Exemplos hands-on com datasets reais ajudam os alunos a visualizar saídas e escolher algoritmos adequados, como árvores de decisão para ambos. (68 palavras)

Por que é importante a validação cruzada na aprendizagem supervisionada?

A validação cruzada divide os dados em múltiplas partilhas de treino e teste, fornecendo uma estimativa fiável da performance do modelo em dados não vistos, reduzindo o risco de overfitting. No Currículo Nacional, esta prática desenvolve análise rigorosa. Simulações em grupo permitem observar flutuações e médias, preparando alunos para avaliações robustas em contextos profissionais. (72 palavras)

Como pode a aprendizagem activa ajudar no ensino de aprendizagem supervisionada?

A aprendizagem activa envolve os alunos em manipulação directa de dados, treino de modelos e análise de resultados, tornando conceitos abstractos concretos. Actividades como estações de rotação ou simulações em Python fomentam colaboração, experimentação e resolução de problemas reais, alinhando-se ao Pensamento Computacional. Estas abordagens aumentam a retenção e a capacidade de aplicação crítica, essenciais no 12.º ano. (74 palavras)

Mais em Bases de Dados e Sistemas de Informação

Arquitetura de Redes e Modelo OSI

Os alunos estudam o modelo OSI e os protocolos que permitem a comunicação global, compreendendo a estrutura das redes.

8 methodologies

Protocolos TCP/IP e Endereçamento

Os alunos aprofundam os protocolos TCP/IP, endereçamento IP (IPv4 e IPv6) e o funcionamento do DNS.

8 methodologies

Dispositivos de Rede e Topologias

Os alunos identificam e compreendem a função de dispositivos de rede (routers, switches, hubs) e diferentes topologias de rede.

8 methodologies

Criptografia Simétrica e Assimétrica

Os alunos analisam métodos de cifragem simétrica e assimétrica para garantir a confidencialidade da informação.

8 methodologies

Assinaturas Digitais e Certificados

Os alunos compreendem o funcionamento de assinaturas digitais e certificados para garantir autenticidade e integridade de dados.

8 methodologies

Ameaças Cibernéticas e Vetores de Ataque

Os alunos identificam diferentes tipos de malware, phishing, ataques de negação de serviço e outros vetores de ataque.

8 methodologies

Edited by Adriana Perusin, Editor-in-Chief, Flip Education