Aplicações Informáticas B · 12.º Ano · Bases de Dados e Sistemas de Informação · 3.º Período

Machine Learning: Aprendizagem Não Supervisionada

Os alunos estudam a aprendizagem não supervisionada, focando em algoritmos de clustering e redução de dimensionalidade.

Em síntese:A aprendizagem não supervisionada é abstrata e complexa para alunos do 12.º ano, logo a abordagem ativa é essencial para que visualizem conceitos como clustering e PCA em ação. Trabalhar com datasets reais, como o Iris ou dados IoT, torna a teoria tangível e revela a relevância destas técnicas em cenários concretos, como segmentação de clientes ou monitorização de sensores.

Aprendizagens EssenciaisDGE: Secundário - Pensamento ComputacionalDGE: Secundário - Dados e Análise

Sobre este tópico

A aprendizagem não supervisionada foca na descoberta de padrões em dados não rotulados, com ênfase em algoritmos de clustering, como o K-means, e redução de dimensionalidade, como a Análise de Componentes Principais (PCA). No 12.º ano, os alunos exploram como o clustering agrupa observações semelhantes baseando-se em distâncias, revelando estruturas ocultas em conjuntos de dados reais, como perfis de clientes ou sensores IoT. A PCA projeta dados de alta dimensão em espaços de menor dimensão, preservando variância e facilitando análises visuais.

Esta unidade alinha-se com o Currículo Nacional, fortalecendo o pensamento computacional e a análise de dados nos domínios DGE Secundário. Os alunos analisam aplicações práticas, avaliam desafios como a determinação do número ótimo de clusters ou a interpretabilidade dos componentes principais, e discutem limitações, como sensibilidade a outliers.

A aprendizagem ativa beneficia este tópico porque os alunos executam algoritmos em ferramentas acessíveis como Python ou KNIME, visualizam clusters em tempo real e colaboram na interpretação de resultados, transformando conceitos abstractos em experiências práticas e desenvolvendo competências analíticas duradouras.

Questões-Chave

Como os algoritmos de clustering podem descobrir padrões ocultos em dados não rotulados?
Analise a aplicação da redução de dimensionalidade para simplificar conjuntos de dados complexos.
Avalie os desafios de interpretar os resultados de modelos de aprendizagem não supervisionada.

Objetivos de Aprendizagem

Classificar conjuntos de dados em grupos distintos utilizando algoritmos de clustering como K-means.
Explicar como a Análise de Componentes Principais (PCA) reduz a dimensionalidade de um conjunto de dados preservando a variância.
Avaliar a adequação de diferentes métricas de distância para problemas de clustering específicos.
Comparar os resultados de algoritmos de clustering com diferentes parâmetros de entrada.
Criticar a interpretabilidade dos clusters ou componentes gerados em cenários de dados complexos.

Antes de Começar

Conceitos Fundamentais de Programação em Python

Porquê: Os alunos precisam de saber manipular dados e implementar algoritmos básicos para aplicar as técnicas de aprendizagem não supervisionada.

Bases de Dados e Consultas SQL

Porquê: A compreensão de como os dados são armazenados e acedidos é fundamental para trabalhar com conjuntos de dados reais.

Estatística Descritiva e Visualização de Dados

Porquê: Conceitos como média, variância e a capacidade de criar gráficos básicos são essenciais para entender e interpretar os resultados dos algoritmos.

Vocabulário-Chave

Clustering	Um método de aprendizagem não supervisionada que agrupa pontos de dados de forma que os pontos no mesmo grupo (cluster) sejam mais semelhantes entre si do que aos de outros grupos.
K-means	Um algoritmo popular de clustering que visa particionar n observações em k clusters, onde cada observação pertence ao cluster com a média mais próxima (centroide).
Redução de Dimensionalidade	O processo de reduzir o número de variáveis aleatórias consideradas, transformando dados de alta dimensão em uma representação de baixa dimensão, mantendo informações importantes.
Análise de Componentes Principais (PCA)	Uma técnica estatística usada para reduzir o número de variáveis em um conjunto de dados, criando novas variáveis (componentes principais) que são combinações lineares das originais.
Centroide	O centro de um cluster, tipicamente calculado como a média de todos os pontos de dados pertencentes a esse cluster.

Atenção a estes erros comuns

Erro comumO clustering apenas agrupa dados visivelmente óbvios.

O que ensinar em alternativa

Clustering revela padrões não evidentes, como subgrupos em dados ruidosos. Atividades em pares com datasets reais mostram como algoritmos detectam estruturas, incentivando discussões que corrigem visões superficiais.

Erro comumA redução de dimensionalidade elimina informação importante.

O que ensinar em alternativa

PCA preserva a maior variância, minimizando perda. Visualizações em grupo ajudam alunos a verem como componentes capturam essência, fomentando experimentação ativa para validar preservação.

Erro comumModelos não supervisionados são menos precisos que supervisionados.

O que ensinar em alternativa

Eles descobrem padrões desconhecidos, úteis em exploração. Debates em turma com exemplos reais esclarecem valor, promovendo raciocínio crítico através de comparações hands-on.

Ideias de aprendizagem ativa

Ver todas as atividades→

Ensino pelos Pares

Clustering K-means no Dataset Iris

Forneça o dataset Iris aos pares. Peça-lhes para implementar K-means com k=2,3,4 em Python ou Google Colab e plotar os clusters. Discutam o método do cotovelo para escolher k ótimo, comparando resultados.

35 min·Pares

Resolução Colaborativa de Problemas

Pequenos Grupos: Redução com PCA Visual

Divida a turma em pequenos grupos e dê um dataset de alta dimensão, como vinhos. Apliquem PCA, plotem os dois primeiros componentes e interpretem a variância explicada. Grupos apresentam loadings dos componentes.

45 min·Pequenos grupos

Resolução Colaborativa de Problemas

Turma Inteira: Debate de Desafios Não Supervisionados

Apresente casos reais com ambiguidades em clustering. A turma vota em interpretações, depois executa algoritmos para validar. Registe insights no quadro coletivo.

30 min·Turma inteira

Ligações ao Mundo Real

Empresas de retalho, como a Zara ou a H&M, utilizam algoritmos de clustering para segmentar a sua base de clientes em grupos com comportamentos de compra semelhantes, permitindo campanhas de marketing personalizadas e a otimização de stocks.
Investigadores em genómica aplicam redução de dimensionalidade para analisar grandes conjuntos de dados de expressão génica, identificando padrões que podem indicar predisposição a doenças ou resposta a tratamentos, como estudos realizados no Instituto de Biologia Molecular e Celular (IBMC) no Porto.
Serviços de streaming, como a Netflix, empregam técnicas de clustering para recomendar filmes e séries aos utilizadores com base nos seus hábitos de visualização e nos de utilizadores com perfis semelhantes.

Ideias de Avaliação

Bilhete de Saída

Entregue aos alunos um pequeno conjunto de dados (ex: características de flores de Iris). Peça-lhes para aplicarem o K-means (com k=3) e descreverem em 2-3 frases as características que definem cada cluster resultante, comparando-as com os rótulos conhecidos (se aplicável).

Questão para Discussão

Apresente um gráfico de PCA com 2 componentes principais para um conjunto de dados complexo. Pergunte aos alunos: 'Quais são as limitações de representar dados de 10 dimensões em apenas 2? Como poderíamos avaliar se a variância retida pelos componentes principais é suficiente para a nossa análise?'

Verificação Rápida

Durante a demonstração de um algoritmo de clustering, pause e pergunte: 'Qual é a principal suposição que o algoritmo K-means faz sobre a forma dos clusters? Como é que a escolha inicial dos centroides pode afetar o resultado final?'

Perguntas frequentes

O que são algoritmos de clustering na aprendizagem não supervisionada?

Algoritmos de clustering, como K-means, agrupam dados não rotulados por similaridade, calculando distâncias entre pontos. No contexto escolar, alunos aplicam-nos a dados reais para identificar padrões, como segmentos de mercado. Esta abordagem desenvolve análise exploratória, essencial para o pensamento computacional avançado no Currículo Nacional.

Como funciona a redução de dimensionalidade com PCA?

A PCA transforma dados em componentes principais que maximizam variância, reduzindo dimensões para visualização. Alunos plotam dados projetados, interpretando loadings. Útil para simplificar big data, alinha-se com standards de análise de dados DGE, preparando para aplicações em IA.

Quais os desafios na interpretação de modelos não supervisionados?

Desafios incluem escolher hiperparâmetros, lidar com outliers e validar clusters sem ground truth. Alunos avaliam através de métricas como silhouette score. Atividades práticas ensinam a comunicar incertezas, fomentando pensamento crítico em inovação digital.

Como a aprendizagem ativa ajuda na aprendizagem não supervisionada?

A aprendizagem ativa envolve alunos em execução de algoritmos, visualização de clusters e debate de resultados em grupo, tornando abstracto concreto. Usando ferramentas como Colab, constroem intuição sobre padrões ocultos. Colaboração revela vieses interpretativos, alinhando com pedagogia ativa do Currículo Nacional e melhorando retenção em pensamento computacional.

Mais em Bases de Dados e Sistemas de Informação

Arquitetura de Redes e Modelo OSI

Os alunos estudam o modelo OSI e os protocolos que permitem a comunicação global, compreendendo a estrutura das redes.

8 methodologies

Protocolos TCP/IP e Endereçamento

Os alunos aprofundam os protocolos TCP/IP, endereçamento IP (IPv4 e IPv6) e o funcionamento do DNS.

8 methodologies

Dispositivos de Rede e Topologias

Os alunos identificam e compreendem a função de dispositivos de rede (routers, switches, hubs) e diferentes topologias de rede.

8 methodologies

Criptografia Simétrica e Assimétrica

Os alunos analisam métodos de cifragem simétrica e assimétrica para garantir a confidencialidade da informação.

8 methodologies

Assinaturas Digitais e Certificados

Os alunos compreendem o funcionamento de assinaturas digitais e certificados para garantir autenticidade e integridade de dados.

8 methodologies

Ameaças Cibernéticas e Vetores de Ataque

Os alunos identificam diferentes tipos de malware, phishing, ataques de negação de serviço e outros vetores de ataque.

8 methodologies

Edited by Adriana Perusin, Editor-in-Chief, Flip Education