Saltar para o conteúdo
Aplicações Informáticas B · 12.º Ano · Bases de Dados e Sistemas de Informação · 3o Periodo

Machine Learning: Aprendizagem Não Supervisionada

Os alunos estudam a aprendizagem não supervisionada, focando em algoritmos de clustering e redução de dimensionalidade.

Aprendizagens EssenciaisDGE: Secundário - Pensamento ComputacionalDGE: Secundário - Dados e Análise

Sobre este tópico

A aprendizagem não supervisionada foca na descoberta de padrões em dados não rotulados, com ênfase em algoritmos de clustering, como o K-means, e redução de dimensionalidade, como a Análise de Componentes Principais (PCA). No 12.º ano, os alunos exploram como o clustering agrupa observações semelhantes baseando-se em distâncias, revelando estruturas ocultas em conjuntos de dados reais, como perfis de clientes ou sensores IoT. A PCA projeta dados de alta dimensão em espaços de menor dimensão, preservando variância e facilitando análises visuais.

Esta unidade alinha-se com o Currículo Nacional, fortalecendo o pensamento computacional e a análise de dados nos domínios DGE Secundário. Os alunos analisam aplicações práticas, avaliam desafios como a determinação do número ótimo de clusters ou a interpretabilidade dos componentes principais, e discutem limitações, como sensibilidade a outliers.

A aprendizagem ativa beneficia este tópico porque os alunos executam algoritmos em ferramentas acessíveis como Python ou KNIME, visualizam clusters em tempo real e colaboram na interpretação de resultados, transformando conceitos abstractos em experiências práticas e desenvolvendo competências analíticas duradouras.

Questões-Chave

  1. Como os algoritmos de clustering podem descobrir padrões ocultos em dados não rotulados?
  2. Analise a aplicação da redução de dimensionalidade para simplificar conjuntos de dados complexos.
  3. Avalie os desafios de interpretar os resultados de modelos de aprendizagem não supervisionada.

Objetivos de Aprendizagem

  • Classificar conjuntos de dados em grupos distintos utilizando algoritmos de clustering como K-means.
  • Explicar como a Análise de Componentes Principais (PCA) reduz a dimensionalidade de um conjunto de dados preservando a variância.
  • Avaliar a adequação de diferentes métricas de distância para problemas de clustering específicos.
  • Comparar os resultados de algoritmos de clustering com diferentes parâmetros de entrada.
  • Criticar a interpretabilidade dos clusters ou componentes gerados em cenários de dados complexos.

Antes de Começar

Conceitos Fundamentais de Programação em Python

Porquê: Os alunos precisam de saber manipular dados e implementar algoritmos básicos para aplicar as técnicas de aprendizagem não supervisionada.

Bases de Dados e Consultas SQL

Porquê: A compreensão de como os dados são armazenados e acedidos é fundamental para trabalhar com conjuntos de dados reais.

Estatística Descritiva e Visualização de Dados

Porquê: Conceitos como média, variância e a capacidade de criar gráficos básicos são essenciais para entender e interpretar os resultados dos algoritmos.

Vocabulário-Chave

ClusteringUm método de aprendizagem não supervisionada que agrupa pontos de dados de forma que os pontos no mesmo grupo (cluster) sejam mais semelhantes entre si do que aos de outros grupos.
K-meansUm algoritmo popular de clustering que visa particionar n observações em k clusters, onde cada observação pertence ao cluster com a média mais próxima (centroide).
Redução de DimensionalidadeO processo de reduzir o número de variáveis aleatórias consideradas, transformando dados de alta dimensão em uma representação de baixa dimensão, mantendo informações importantes.
Análise de Componentes Principais (PCA)Uma técnica estatística usada para reduzir o número de variáveis em um conjunto de dados, criando novas variáveis (componentes principais) que são combinações lineares das originais.
CentroideO centro de um cluster, tipicamente calculado como a média de todos os pontos de dados pertencentes a esse cluster.

Atenção a estes erros comuns

Erro comumO clustering apenas agrupa dados visivelmente óbvios.

O que ensinar em alternativa

Clustering revela padrões não evidentes, como subgrupos em dados ruidosos. Atividades em pares com datasets reais mostram como algoritmos detectam estruturas, incentivando discussões que corrigem visões superficiais.

Erro comumA redução de dimensionalidade elimina informação importante.

O que ensinar em alternativa

PCA preserva a maior variância, minimizando perda. Visualizações em grupo ajudam alunos a verem como componentes capturam essência, fomentando experimentação ativa para validar preservação.

Erro comumModelos não supervisionados são menos precisos que supervisionados.

O que ensinar em alternativa

Eles descobrem padrões desconhecidos, úteis em exploração. Debates em turma com exemplos reais esclarecem valor, promovendo raciocínio crítico através de comparações hands-on.

Ideias de aprendizagem ativa

Ver todas as atividades

Ligações ao Mundo Real

  • Empresas de retalho, como a Zara ou a H&M, utilizam algoritmos de clustering para segmentar a sua base de clientes em grupos com comportamentos de compra semelhantes, permitindo campanhas de marketing personalizadas e a otimização de stocks.
  • Investigadores em genómica aplicam redução de dimensionalidade para analisar grandes conjuntos de dados de expressão génica, identificando padrões que podem indicar predisposição a doenças ou resposta a tratamentos, como estudos realizados no Instituto de Biologia Molecular e Celular (IBMC) no Porto.
  • Serviços de streaming, como a Netflix, empregam técnicas de clustering para recomendar filmes e séries aos utilizadores com base nos seus hábitos de visualização e nos de utilizadores com perfis semelhantes.

Ideias de Avaliação

Bilhete de Saída

Entregue aos alunos um pequeno conjunto de dados (ex: características de flores de Iris). Peça-lhes para aplicarem o K-means (com k=3) e descreverem em 2-3 frases as características que definem cada cluster resultante, comparando-as com os rótulos conhecidos (se aplicável).

Questão para Discussão

Apresente um gráfico de PCA com 2 componentes principais para um conjunto de dados complexo. Pergunte aos alunos: 'Quais são as limitações de representar dados de 10 dimensões em apenas 2? Como poderíamos avaliar se a variância retida pelos componentes principais é suficiente para a nossa análise?'

Verificação Rápida

Durante a demonstração de um algoritmo de clustering, pause e pergunte: 'Qual é a principal suposição que o algoritmo K-means faz sobre a forma dos clusters? Como é que a escolha inicial dos centroides pode afetar o resultado final?'

Perguntas frequentes

O que são algoritmos de clustering na aprendizagem não supervisionada?
Algoritmos de clustering, como K-means, agrupam dados não rotulados por similaridade, calculando distâncias entre pontos. No contexto escolar, alunos aplicam-nos a dados reais para identificar padrões, como segmentos de mercado. Esta abordagem desenvolve análise exploratória, essencial para o pensamento computacional avançado no Currículo Nacional.
Como funciona a redução de dimensionalidade com PCA?
A PCA transforma dados em componentes principais que maximizam variância, reduzindo dimensões para visualização. Alunos plotam dados projetados, interpretando loadings. Útil para simplificar big data, alinha-se com standards de análise de dados DGE, preparando para aplicações em IA.
Quais os desafios na interpretação de modelos não supervisionados?
Desafios incluem escolher hiperparâmetros, lidar com outliers e validar clusters sem ground truth. Alunos avaliam através de métricas como silhouette score. Atividades práticas ensinam a comunicar incertezas, fomentando pensamento crítico em inovação digital.
Como a aprendizagem ativa ajuda na aprendizagem não supervisionada?
A aprendizagem ativa envolve alunos em execução de algoritmos, visualização de clusters e debate de resultados em grupo, tornando abstracto concreto. Usando ferramentas como Colab, constroem intuição sobre padrões ocultos. Colaboração revela vieses interpretativos, alinhando com pedagogia ativa do Currículo Nacional e melhorando retenção em pensamento computacional.