Machine Learning: Aprendizagem Não Supervisionada
Os alunos estudam a aprendizagem não supervisionada, focando em algoritmos de clustering e redução de dimensionalidade.
Sobre este tópico
A aprendizagem não supervisionada foca na descoberta de padrões em dados não rotulados, com ênfase em algoritmos de clustering, como o K-means, e redução de dimensionalidade, como a Análise de Componentes Principais (PCA). No 12.º ano, os alunos exploram como o clustering agrupa observações semelhantes baseando-se em distâncias, revelando estruturas ocultas em conjuntos de dados reais, como perfis de clientes ou sensores IoT. A PCA projeta dados de alta dimensão em espaços de menor dimensão, preservando variância e facilitando análises visuais.
Esta unidade alinha-se com o Currículo Nacional, fortalecendo o pensamento computacional e a análise de dados nos domínios DGE Secundário. Os alunos analisam aplicações práticas, avaliam desafios como a determinação do número ótimo de clusters ou a interpretabilidade dos componentes principais, e discutem limitações, como sensibilidade a outliers.
A aprendizagem ativa beneficia este tópico porque os alunos executam algoritmos em ferramentas acessíveis como Python ou KNIME, visualizam clusters em tempo real e colaboram na interpretação de resultados, transformando conceitos abstractos em experiências práticas e desenvolvendo competências analíticas duradouras.
Questões-Chave
- Como os algoritmos de clustering podem descobrir padrões ocultos em dados não rotulados?
- Analise a aplicação da redução de dimensionalidade para simplificar conjuntos de dados complexos.
- Avalie os desafios de interpretar os resultados de modelos de aprendizagem não supervisionada.
Objetivos de Aprendizagem
- Classificar conjuntos de dados em grupos distintos utilizando algoritmos de clustering como K-means.
- Explicar como a Análise de Componentes Principais (PCA) reduz a dimensionalidade de um conjunto de dados preservando a variância.
- Avaliar a adequação de diferentes métricas de distância para problemas de clustering específicos.
- Comparar os resultados de algoritmos de clustering com diferentes parâmetros de entrada.
- Criticar a interpretabilidade dos clusters ou componentes gerados em cenários de dados complexos.
Antes de Começar
Porquê: Os alunos precisam de saber manipular dados e implementar algoritmos básicos para aplicar as técnicas de aprendizagem não supervisionada.
Porquê: A compreensão de como os dados são armazenados e acedidos é fundamental para trabalhar com conjuntos de dados reais.
Porquê: Conceitos como média, variância e a capacidade de criar gráficos básicos são essenciais para entender e interpretar os resultados dos algoritmos.
Vocabulário-Chave
| Clustering | Um método de aprendizagem não supervisionada que agrupa pontos de dados de forma que os pontos no mesmo grupo (cluster) sejam mais semelhantes entre si do que aos de outros grupos. |
| K-means | Um algoritmo popular de clustering que visa particionar n observações em k clusters, onde cada observação pertence ao cluster com a média mais próxima (centroide). |
| Redução de Dimensionalidade | O processo de reduzir o número de variáveis aleatórias consideradas, transformando dados de alta dimensão em uma representação de baixa dimensão, mantendo informações importantes. |
| Análise de Componentes Principais (PCA) | Uma técnica estatística usada para reduzir o número de variáveis em um conjunto de dados, criando novas variáveis (componentes principais) que são combinações lineares das originais. |
| Centroide | O centro de um cluster, tipicamente calculado como a média de todos os pontos de dados pertencentes a esse cluster. |
Atenção a estes erros comuns
Erro comumO clustering apenas agrupa dados visivelmente óbvios.
O que ensinar em alternativa
Clustering revela padrões não evidentes, como subgrupos em dados ruidosos. Atividades em pares com datasets reais mostram como algoritmos detectam estruturas, incentivando discussões que corrigem visões superficiais.
Erro comumA redução de dimensionalidade elimina informação importante.
O que ensinar em alternativa
PCA preserva a maior variância, minimizando perda. Visualizações em grupo ajudam alunos a verem como componentes capturam essência, fomentando experimentação ativa para validar preservação.
Erro comumModelos não supervisionados são menos precisos que supervisionados.
O que ensinar em alternativa
Eles descobrem padrões desconhecidos, úteis em exploração. Debates em turma com exemplos reais esclarecem valor, promovendo raciocínio crítico através de comparações hands-on.
Ideias de aprendizagem ativa
Ver todas as atividadesEnsino pelos Pares: Clustering K-means no Dataset Iris
Forneça o dataset Iris aos pares. Peça-lhes para implementar K-means com k=2,3,4 em Python ou Google Colab e plotar os clusters. Discutam o método do cotovelo para escolher k ótimo, comparando resultados.
Pequenos Grupos: Redução com PCA Visual
Divida a turma em pequenos grupos e dê um dataset de alta dimensão, como vinhos. Apliquem PCA, plotem os dois primeiros componentes e interpretem a variância explicada. Grupos apresentam loadings dos componentes.
Turma Inteira: Debate de Desafios Não Supervisionados
Apresente casos reais com ambiguidades em clustering. A turma vota em interpretações, depois executa algoritmos para validar. Registe insights no quadro coletivo.
Individual: Mini-Projeto Dados Locais
Cada aluno seleciona dados abertos portugueses, como turismo. Aplica clustering ou PCA e escreve um relatório curto sobre padrões encontrados e limitações.
Ligações ao Mundo Real
- Empresas de retalho, como a Zara ou a H&M, utilizam algoritmos de clustering para segmentar a sua base de clientes em grupos com comportamentos de compra semelhantes, permitindo campanhas de marketing personalizadas e a otimização de stocks.
- Investigadores em genómica aplicam redução de dimensionalidade para analisar grandes conjuntos de dados de expressão génica, identificando padrões que podem indicar predisposição a doenças ou resposta a tratamentos, como estudos realizados no Instituto de Biologia Molecular e Celular (IBMC) no Porto.
- Serviços de streaming, como a Netflix, empregam técnicas de clustering para recomendar filmes e séries aos utilizadores com base nos seus hábitos de visualização e nos de utilizadores com perfis semelhantes.
Ideias de Avaliação
Entregue aos alunos um pequeno conjunto de dados (ex: características de flores de Iris). Peça-lhes para aplicarem o K-means (com k=3) e descreverem em 2-3 frases as características que definem cada cluster resultante, comparando-as com os rótulos conhecidos (se aplicável).
Apresente um gráfico de PCA com 2 componentes principais para um conjunto de dados complexo. Pergunte aos alunos: 'Quais são as limitações de representar dados de 10 dimensões em apenas 2? Como poderíamos avaliar se a variância retida pelos componentes principais é suficiente para a nossa análise?'
Durante a demonstração de um algoritmo de clustering, pause e pergunte: 'Qual é a principal suposição que o algoritmo K-means faz sobre a forma dos clusters? Como é que a escolha inicial dos centroides pode afetar o resultado final?'
Perguntas frequentes
O que são algoritmos de clustering na aprendizagem não supervisionada?
Como funciona a redução de dimensionalidade com PCA?
Quais os desafios na interpretação de modelos não supervisionados?
Como a aprendizagem ativa ajuda na aprendizagem não supervisionada?
Mais em Bases de Dados e Sistemas de Informação
Arquitetura de Redes e Modelo OSI
Os alunos estudam o modelo OSI e os protocolos que permitem a comunicação global, compreendendo a estrutura das redes.
2 methodologies
Protocolos TCP/IP e Endereçamento
Os alunos aprofundam os protocolos TCP/IP, endereçamento IP (IPv4 e IPv6) e o funcionamento do DNS.
2 methodologies
Dispositivos de Rede e Topologias
Os alunos identificam e compreendem a função de dispositivos de rede (routers, switches, hubs) e diferentes topologias de rede.
2 methodologies
Criptografia Simétrica e Assimétrica
Os alunos analisam métodos de cifragem simétrica e assimétrica para garantir a confidencialidade da informação.
2 methodologies
Assinaturas Digitais e Certificados
Os alunos compreendem o funcionamento de assinaturas digitais e certificados para garantir autenticidade e integridade de dados.
2 methodologies
Ameaças Cibernéticas e Vetores de Ataque
Os alunos identificam diferentes tipos de malware, phishing, ataques de negação de serviço e outros vetores de ataque.
2 methodologies