Numérique et sciences informatiques · Première · Représentation des données : types et valeurs de base · 1.º Período

Représentation des textes

Découvrir les normes d'encodage des caractères, de l'ASCII à l'Unicode. Analyser les problèmes liés aux changements d'encodage dans les documents.

En bref:La représentation des textes est une thématique qui lie l'informatique à la culture universelle et aux enjeux de communication mondiale. De l'ASCII historique, limité aux caractères anglo-saxons, à l'Unicode (UTF-8) capable de coder tous les alphabets et emojis, les élèves découvrent comment la technique s'adapte à la diversité humaine. Ce sujet est crucial pour comprendre pourquoi certains fichiers affichent des caractères étranges ou pourquoi la taille des fichiers texte varie.

Programmes OfficielsBOEN spécialité NSI 1re - Représentation d'un texte en machineBOEN spécialité NSI 1re - Normes ASCII, ISO-8859-1, Unicode

À propos de ce thème

La représentation des textes est une thématique qui lie l'informatique à la culture universelle et aux enjeux de communication mondiale. De l'ASCII historique, limité aux caractères anglo-saxons, à l'Unicode (UTF-8) capable de coder tous les alphabets et emojis, les élèves découvrent comment la technique s'adapte à la diversité humaine. Ce sujet est crucial pour comprendre pourquoi certains fichiers affichent des caractères étranges ou pourquoi la taille des fichiers texte varie.

Ce chapitre offre une excellente opportunité d'aborder les standards internationaux et l'interopérabilité. L'apprentissage par la pratique, notamment en manipulant des éditeurs hexadécimaux pour observer les octets réels derrière les lettres, permet aux élèves de faire le lien direct entre un symbole graphique et sa valeur numérique.

Questions clés

Qu'est-ce que le code ASCII ?
Comment représenter les caractères internationaux avec Unicode ?
Pourquoi observe-t-on parfois des erreurs d'affichage de caractères ?

Attention à ces idées reçues

Idée reçue couranteConfondre le caractère et son glyphe (son apparence visuelle).

Ce qu'il faut enseigner à la place

Un caractère est un concept abstrait lié à un code numérique, alors que la police d'écriture est une image. Utiliser différents éditeurs pour ouvrir le même fichier aide à faire cette distinction.

Idée reçue courantePenser qu'un caractère occupe toujours un seul octet.

Ce qu'il faut enseigner à la place

C'était vrai pour l'ASCII, mais l'UTF-8 utilise entre 1 et 4 octets. Faire compter la taille en octets d'une chaîne contenant des accents montre que la longueur en caractères n'est pas égale à la taille mémoire.

Idées d'apprentissage actif

Voir toutes les activités→

Galerie marchande

L'évolution des encodages

Des affiches présentent différents encodages (ASCII, ISO-8859-1, UTF-8). Les élèves circulent pour identifier quels caractères sont supportés et notent les différences de stockage pour un même mot.

40 min·Classe entière

Cercle de recherche

Le mystère des accents disparus

Les élèves reçoivent un fichier texte corrompu. Ils doivent tester différents encodages dans leur éditeur pour retrouver le texte original et expliquer la cause du problème.

30 min·Binômes

Penser-Partager-Présenter

Créer son propre emoji

Les élèves cherchent le code Unicode d'un emoji et calculent sa représentation en octets UTF-8, puis comparent leurs résultats avec un camarade.

20 min·Binômes

Questions fréquentes

Quelle est la différence entre ASCII et Unicode ?

L'ASCII est un vieux standard codé sur 7 bits limité à 128 caractères anglais. Unicode est un standard moderne visant à coder tous les caractères du monde. UTF-8 est la manière la plus courante de stocker l'Unicode.

Pourquoi voit-on parfois des '' ou des caractères bizarres ?

Cela arrive quand un logiciel essaie d'ouvrir un fichier avec le mauvais encodage. Par exemple, lire un fichier encodé en UTF-8 comme s'il était en ISO-8859-1 provoque des erreurs sur les caractères accentués.

Comment rendre l'étude de l'encodage interactive ?

Proposez des défis de décodage manuel à l'aide de tables de référence. En faisant manipuler des fichiers réels via un terminal ou un éditeur hexadécimal, les élèves voient concrètement l'impact du choix de l'encodage sur les données binaires.

Est-ce que l'UTF-8 est le seul encodage Unicode ?

Non, il existe aussi l'UTF-16 ou l'UTF-32, mais l'UTF-8 est le plus utilisé sur le web car il reste compatible avec l'ASCII et économise de l'espace pour les textes occidentaux.

Plus dans Représentation des données : types et valeurs de base

Représentation binaire et hexadécimale

Comprendre comment les nombres entiers positifs sont représentés en machine. Apprendre à passer d'une base de numération à une autre.

8 methodologies

Représentation des entiers relatifs et des réels

Étudier le complément à deux pour les entiers négatifs et la représentation en virgule flottante. Identifier et comprendre les limites de ces représentations.

8 methodologies

Edited by Adriana Perusin, Editor-in-Chief, Flip Education