Eclairage scientifique – Représentation de l’information
1, 2, 3, codez ! - Eclairage scientifique - Représentation de l'information
L'idée
de représenter un objet, concret ou abstrait, par un autre est très
ancienne, puisque toutes les langues reposent sur une telle
représentation des objets par des sons. [Le projet « 1, 2, 3…
codez ! » propose plusieurs activités au cycle 3 pour
travailler la représentation de l’information (texte et image),
notamment en séquence III-3.]
Comme les objets sont trop nombreux pour être chacun représenté par un
son différent, ils sont représentés, non par un son unique, mais pas une
suite de sons, choisis dans un ensemble de petite taille. Par exemple,
le français classique utilise trente-six sons, ou phonèmes, pour former
tous les mots. Dans une langue, un message est donc une suite finie
d'unités choisies dans un ensemble fini. Cette idée n'est cependant pas
complètement aboutie dans les langues orales où le volume, le débit,
l'intonation, ... du message contribuent à sa signification, tout
autant que la suite des unités dont il est constitué.
Combien d’information contient un texte ?
L'écriture, et surtout son utilisation
pour exprimer les langues, élimine ces éléments accessoires, mais elle
constitue, au moins dans un premier temps, une régression, puisque les
premières écritures des langues associaient un symbole différent à
chaque objet. Ce n'est qu'avec l'alphabet que se retrouve l'idée
d'associer à chaque objet non une unité, mais une suite d'unités prises
dans un ensemble de petite taille : l'alphabet. L'alphabet du français,
par exemple, contient 110 caractères environ : 42 minuscules (les 26
lettres fondamentales, 13 voyelles accentuées, le c cédille et 2
ligatures), autant de majuscules, 10 chiffres, et une vingtaine de
signes de ponctuation.
Le nombre de suites de n caractères que l'on peut former en les choisissant dans un alphabet de k éléments est kn : en effet, il y a k possibilités pour le premier caractère, k possibilités pour le deuxième, ... et k possibilité pour le n-ième, le nombre total de possibilités est donc k * k * ... * k (n fois) c'est-à-dire kn.
Plus ce nombre est grand, plus chacune de ces suites contient
d'information. Par exemple, un texte de 4 000 caractères choisis parmi
les 110 caractères de l'alphabet français contient plus d'information
qu'un texte de deux caractères choisis parmi trois.
L'unité d'information est appelée le bit.
Pour des raisons historiques on utilise
souvent une autre unité d'information, l'octet qui vaut huit bits, ainsi
que ses multiples : le kilooctet (ko) qui vaut mille octets, soit huit
mille bits, le mégaoctet (Mo) qui vaut un million d'octets, le gigaoctet
(Go) qui vaut un milliard d'octets, le téraoctet(To) qui vaut mille
milliards d'octets, et le pétaoctet (Po) qui vaut un million de
milliards d'octets.
La quantité d'information contenue dans un caractère de l'alphabet est
de l'ordre de un octet. Celle contenue dans une page de 2 000 caractères
est d'environ 2 kilooctets, celle contenue dans un livre de six cent
pages est de l'ordre de 1 mégaoctet, celle contenue dans une petite
bibliothèque de mille volumes est de l'ordre de 1 gigaoctet. Celle
contenue dans la collection de livres imprimés de la Bibliothèque
Nationale de France, qui compte 14 millions de volumes (en laissant de
côté les images, les films, ...) est de l'ordre de 1 téraoctet
(précisément 14 téraoctets). Un téraoctet est aussi la capacité d'un
disque vendu quelques dizaines d'euros. Un pétaoctet est la taille de
cent Bibliothèques Nationale de France. Chaque année le CERN (centre
européen pour la recherche nucléaire) produit de l'ordre de quinze
pétaoctets de données.
Extrait de "1, 2, 3... codez !", Editions Le Pommier, 2016-2017. Publié sous licence CC by-nc-nd 3.0.