Eclairage scientifique – Représentation de l’information

1, 2, 3, codez ! - Eclairage scientifique - Représentation de l'information

L'idée de représenter un objet, concret ou abstrait, par un autre est très ancienne, puisque toutes les langues reposent sur une telle représentation des objets par des sons. [Le projet « 1, 2, 3… codez ! » propose plusieurs activités au cycle 3 pour travailler la représentation de l’information (texte et image), notamment en séquence III-3.]
Comme les objets sont trop nombreux pour être chacun représenté par un son différent, ils sont représentés, non par un son unique, mais pas une suite de sons, choisis dans un ensemble de petite taille. Par exemple, le français classique utilise trente-six sons, ou phonèmes, pour former tous les mots. Dans une langue, un message est donc une suite finie d'unités choisies dans un ensemble fini. Cette idée n'est cependant pas complètement aboutie dans les langues orales où le volume, le débit, l'intonation, ... du message contribuent à sa signification, tout autant que la suite des unités dont il est constitué.

Combien d’information contient un texte ?

L'écriture, et surtout son utilisation pour exprimer les langues, élimine ces éléments accessoires, mais elle constitue, au moins dans un premier temps, une régression, puisque les premières écritures des langues associaient un symbole différent à chaque objet. Ce n'est qu'avec l'alphabet que se retrouve l'idée d'associer à chaque objet non une unité, mais une suite d'unités prises dans un ensemble de petite taille : l'alphabet. L'alphabet du français, par exemple, contient 110 caractères environ : 42 minuscules (les 26 lettres fondamentales, 13 voyelles accentuées, le c cédille et 2 ligatures), autant de majuscules, 10 chiffres, et une vingtaine de signes de ponctuation.
Le nombre de suites de n caractères que l'on peut former en les choisissant dans un alphabet de k éléments est kⁿ : en effet, il y a k possibilités pour le premier caractère, k possibilités pour le deuxième, ... et k possibilité pour le n-ième, le nombre total de possibilités est donc k * k * ... * k (n fois) c'est-à-dire kⁿ.
Plus ce nombre est grand, plus chacune de ces suites contient d'information. Par exemple, un texte de 4 000 caractères choisis parmi les 110 caractères de l'alphabet français contient plus d'information qu'un texte de deux caractères choisis parmi trois.
L'unité d'information est appelée le bit.

Pour des raisons historiques on utilise souvent une autre unité d'information, l'octet qui vaut huit bits, ainsi que ses multiples : le kilooctet (ko) qui vaut mille octets, soit huit mille bits, le mégaoctet (Mo) qui vaut un million d'octets, le gigaoctet (Go) qui vaut un milliard d'octets, le téraoctet(To) qui vaut mille milliards d'octets, et le pétaoctet (Po) qui vaut un million de milliards d'octets.
La quantité d'information contenue dans un caractère de l'alphabet est de l'ordre de un octet. Celle contenue dans une page de 2 000 caractères est d'environ 2 kilooctets, celle contenue dans un livre de six cent pages est de l'ordre de 1 mégaoctet, celle contenue dans une petite bibliothèque de mille volumes est de l'ordre de 1 gigaoctet. Celle contenue dans la collection de livres imprimés de la Bibliothèque Nationale de France, qui compte 14 millions de volumes (en laissant de côté les images, les films, ...) est de l'ordre de 1 téraoctet (précisément 14 téraoctets). Un téraoctet est aussi la capacité d'un disque vendu quelques dizaines d'euros. Un pétaoctet est la taille de cent Bibliothèques Nationale de France. Chaque année le CERN (centre européen pour la recherche nucléaire) produit de l'ordre de quinze pétaoctets de données.

Extrait de "1, 2, 3... codez !", Editions Le Pommier, 2016-2017. Publié sous licence CC by-nc-nd 3.0.