1) Les données en table
Le stockage de l'information est un enjeu majeur pour nos sociétés. Les données peuvent être stockées sous forme de tableau, on parle alors de données tabulaires ou plus simplement de données en table.
Voici un exemple de données stockées sous forme de tableau :
nom | prénom | date_naissance |
---|---|---|
Durand | Jean-Pierre | 23/05/1985 |
Dupont | Christophe | 15/12/1967 |
Terta | Henry | 12/06/1978 |
2) le format CSV
Le format CSV permet de stocker des données sous forme de tableau, d'après Wikipédia :
Un fichier CSV est un fichier texte, par opposition aux formats dits « binaires ». Chaque ligne du texte correspond à une ligne du tableau et les virgules correspondent aux séparations entre les colonnes. Les portions de texte séparées par une virgule correspondent ainsi aux contenus des cellules du tableau.
Voici le tableau ci-dessus au format CSV :
nom,prenom,date_naissance
Durand,Jean-Pierre,23/05/1985
Dupont,Christophe,15/12/1967
Terta,Henry,12/06/1978
nom, prenom et date_naissance sont appelés des descripteurs alors que, par exemple, "Durand", "Dupont" et "Terta" sont les valeurs du descripteur nom.
La virgule est un standard pour les données anglo-saxonnes, mais pas pour les données aux normes françaises. En effet, en français, la virgule est le séparateur des chiffres décimaux. Il serait impossible de différencier les virgules des décimaux et les virgules de séparation des informations. C’est pourquoi on utilise un autre séparateur : le point-virgule (;). Dans certains cas cela peut engendrer quelques problèmes, vous devrez donc rester vigilants sur le type de séparateur utilisé.
Les tableurs, tels que "Calc" (Libre Office), sont normalement capables de lire les fichiers au format CSV. J'ai précisé "normalement" car certains tableurs gèrent mal le séparateur CSV "point-virgule" et le séparateur des chiffres décimaux "virgule".
3) traitement des données
Pour traiter des données, nous allons utiliser la bibliothèque Python Pandas. On rappelle qu'une bibliothèque permet de rajouter des fonctionnalités par rapport au langage de base. La bibliothèque Pandas est donc très utilisée pour tout ce qui touche au traitement des données. Nous allons nous intéresser à cette bibliothèque dans la partie activité de ce chapitre.