Projet "Prévoir les survivants du Titanic"

Vous allez travailler sur le jeu de données suivant (à télécharger): titanic.csv

Ce jeu de données contient des informations sur une partie des passagers (plus exactement sur 891 passagers) du Titanic. Pour un petit rappel historique, vous pouvez consulter la page Wikipédia consacrée à ce paquebot : ici

À faire vous-même 1

Ouvrez le fichier "titanic.csv" à l'aide d'un tableur.

Vous devriez obtenir quelque chose qui ressemble à ceci :

Trouvez, en faisant des recherches sur le web, la signification des différents descripteurs : "PassengerId", "Survived", "Pclass"... (ce jeu de données est un grand classique en "machine learning", vous ne devriez donc pas avoir trop de mal à trouver ces informations)


L'idée de ce projet est d'utiliser l'algorithme des k plus proches voisins afin de déterminer si un passager X (non présent dans le fichier titanic.csv) ayant certaines caractéristiques ("PassengerId", "Pclass", "Name", "Sex"...) aurait survécu au naufrage du Titanic.

Pour parvenir à ce résultat, un travail de préparation des données va être nécessaire (tout "data scientist" un peu sérieux vous dira que ce travail de préparation des données est absolument fondamental), vous allez donc devoir passer par pas mal d'étapes que voici :

Ce projet n'est pas simple à réaliser, mais il va vous permettre de mieux comprendre le travail d'un "data scientist" (un des métiers les plus demandés sur le marché du travail actuellement). N'hésitez pas à demander de l'aide et surtout, bon courage !


Auteur : David Roche