Science des données 2
Licence 3 MIASHS
Université de Lille
Semestre 1, 2024-2025
Objectifs de ce module
Ce module a pour objectif de compléter le cours science des données 1.
Il sera lui-même complété dans le module de science des données 3 au semestre suivant.
Outre la maîtrise d'un certain nombre de notions, l'étude de la science des données nécessite la mise en pratique via la confrontation avec des études de cas.
Aussi, une grande partie du module sera tournée vers la mise en pratique.
R et python sont deux environnements extrêmement puissants utilisés en science des données. Ils ont chacun leurs avantages et leurs inconvénients. Par cohérence avec le reste de la formation de licence MIASHS, la mise en pratique sera réalisée en python.
Une connaissance minimale de python est indispensable pour suivre ce cours. En aucun cas ce cours n'est un cours de python. En cas de besoin, lire cet ouvrage pour une présentation complète du langage.
Calendrier
Les séances se déroulent les mardis de 8h à 10h, à partir du 10 septembre 2024.
La dernière séance aura lieu le 10 décembre.
Il n'y a pas de séance le 3 décembre.
Mise en pratique
- Les tableaux de données. Éléments de correction.
- Les graphiques.
- Classification supervisée. Éléments de correction.
- Classification supervisée, suite. Éléments de correction.
- Les graphiques suite..
- De nouveaux sujets. Éléments de correction.
- Recommandation de morceaux de musique. Éléments de correction.
Quelques règles à respecter :
- Il faut travailler sous Ubuntu (ou plus généralement, Linux) : c'est le meilleur moyen d'éviter des bugs. Si vous travaillez sous Windows, vous allez rencontrer des bugs dus à Windows et je ne pourrais pas vous aider à les résoudre.
- Quand vous me rendez un TP (ou un contrôle) :
- je ne veux pas de notebook : je veux un fichier python qui, quand je l'exécute dans une console Linux en tapant une commande telle que python nom-du-fichier.py, fait ce qui est demandé dans le sujet.
- Je ne dois pas devoir modifier votre fichier. En particulier, attention si vous supposez que le fichier de données est contenu dans votre répertoire courant (ou un autre) sur votre ordinateur. Dans le programme que vous me rendez, le fichier de données est chargé via son url.
- Ce qu'affiche votre programme doit être clair et compréhensible : cet affichage doit répondre aux questions du sujet.
- Un programme python doit être commenté et correctement présenté. Il commence toujours par un commentaire indiquant le nom de la personne qui l'a écrit et le TP (ou contrôle) auquel il répond.
- On importe que les bibliothèques qui sont utilisées.
Contrôle de connaissances
Le contrôle de connaissances est continu. Il y aura 2 épreuves durant le semestre. La dernière séance du semestre est un contrôle. Le premier contrôle a lieu au milieu du semestre. Tous les documents sont autorisés lors des contrôles. Il est bien évident que c'est vous qui devez trouver les réponses aux questions posées. Toute utilisation d'un quelconque outil générant des réponses à votre place est totalement prohibé (et, croyez-moi, ils ne fonctionnent pas).
Pré-requis