Spécialité Ingénierie mathématique pour les sciences du vivant

Mots-Clefs : Data science, Apprentissage, Machine Learning, Grande dimension, Big Data, Biostatistiques.

Le Master d’Ingénierie Mathématique pour les Sciences du Vivant a pour objectif de former des étudiants en statistique et modélisation. Les applications vues en cours sont en cohérence avec les thématiques du laboratoire MAP5. Cependant les outils mathématiques et informatiques permettent des débouchés plus larges.

Le M1-IMSV est centré sur les outils de base en statistique, informatique et mathématiques appliquées avec des enseignements d’ouverture destinés à préparer la spécialisation de deuxième année.

Le M2-IMSV complète l’apprentissage des modélisations et des outils informatiques et statistiques nécessaires au traitement et à la gestion des données.

Intervenants. Les intervenants sont des enseignants-chercheurs de l’UFR de Mathématique et Informatique et de l’UFR Biomédicale, des membres du Laboratoire MAP5 (UMR Cnrs 8145). Des enseignements d’études de cas sont donnés par des intervenant du monde professionnel.

 

Conditions d’accès

Le Master d’Ingénierie Mathématique pour les Sciences du Vivant est accessible aux étudiants titulaires d’une Licence de Mathématiques (ou diplôme français ou étranger de niveau équivalent). Pour postuler directement en M2, il est nécessaire d’être titulaire d’un M1 de Mathématiques,  un bon niveau en statistique est également requis.

 

Débouchés

  • Ingénieurs d’étude en statistique et analyse des données.
  • Chargés d’études statistiques orientées vers l’épidémiologie,
    les essais cliniques, l’économie de la santé, les sciences
    sociales.
  • Biostatisticiens, statisticiens épidémiologiste, responsables
    d’études de données.

De nombreux débouchés sont offerts dans des unités Inserm, les services statistiques en milieu hospitalier, les observatoires régionaux de la santé (ORS), les unités de recherche en épidémiologie nutritionnelle (UREN) et les agences et instituts techniques tels que l’InVs (Institut de veille sanitaire), l’INCA (Institut national du cancer), l’ANRS (Agence de recherche nationale sur le SIDA), l’AFSSA (Agence française de sécurité
sanitaire des aliments), les CPAM…

La formation offre également des débouchés en direction des services statistiques des instituts de sondage ou de planification. Elle permet aussi de rejoindre des services statistiques plus généralistes comme les assurances, les  banques, les grandes entreprises ou PME de tous types qui sont confrontés au besoin d’analyse de grands jeux de données.

A la sortie du master, les étudiants savent utiliser des logiciels de statistique (R, SAS), de calcul (matlab), de bases de données (SQL).

Ils sont également préparés à leurs métiers futurs par une formation et la lecture d’articles scientifiques en anglais, ainsi que plusieurs évaluations par projets plutôt que par examens.

Programme des deux années

M1 Semestre 1 (Ingenierie mathématique)
UE Statistiques
Tests (MML1E12)

Tests (MML1E12)

cours: 15h TD: 15h

Objectifs :

Présenter les principaux tests non paramétriques basés sur les rangs et les statistiques d'ordre.

Compétences acquises :

Staistiques de rang et d'ordre ; Construction de tests ; puissance d'un test ; Comparaison avec les tests paramétriques ; Capacité à comprendre/utiliser des tests non vus en cours (vu la très grande diversité des tests existants).

Programme:

- Vocabulaire et principe des tests - Etude d'un échantillon isolé (test du signe, des rangs signés, d'adéquation à une loi)- Comparaison de plusieurs échantillons (Wilcoxon-Mann-Whitney, Kruskal-Wallis, Friedman)- Problèmes à plusieurs variables (Spearman, Kendall, Khi-deux d'indépendance)- Gain de puissance à l'aide du bootstrap

Estimation (MML1E11)

Estimation (MML1E11)

cours: 15h TD: 15h

Objectifs :

Bases des statistiques paramétriques.

Compétences acquises :

Lois classiques, estimation, intervalles de confiance, tests paramétriques.

Programme:

Chap.1 Introduction et rappels.- Lois classiques, discrètes et continues, calcul de lois- lois gaussiennes et associées (Student, Khi2, Fisher)- Convergences de suites de variables aléatoires : loi des grands nombres, Théorème Central LimiteChap.2 Méthodes d'estimation- Définitions générales : estimateur, consistance, biais, risque quadratique, limite en loi, intervalle de confiance- Méthodes de substitution : méthode des quantiles, méthode des moments.- Méthode du maximum de vraisemblance.Chap.3. Intervalles de confiance.Généralités et exemples.Chap.4. Tests paramétriques.- Définitions générales, hypothèses simples, complexes; zone de rejet, niveau, erreur de première et deuxième espèce, puissance, p-valeur.- Dualité intervalle de confiance-test- Tests pour deux échantillons gaussiens (égalité des variances, des moyennes à variances égales).

Analyse de données 1 (MLK5UAO)

Analyse de données 1 (MLK5UAO)

cours: 18h TD: 24h

Objectifs :

Ce cours comporte trois volets : un exposé théorique des méthodes utilisant les connaissances acquises en algèbre linéaire et bilinéaire ; une argumentation statistique à partir de petits exemples concrets, basée sur des résultats numériques et graphiques ; des études de cas avec mise en oeuvre des méthodes sur des données réelles en vraie grandeur, et nécessitant un traitement informatique.

Compétences acquises :

Maîtrise des méthodes de régression linéaires, d'analyse en composantes principales et de classification sur des données réelles.

Programme:

Régression simple et multivariéeClassificationAnalyse en composantes principalesAnalyse des correspondances

UE Informatiques
Programmation (MML1E21)

Programmation (MML1E21)

cours: 15h TP: 15h

Objectifs :

L'objectif de ce cours est de familiariser les étudiants avec la programmation et avec les logiciels de calcul scientifique.

Compétences acquises :

Connaître et maîtriser les structures basiques de la programmation (variables, scripts, boucles, récursivité) et les limites du calcul numérique. Etre capable de concevoir et de programmer des algorithmes simples dans un langage fonctionnel (par exemple Scilab, Matlab, Octave, R), afin de résoudre numériquement des problèmes de calcul scientifique et/ou de simuler des phénomènes concrets issus de différents domaines applicatifs (physique, biologie, etc.).

Programme:

Chaque séance donne lieu à l'implémentation d'algorithmes classiques d'analyse numérique. 1. Introduction2. Résolution de systèmes linéaires (Gram-Schmidt, décomposition LU)3. Traitement d'images (filtres et débruitage)4. Analyse de données (moindres carrés, K-means, RANSAC)5. Résolution d'équations non linéaires (dichotomie, Newton-Raphson)6. Simulations de phénomènes aléatoires

Bases de données (MLL3U3O)

Bases de données (MLL3U3O)

cours: 18h TD: 24h

Objectifs :

Ce module à pour objectif de former les étudiants à l'utilisation et à la conception Bases de Données au sein d'un système d'information

Compétences acquises :

Savoir concevoir un modèle conceptuel de données à partir d'un cahier des chargesSavoir utiliser une base de données à partir du langage SQL

Programme:

§ Objectifs des systèmes de gestion de données§ Notion de modèle de données, de langage de définition et de manipulation de données§ Conception d'un modèle conceptuel de données avec l'approche entité-association§ Modèle relationnel de données§ Algèbre relationnelle§ Dérivation d'un modèle conceptuel de données en un schéma de base de données relationnel§ Définition et manipulation des données en SQL§ Vérification des contraintes d'intégrité en SQL : clés, assertions, déclencheurs§ SQL embarqué§ Modèle relationnel de données enrichi par les dépendances fonctionnelles§ Gestion de la concurrence dans les systèmes de gestion de données : les transactions§ Définition et gestion des droits d'accès des utilisateurs en SQL

UE Ouverture
Epidémiologie (MML3E32)

Epidémiologie (MML3E32)

cours: 10h TD: 10h

Programme:

Mesures d'association entre maladie et facteur de risque. - Intervalles de confiance pour Risques Relatifs et Odds Ratio. - Significativité dans les tables de contingences. - Les sources de biais en Epidémiologie. - Prise en compte des variables de confusions. - Modèles de régression pour mesurer l'association. - Données appariées. - Introduction à la causalité.

Propagation d’épidémies 1 (DETERM1)

Propagation d’épidémies 1 (DETERM1)

cours: 15h TD: 15h

Programme:

Modèles dynamiques déterministes de propagation des épidémies. - Modèles SIS, SIR, SIRS avec et sans effets démographiques. - Etude de systèmes différentiels non linéaires. - Recherche et nature de points d'équilibre, nature de ces points, interprétation épidémiologique. -Stabilité locale, voire globale des points d'équilibre. Méthodes numériques. - Propriétés des schémas : consistance, stabilité, convergence. - Utilisation des fonctions de résolutions d'EDO de Scilab.

Anglais (MML1E51)

Anglais (MML1E51)



M1 Semestre 2 (Ingenierie mathématique)
UE Statistiques
Classification (MML1E32)

Classification (MML1E32)

cours: 15h TD: 15h

Objectifs :

Les méthodes de classification permettent de faire des partitions d'individus en groupes ayant un comportement similaire. Ce cours a pour objectif de présenter quelques unes des principales méthodes de classification et de les mettre en œuvre sur des exemples concrets.

Compétences acquises :

L'étude théorique de différentes méthodes de classification et leur utilisation pratique sous le logiciel R.

Programme:

Classification non supervisée (Classification ascendante hiérarchique, Centres mobiles).Classification supervisée (Méthode CART, k plus proches voisins, Méthodes de rééchantillonnage (Validation croisée)).

Modèles linéaires (MMK2E23)

Modèles linéaires (MMK2E23)

cours: 15h TD: 15h

Objectifs :

Les modèles linéaires gaussiens permettent de rendre compte et d'analyser les relations qui peuvent exister entre plusieurs variables. Très utilisés en statistique, ils couvrent le champ de la régression linéaire et celui de l'analyse de la variance. Ce cours a pour objectif de présenter les principaux éléments de théorie résultant de l'étude des modèles linéaires gaussiens, tout en abordant de manière concrète les situations classiques qui justifient l'utilisation de ces modèles.

Compétences acquises :

L'étudiant acquerra les bases théoriques et un savoir-faire sur les modèles linéaires gaussiens. Un accent particulier sera mis sur les modèles de regression simple ou multiple et sur les modèles ANOVA d'analyse de la variance à un ou plusieurs facteurs.

Programme:

1) Introduction aux modèles linéaires gaussiens.2) Modèles3) Estimation4) Tests5) Sélection de modèles.

Séries temporelles (MMK2E22)

Séries temporelles (MMK2E22)

cours: 15h TD: 15h

Programme:

Processus du second ordre : vecteurs et processus gaussiens. - Processus
stationnaire : fonction d'autocovariance, opérateur backward, filtrage linéaire, processus AR, MA,
ARMA, prédiction linéaire, équations de Yule-Walker. - Représentation spectrale : séries de Fourier, densité spectrale, théorème d'Herglotz, filtrage et densité spectrale, existence de solutions pour les
processus ARMA. - Estimation : estimation de la moyenne et de l'autocovariance

UE Data science
Big Data (BigData)

Big Data (BigData)

cours: 15h TD: 15h



Analyse de données 2 (MML2E14)

Analyse de données 2 (MML2E14)

cours: 15h TD: 15h

Objectifs :

maitrise des outils de base de l'analyse de données

Programme:

Rappels sur l'analyse en composantes principales, analyse discriminante.

UE Ouverture
Statistiques pour la génétique et la génomique (MML3E15)

Statistiques pour la génétique et la génomique (MML3E15)

cours: 10h TD: 10h

Objectifs :

L'objectif de ce cours est de connaître les bases de la statistique génétique, qui cherche à établir des liens entre les génotypes et les phénotypes des individus, et notamment à déceler des marqueurs génétiques pour certaines maladies.

Compétences acquises :

Bases de la génétique, notion de distance génomique, locus, allèle, recombinaison ; Tests du caractère génétique d'une maladie ; Analyse de liaison ; Analyse d'association ; Utilisation de R pour des cas pratiques

Programme:

cf Compétences acquises.

Propagation d’épidémies 2 (DETERM2)

Propagation d’épidémies 2 (DETERM2)

cours: 15h TD: 15h

Programme:

Modèles dynamiques déterministes de propagation des épidémies. - Modèles SIS, SIR, SIRS avec et sans effets démographiques. - Etude de systèmes différentiels non linéaires. - Recherche et nature de points d'équilibre, nature de ces points, interprétation épidémiologique. -Stabilité locale, voire globale des points d'équilibre. Méthodes numériques. - Propriétés des schémas : consistance, stabilité, convergence. - Utilisation des fonctions de résolutions d'EDO de Scilab

UE Projet
Etude de cas (MML2E21)

Etude de cas (MML2E21)

cours: 10h TD: 10h

Objectifs :

L'objectif de ce cours est de faire venir des professionnels de l'INSERM, L'INVS, l'INRA, ... afin de leur permettre d'exposer une études qu'ils ont eu à mener, en partant du problème concret de départ, en passant par la modélisation et le traitement, pour arriver aux résultats pratiques après traitements des données.

Compétences acquises :

pprendre à appréhender un problème concret sous sa forme brute, puis à le modéliser, le simplifier, afin de le traiter.

Programme:

*Chaque intervenant utilise entre deux et quatre séances de cours TD pour présenter les problèmes qu'il a rencontré et les étudier. Les intervenants et les domaines sont variables d'une année sur l'autre. Les étudiants peuvent ainsi mieux appréhender ce à quoi ils seront confrontés lors de leur stage de dernier semestre (semstre S4 du master IMSV).*

Atelier Cap Emploi (MML3E51)

Atelier Cap Emploi (MML3E51)

cours: 15h



M2 Semestre 3 (Ingenierie mathématique)
UE Statistiques et apprentissage
Apprentissage en grande dimension (AppGDim)

Apprentissage en grande dimension (AppGDim)

cours: 15h TD: 15h



Algorithmes stochastiques (MML3E23)

Algorithmes stochastiques (MML3E23)

cours: 15h TD: 15h



Statistique non paramétrique (MML3E11)

Statistique non paramétrique (MML3E11)

cours: 15h TD: 15h

Objectifs :

L'objectif de ce cours est de présenter aux étudiants différentes méthodes d'estimation fonctionnelle. Ces méthodes peuvent être utilisées de façon autonomes ou bien afin de permettre de choisir un modèle paramétrique plus simple et plus facile à présenter à des professionnels ou des médecins.

Programme:

Estimation d'une densité par méthode de projection (bases fonctionnelles orthonormées, construction de l'estimateur, étude du biais, de la variance, compromis par sélection de modèle, programmation) - Estimation d'une densité par méthode de noyau (noyau d'ordre quelconque, construction et étude de l'estimateur, compromis biais-variance par sélection de fenêtre, programmation). - Estimation d'une fonction de régression avec les deux méthodes : noyau et projection, étude et comparaison. - Applications en modèles de survie: estimation non paramétrique d'une densité, d'un fonction de risque instantané (hazard rate) dans le cas de modèle avec censure droite, d'une fonction de répartition en présence de censure par intervalle.

UE Data Science
SAS (MML3E52)

SAS (MML3E52)



Recueil de données sur le web (Recueil)

Recueil de données sur le web (Recueil)

cours: 15h TD: 15h



UE Ouverture, 2 ECUE à choisir parmi
Survie (MML3E12)

Survie (MML3E12)

cours: 10h TD: 10h

Objectifs :

Les objectifs de ce cours sont d'analyser des données issues d’une étude de survie, de savoir interpréter les résultats et de savoir discuter les hypothèses des différents modèles. Dans un premier temps, la modélisation des durées de survie via des approches non paramétriques sera étudiée. Dans un second temps, l'ajustement sur des covariables sera considéré via le modèle de régression semi-paramétrique de Cox. Les hypothèses de validité de ce modèle seront également discutées.

Compétences acquises :

L'étudiant sera capable de formuler un modèle susceptible de convenir à ses données, de comparer les survies observées sur plusieurs groupes et de mettre en place le modèle de Cox. Un accent particulier est mis sur l'’interprétation des résultats et la mise en pratique via le logiciel R de tels modèles.

Programme:

- Généralités, Fonctions de survie, Relation entre les diverses fonctions de survie, Censure à droite- Estimation nonparamétrique des quantités de base (l'estimateur de Kaplan-Meier de la fonction de survie, l'estimateur de Nelson-Aalen de la fonction de hasard cumulée,...)- Tests d'hypothèse concernant l'égalité de deux ou plusieurs courbes de survie- Modèles à hasards proportionnels  - Modèle de Cox, Vraisemblance conditionnelle de Cox,- Estimations et tests dans le modèle de Cox - Analyse des résidus et extensions possibles du modèle de Cox

Propagation d’épidémies 3 (DETERM3)

Propagation d’épidémies 3 (DETERM3)

cours: 15h TD: 15h

Programme:

Modèles dynamiques déterministes de propagation des épidémies. - Modèles SIS, SIR, SIRS avec et sans effets démographiques. - Etude de systèmes différentiels non linéaires. - Recherche et nature de points d'équilibre, nature de ces points, interprétation épidémiologique. - Stabilité locale, voire globale des points d'équilibre.

Economie, théorie des jeux (MMIMEco1)

Economie, théorie des jeux (MMIMEco1)



Economie, incitations (MMIMEco2)

Economie, incitations (MMIMEco2)



Projet tutoré IMSV (MML3U4)

Projet tutoré IMSV (MML3U4)

Objectifs :

Savoir lire un article (qui peut être en Anglais), et apprendre à en faire la synthèse écrite et à l'exposer en un temps assez court (10 mn). La compréhension repose sur une implémentation informatique.

Compétences acquises :

Savoir lire un article (qui peut être en Anglais), et apprendre à en faire la synthèse écrite et à l'exposer en un temps assez court (10 mn). La compréhension repose sur une implémentation informatique.

M2 Semestre 4 (Ingenierie mathématique)
Stage M2 ISMV (MML4U1)

Stage M2 ISMV (MML4U1)




Candidatures

Vous trouverez sur la page des candidatures toutes les informations utiles.