<< Deux types de classification peuvent être relevés : d'une part la classification (partitionnement ou recouvrement) « à plat » et d'autre part le partitionnement hiérarchique. Le domaine du sport est très friand de statistiques : un médecin du sport s'interroge sur l'âge des pratiquants, leurs motivations et le sport qu'ils pratiquent[i 22]. 2 La mesure de la qualité de la discrimination est effectuée à l'aide du /Length 15 Principes de mise en oeuvre et interprétation Application au dépouillement d'enquêtes L'Analyse factorielle des données mixtes Equilibre entre variables de natures différentes Principe de mise en oeuvre et interprétation Les méthodes de classification automatique Méthodes non hiérarchiques : centres mobiles, nuées dynamiques n La formation Panorama des méthodes d’analyse des données : synthétiser, modéliser, décider dans nos Centres ou en distanciel Tarif : 2 000 € HT -10% dès 2 inscrits, -20% à partir de 3 endstream L’observation directe Ces différentes méthodes peuvent être combinées et permettre des recoupements, on parle alors de triangulation. On peut vouloir analyser plusieurs thèmes simultanément. 15 L’enquête correspond à une méthode de collecte de données consistant à interroger des individus qui appartiennent à une population choisie ou à un échantillon représentatif de cette population-mère. Dans l'exemple de la fig.01 les deux composantes principales représentent l'activité majeure et l'activité secondaire la plus fréquente dans lesquelles les Femmes (F) et les Hommes (H) mariés (M) ou célibataires (C) aux Usa (U) ou en Europe de l'Ouest (W) partagent leur journée. Les questionnaires 3. /Subtype /Form L'analyse inter-batterie de Tucker est intermédiaire entre l'analyse canonique et l'analyse en composantes principales[b 5], l'analyse des redondances appelée aussi analyse en composantes principales sur variables instrumentales se rapproche de la régression puisque les variables d'un des groupes analysés sont considérées comme dépendantes, les autres comme indépendantes, et que la fonction à maximiser est une somme de coefficients de corrélation entre les deux groupes[b 6]. L'analyse factorielle anglo-saxonne, ou « Factor Analysis », est proche de l'analyse en composantes principales, sans être équivalente, car elle utilise les techniques de régression[note 1],[i 2],[i 3] pour découvrir les « variables latentes »[note 2]. /Type /XObject L'outil statistique utilisé est la matrice des corrélations ou la matrice de variance-covariance. X /BBox [0 0 8 8] tel-01750506v2 Pour un ensemble de magasins, on dispose du chiffre d’affaires par produit à différentes dates. Si la couleur dominante était vert clair aucune corrélation n'aurait été détectée. /Filter /FlateDecode La première question est celle du but. endobj Dans l'exemple ci-contre, les villes seraient les individus de l'ACP et le positionnement GPS remplacerait les distances inter-villes. Les méthodes de collecte et d’analyse de données doivent être choisies en fonction de l’évaluation concernée, de ses questions clés d’évaluation et des ressources disponibles. {\displaystyle \Lambda } L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Le succès de cette discipline dans les dernières années est dû, dans une large mesure, aux représentations graphiques fournies. Dans une autre étude le sport s'intéresse aux motivations des sportifs lesquelles vont de l’amitié et la camaraderie à l'affirmation de soi représentées sur un axe, et de la nature et la beauté à la combativité sur un second axe[b 22]. Il peut identifier les individus proches du centre de gravité, établir la séparation entre deux classes - opération consistant à mesurer la distance minimum entre deux membres de ces classes[i 49]. De même, plus l'angle engendré par l'individu et l'axe de la composante est petit et mieux l'individu est représenté. Dans cet espace le nuage de points est plus facilement représentable et l'analyse est plus aisée[b 24]. /Length 1347 La collecte de données (ou l’arrangement, le tri… des données) est la première étape sur laquelle se pencher. Si deux individus, bien représentés par un axe, sont proches, ils sont proches dans leur espace. La démarche est aussi directe et concrète que possible. Quand Alfred Binet définit ses tests psychométriques pour mesurer l'intelligence chez l'enfant, Charles Spearman s'en accapare pour définir, en 1904, sa théorie des facteurs général et spécifique qui mesurent l'aptitude générale et l'aptitude particulière à une activité, nécessaires pour mener à bien cette activité[i 9]. {\displaystyle P_{2}} Les évaluations d’impact doivent utiliser autant que possible les données existantes, puis s’appuyer sur de nouvelles données pour combler les lacunes. Les sociologues Christian Baudelot et Michel Gollac utilisent une analyse des correspondances multiples pour étudier le rapport des Français à leur travail[i 13]. ( Le positionnement multidimensionnel (« multidimensional scaling » ou MDS) est donc une méthode factorielle applicable sur des matrices de distances entre individus[i 37]. X �ŀZ���I��S�^U�. stream Demande d'ouverture d'une nouvelle session Notre formation Panorama des méthodes d’analyse des données : synthétiser, modéliser, décider vous intéresse mais vous n'êtes pas disponible aux dates proposées ? Catégories d’analyse Les données qualitatives étant retranscrites, avant de les coder, une grille d’analyse est construite. << {\displaystyle \theta } /FormType 1 Le sociologue cherche à savoir si la sociabilité des adeptes d'un sport est influencée par sa pratique[i 23], la biométrie humaine caractérise la morphologie du sportif selon le sport qu'il pratique, et dans le cas de sports collectifs le poste qu'il occupe dans l'équipe[i 24], etc. Il faut bien évidement choisir la bonne méthode de recherche en fonction de vos questions et de ce que vous voulez démontrer. /Matrix [1 0 0 1 0 0] L’analyse des données permet de traiter un nombre très important de données et de dégager les aspects les plus intéressants de la structure de celles-ci. Plus formellement, si Ces graphiques peuvent mettre en évidence des relations difficilement saisies par l’analyse directe des données ; mais surtout, ces représentations ne sont pas liées à une opinion « a priori » sur les lois des phénomènes analysés contrairement aux méthodes de la statistique classique. p 1 L'analyse des données est un ensemble de techniques descriptives, dont l'outil mathématique majeur est l'algèbre matricielle, et qui s'exprime sans supposer a priori un modèle probabiliste[b 1],[i 1]. L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données … Cet ouvrage rassemble de manière cohérente et progressive un ensemble d'outils efficaces, encourage leur utilisation et surtout, leur perfectionnement. Les entretiens 2. Les méthodes d'analyse présentées dans ce document tentent de résoudre ce problème ; elle permettent de représenter graphiquement, dans un espace en 2 ou 3 dimensions les résultats obtenus et ce, soit à partir de critères objectifs (données personnelles d'un individu, etc. SPSS, Statistica, HyperCube[2] et SAS fournissent des modules complets d'analyse des données ; le logiciel R aussi avec des bibliothèques comme FactoMineR, Ade4 ou MASS ; Braincube[3], solution d'analyse de données massives pour l'industrie. L'ACM se propose d'analyser p (p ≥ 2) variables qualitatives d'observations sur n individus. Voici les différentes méthodes que vous pouvez utiliser avec des exemples. Sur la fig.02 est illustré le cercle des corrélations où les variables sont représentées en fonction de leur projection sur le plan des deux premières composantes. Dans l'exemple donné sur les deux images ci-contre, la première composante participe à hauteur de 45,89 % à l'inerte totale, la seconde à 21,2 %. R L'interprétation se fait au niveau des modalités dont les proximités sont examinées. Carla Henry, Manohar Sharma, Cecile Lapenu et Manfred Zeller, Topics in Statistical Data Analysis: Revealing Facts From Data. En mathématiques, elles exploitent le calcul matriciel et l'analyse des vecteurs et des valeurs propres. {\displaystyle (\xi _{1i},\eta _{2i})} Cette méthode ne fait pas partie de ce qu'on nomme habituellement l'analyse des données « à la française ». Les méthodes d'analyse présentées dans ce document tentent de résoudre ce problème ; elle permettent de représenter graphiquement, dans un espace en 2 ou 3 dimensions les résultats obtenus et ce, soit à partir de critères objectifs (données personnelles d'un individu, etc. Les linguistes utilisent l'analyse de texte et les techniques d'analyse des données pour situer un député sur l'échiquier politique en examinant la fréquence d'usage de certains mots[b 14]. 2 Ce livre accompagne le cours d’analyse de données que j’enseigne au Département de mathématiques et de statistique de l’Université Laval à l’automne 2018. Sur la fig.07, les deux groupes de variables sont rassemblés dans le cercle des corrélations rapportés aux deux premières variables canoniques. Robert R. Sokal et Peter H.A. Ces procédés permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille, à l'aide de l'estimation des corrélations entre les variables que l’on étudie. En ACP, les variables sont quantitatives. Jean-Paul Benzécri donne aussi des exemples de l'usage de l'analyse des correspondances dans le cadre de l'apprentissage[b 19], de l'hydrologie[b 20], de la biochimie[b 21]. Les ES sont comparés par rapport : à la moyenne pondérée (de tous les ES),; à l’o jetif national de performane, via des lasses A, B et C. L'analyse canonique généralise des méthodes aussi diverses que la régression linéaire, l'analyse discriminante et l'analyse factorielle des correspondances[b 37]. endobj Méthodes d'analyse des données, interprétation des résultats Le choix de la méthode d'analyse dépend du dessin de l'étude (cas-témoin, cohorte, essai) et de la nature de la variable à expliquer (taux, qualitative, quantitative). L'analyse canonique et l'analyse canonique généralisée, qui sont plus des cadres théoriques que des méthodes aisément applicables[b 2],[b 3], étendent plusieurs de ces méthodes et vont au-delà des techniques de description[b 4]. stream Synthèse des méthodes de reueil de données et d’analyse des résultats I 6 Méthodes de présentation des résultats Deux présentations sont proposées. expliquée par chaque axe (mesure de la qualité globale), par l'inertie d'un point projetée sur un axe divisé par l'inertie totale du point (mesure de la qualité pour chaque modalité), la contribution d'un axe à l'inertie totale ou le rapport entre l'inertie d'un nuage (profils_lignes ou profils_colonnes) projeté sur un axe par l'inertie totale du même nuage[b 31]. L'analyse factorielle discriminante (AFD), qui est la partie descriptive de l'analyse discriminante, est aussi connue sous le nom d'analyse linéaire discriminante, d'analyse discriminante de Fisher et d'analyse canonique discriminante[b 44]. q respectivement sur les sous espace de Le cosinus de l'angle formé par deux variables est égal au coefficient de corrélation entre ces deux variables[b 26]. , La classification des individus est le domaine de la classification automatique et de l'analyse discriminante. {\displaystyle \Lambda } L'Analyse Factorielle Multiple est adaptée aux tableaux dans lesquels les variables sont structurées en groupes et peuvent être quantitative et/ou qualitatives. Λ {\displaystyle X_{2}} Cette technique est développée au Japon en 1952 par Shizuhiko Nishisato sous la dénomination « Dual Scaling »[i 7],[i 11] et aux Pays-Bas en 1990 sous le nom de « Homogeneity analysis »[i 12] par le collectif Albert Gifi[i 7]. /Type /XObject R. Ramousse, M. Le Berre et L. Le Guelte, CCA: An R Package to Extend Canonical Correlation Analysis. de Wilks qui est égal au rapport du déterminant de la matrice de variances-covariances intra-classe sur le déterminant de la matrice de variances-covariances totale. {\displaystyle \cos ^{2}(\xi _{1},\eta _{2})} La pratique montre que l'algorithme PLS converge vers les premières valeurs propres dans le cas de l'analyse inter batteries de Tucker[b 50], l'analyse canonique à deux blocs de variables et l'analyse des redondances[i 53]. ( 1.3.1. Si le tableau initial possède p lignes et q colonnes, et si, Pour plus d'informations sur l'exemple ci-contre voir l'analyse de FG Carpentier de l'université de Brest, Pour appréhender l'apport spécifique de l'ACM, voir, L'inertie totale du nuage de points est égale à. Deux livres comportent une description détaillée de l’AFM : Voir ce document aussi pour une comparaison entre ACP et ACI. L'Analyse Factorielle Multiple Hiérarchique (. Il peut analyser aussi les variables, en calculant par exemple la fréquence de certaines valeurs de variables prises par les individus de chaque classe, ou en caractérisant les classes par certaines valeurs de variables prises par les individus de chaque classe[i 49]. Puis nous exposerons les méthodologies d’interprétation et leurs procédures (2). L’analyse de données secondaires 4. /BBox [0 0 362.835 3.985] Le principe de l'AFC est identique à celui de l'ACP. Français. Les entretiens 2. R endobj ),���|�@Ø��Y���&�,^����3hyp*�Ĕ����G��ЦLQ\ �� ��R;+ϭ��J�י�}�磿�L��'Wf!��b�*#-� �Y\��c@�����L������s2��2C�̨��mΠ��UNFB���A���-����Bk_*���Ń��*���$��u�4��wؿ����B�‹g�`��:�I����&�Yo�D��V����V�Pr��:Y La ressemblance (similarité/dissimilarité) des individus est mesurée par un indice de similarité, un indice de dissimilarité ou une distance[i 45]. Lobservation directe et Par exemple sur le graphique de la fig.03, Paris et les Yvelines ont voté d'une manière similaire, ce qui n'est pas évident quand on regarde le tableau de contingence initial puisque le nombre de votants est assez différent dans les deux départements. Si deux individus sont éloignés en projection, ils sont éloignés dans leur espace[i 29]. cos Pour une catégorie de produits alimentaires, on dispose, sur différents aspects des produits, de notes données par des experts et de notes données par des consommateurs. 1 Toujours dans les travaux qui s'inspirent de Pierre Bourdieu, on peut aussi prendre comme exemple l'analyse du champ du cinéma français par Julien Duval[i 16]. , combinaisons linéaires des variables de Dans le domaine des sciences et techniques, certains chercheurs adoptent ces méthodes statistiques pour déchiffrer plusieurs caractéristiques du génome[b 17]. et La régression sur composantes principales (PCR) utilise l'ACP pour réduire le nombre de variables explicatives en les remplaçant par les composantes principales qui ont l'avantage de ne pas être corrélées. /FormType 1 Pour utiliser cette technique les tableaux ne doivent pas être des variables caractéristiques d'individus mais des « distances » entre les individus. /Subtype /Form Deux points-lignes sont proches dans la représentation graphique, si les profils-colonnes sont similaires. Formation : Découvrir les principales méthodes décisionnelles d'analyse des données (arbres de décision, règles d'association, régression multiple, analyse discriminante, ...), choisir celle appropriée au problème et aux données. En 1933, Harold Hotelling propose l'utilisation de l'itération pour la diagonalisation des matrices et la recherche des vecteurs propres[i 9]. {\displaystyle n\times n} Les données en entrée d'une classification ascendante hiérarchique (CAH) sont présentées sous la forme d'un tableau de dissimilarités ou un tableau de distances entre individus. P PLS et PCR sont souvent comparées l'une à l'autre dans la littérature. Méthodes d'analyse de données et modèles bayésiens appliqués au contexte des inégalités socio-territoriales de santé et des expositions environnementales. 1 434-440). /Filter /FlateDecode /Subtype /Form C'est aussi une analyse canonique entre le groupe des variables quantitatives et celui constitué du tableau disjonctif de la variable qualitative[b 47]. Il a rédigé plusieurs livres sur R et les méthodes d’analyse de données (livres traduits en anglais et espagnol). Méthodes de collecte de données, tableaux récapitulatifs Méthode Description Public cible Objectifs Avantages Désavantages Enquête par questionnaire Outil d’observation organisé en une liste de questions, ouvertes et/ou fermées, conçues pour récolter une /Length 15 2 Les différentes méthodes d'analyse de données qualitatives 2.1 Les méthodes non spécialisées. /BBox [0 0 16 16] {\displaystyle X_{2}} respectivement, le plus corrélées possibles. Les résultats obte… /Filter /FlateDecode En analyse des correspondances, la représentation des individus et des variables ne se fait pas dans le même espace. θ Par exemple sur les données Iris, il est de 0.0234 sur les deux premiers facteurs. La plus utilisée est la méthode de Ward qui consiste à agréger les deux classes qui font baisser le moins l'inertie interclasse[b 42]. << La variable qualitative permet de définir les q classes et le regroupement des individus dans ces classes. D'autres se servent de l'analyse des données pour mettre en place un processus nécessaire à la reconnaissance des visages[i 19]. L'analyse des correspondances multiples est initiée par Louis Guttman en 1941, Cyril Burt en 1950 et à Chikio Hayashi en 1956[i 7]. θ χ {\displaystyle R^{2}} {\displaystyle \scriptstyle \mathbb {R} ^{q}} Des stratégies mixtes, alliant une classification « à plat » à une classification hiérarchique, offrent quelques avantages. θ L'Analyse des Correspondances Multiples (ACM) est une extension de l'AFC[b 33],[note 6]. >> P Le tableau de données décrit n individus sur lesquels p variables quantitatives et une variable qualitative à q modalités ont été mesurées. En ce qui concerne l’analyse factorielle, il faut remonter aux travaux de Ch.