Exploration de données vs Data Warehousing
L'exploration de données et l'entreposage de données sont des techniques très puissantes et populaires d'analyse de données. Les utilisateurs qui sont enclins aux statistiques utilisent le Data Mining. Ils utilisent des modèles statistiques pour rechercher des modèles cachés dans les données. Les mineurs de données sont intéressés à trouver des relations utiles entre différents éléments de données, ce qui est finalement rentable pour les entreprises. Mais d'un autre côté, les experts en données capables d'analyser directement les dimensions de l'entreprise ont tendance à utiliser des entrepôts de données.
L'exploration de données est également connue sous le nom de découverte de connaissances dans les données (KDD). Comme mentionné ci-dessus, il s'agit d'un domaine de l'informatique, qui traite de l'extraction d'informations auparavant inconnues et intéressantes à partir de données brutes. En raison de la croissance exponentielle des données, en particulier dans des domaines tels que les affaires, l'exploration de données est devenue un outil très important pour convertir cette grande richesse de données en intelligence économique, car l'extraction manuelle de modèles est devenue apparemment impossible au cours des dernières décennies. Par exemple, il est actuellement utilisé pour diverses applications telles que l'analyse des réseaux sociaux, la détection des fraudes et le marketing. L'exploration de données traite généralement des quatre tâches suivantes: regroupement, classification, régression et association. Le clustering consiste à identifier des groupes similaires à partir de données non structurées. La classification consiste à apprendre des règles qui peuvent être appliquées à de nouvelles données et comprendront généralement les étapes suivantes: prétraitement des données, conception de la modélisation, apprentissage/sélection des fonctionnalités et évaluation/validation. La régression consiste à trouver des fonctions avec une erreur minimale pour modéliser les données. Et l'association est à la recherche de relations entre les variables. L'exploration de données est généralement utilisée pour répondre à des questions telles que quels sont les principaux produits qui pourraient aider à obtenir des bénéfices élevés l'année prochaine chez Wal-Mart ?
Comme mentionné ci-dessus, l'entreposage de données est également utilisé pour analyser les données, mais par différents groupes d'utilisateurs et avec un objectif légèrement différent. Par exemple, en ce qui concerne le secteur de la vente au détail, les utilisateurs de l'entrepôt de données sont plus préoccupés par les types d'achats populaires parmi les clients, de sorte que les résultats de l'analyse peuvent aider le client en améliorant l'expérience client. Mais les mineurs de données conjecturent d'abord une hypothèse telle que les clients qui achètent un certain type de produit et analysent les données pour tester l'hypothèse. L'entreposage de données pourrait être effectué par un grand détaillant qui stocke initialement ses magasins avec les mêmes tailles de produits pour découvrir plus tard que les magasins de New York vendent des stocks de plus petite taille beaucoup plus rapidement que dans les magasins de Chicago. Ainsi, en examinant ce résultat, le détaillant peut approvisionner le magasin de New York avec des tailles plus petites par rapport aux magasins de Chicago.
Donc, comme vous pouvez le voir clairement, ces deux types d'analyses semblent être de même nature à l'œil nu. Les deux concernent l'augmentation des bénéfices sur la base des données historiques. Mais bien sûr, il existe des différences essentielles. En termes simples, l'exploration de données et l'entreposage de données sont dédiés à la fourniture de différents types d'analyses, mais certainement pour différents types d'utilisateurs. En d'autres termes, le Data Mining recherche des corrélations, des schémas pour étayer une hypothèse statistique. Mais, l'entreposage de données répond à une question relativement plus large et il découpe et découpe les données à partir de là pour identifier les moyens d'amélioration à l'avenir.