Exploration de données contre OLAP
L'exploration de données et OLAP sont deux des technologies courantes de Business Intelligence (BI). L'informatique décisionnelle fait référence aux méthodes informatiques permettant d'identifier et d'extraire des informations utiles à partir de données commerciales. L'exploration de données est le domaine de l'informatique qui consiste à extraire des modèles intéressants à partir de grands ensembles de données. Il combine de nombreuses méthodes issues de l'intelligence artificielle, des statistiques et de la gestion de bases de données. OLAP (traitement analytique en ligne) comme son nom l'indique est une compilation de façons d'interroger des bases de données multidimensionnelles.
L'exploration de données est également connue sous le nom de découverte de connaissances dans les données (KDD). Comme mentionné ci-dessus, il s'agit d'un domaine de l'informatique, qui traite de l'extraction d'informations auparavant inconnues et intéressantes à partir de données brutes. En raison de la croissance exponentielle des données, en particulier dans des domaines tels que les affaires, l'exploration de données est devenue un outil très important pour convertir cette grande richesse de données en intelligence économique, car l'extraction manuelle de modèles est devenue apparemment impossible au cours des dernières décennies. Par exemple, il est actuellement utilisé pour diverses applications telles que l'analyse des réseaux sociaux, la détection des fraudes et le marketing. L'exploration de données traite généralement des quatre tâches suivantes: regroupement, classification, régression et association. Le clustering consiste à identifier des groupes similaires à partir de données non structurées. La classification consiste à apprendre des règles qui peuvent être appliquées à de nouvelles données et comprendront généralement les étapes suivantes: prétraitement des données, conception de la modélisation, apprentissage/sélection des fonctionnalités et évaluation/validation. La régression consiste à trouver des fonctions avec une erreur minimale pour modéliser les données. Et l'association est à la recherche de relations entre les variables. L'exploration de données est généralement utilisée pour répondre à des questions telles que quels sont les principaux produits qui pourraient aider à obtenir des bénéfices élevés l'année prochaine chez Wal-Mart.
OLAP est une classe de systèmes qui fournissent des réponses à des requêtes multidimensionnelles. Généralement, OLAP est utilisé pour le marketing, la budgétisation, les prévisions et des applications similaires. Il va sans dire que les bases de données utilisées pour OLAP sont configurées pour des requêtes complexes et ad hoc avec une performance rapide à l'esprit. Généralement, une matrice est utilisée pour afficher la sortie d'un OLAP. Les lignes et les colonnes sont formées par les dimensions de la requête. Ils utilisent souvent des méthodes d'agrégation sur plusieurs tableaux pour obtenir des résumés. Par exemple, il peut être utilisé pour connaître les ventes de cette année chez Wal-Mart par rapport à l'année dernière ? Quelle est la prévision sur les ventes du prochain trimestre ? Que peut-on dire de la tendance en regardant la variation en pourcentage ?
Bien qu'il soit évident que l'exploration de données et l'OLAP sont similaires car ils fonctionnent sur des données pour gagner en intelligence, la principale différence vient de la façon dont ils fonctionnent sur les données. Les outils OLAP fournissent une analyse de données multidimensionnelle et fournissent des résumés des données, mais en revanche, l'exploration de données se concentre sur les ratios, les modèles et les influences dans l'ensemble de données. C'est un accord OLAP avec l'agrégation, qui se résume à l'exploitation des données via "l'addition" mais l'exploration de données correspond à la "division". Une autre différence notable est que, tandis que les outils d'exploration de données modélisent les données et renvoient des règles exploitables, OLAP effectuera des techniques de comparaison et de contraste le long de la dimension métier en temps réel.