Clustering hiérarchique vs partitionnel
Le clustering est une technique d'apprentissage automatique permettant d'analyser des données et de les diviser en groupes de données similaires. Ces groupes ou ensembles de données similaires sont appelés clusters. L'analyse de cluster examine les algorithmes de clustering qui peuvent identifier automatiquement les clusters. Hiérarchique et partitionnel sont deux de ces classes d'algorithmes de clustering. Les algorithmes de clustering hiérarchique divisent les données en une hiérarchie de clusters. Les algorithmes de partition divisent l'ensemble de données en partitions mutuellement disjointes.
Qu'est-ce que le clustering hiérarchique ?
Les algorithmes de clustering hiérarchique répètent le cycle consistant soit à fusionner des clusters plus petits en plus grands, soit à diviser des clusters plus grands en plus petits. Dans tous les cas, il produit une hiérarchie de clusters appelée dendogramme. La stratégie de clustering agglomératif utilise l'approche ascendante consistant à fusionner des clusters en plus grands, tandis que la stratégie de clustering divisionnaire utilise l'approche descendante consistant à se diviser en plus petits. En règle générale, l'approche gourmande est utilisée pour décider quels clusters plus grands/plus petits sont utilisés pour la fusion/division. La distance euclidienne, la distance de Manhattan et la similarité cosinus font partie des mesures de similarité les plus couramment utilisées pour les données numériques. Pour les données non numériques, des mesures telles que la distance de Hamming sont utilisées. Il est important de noter que les observations réelles (instances) ne sont pas nécessaires pour le clustering hiérarchique, car seule la matrice des distances est suffisante. Le dendogramme est une représentation visuelle des clusters, qui affiche très clairement la hiérarchie. L'utilisateur peut obtenir différents regroupements en fonction du niveau auquel le dendogramme est coupé.
Qu'est-ce que le clustering partitionné ?
Les algorithmes de clustering partitionnel génèrent diverses partitions, puis les évaluent selon certains critères. Ils sont également appelés non hiérarchiques car chaque instance est placée dans exactement l'un des k clusters mutuellement exclusifs. Étant donné qu'un seul ensemble de clusters est la sortie d'un algorithme de clustering partitionnel typique, l'utilisateur doit entrer le nombre de clusters souhaité (généralement appelé k). L'un des algorithmes de clustering partitionnel les plus couramment utilisés est l'algorithme de clustering k-means. L'utilisateur doit fournir le nombre de clusters (k) avant de commencer et l'algorithme initie d'abord les centres (ou centroïdes) des k partitions. En un mot, l'algorithme de clustering k-means affecte ensuite les membres en fonction des centres actuels et réestime les centres en fonction des membres actuels. Ces deux étapes sont répétées jusqu'à ce qu'une certaine fonction objectif de similarité intra-cluster et une certaine fonction objectif de dissimilarité inter-cluster soient optimisées. Par conséquent, une initialisation sensible des centres est un facteur très important pour obtenir des résultats de qualité à partir d'algorithmes de clustering partitionnel.
Quelle est la différence entre le clustering hiérarchique et partitionnel ?
Le clustering hiérarchique et le clustering partitionnel présentent des différences essentielles en termes de temps d'exécution, d'hypothèses, de paramètres d'entrée et de clusters résultants. En règle générale, le clustering partitionné est plus rapide que le clustering hiérarchique. Le clustering hiérarchique ne nécessite qu'une mesure de similarité, tandis que le clustering partitionnel nécessite des hypothèses plus solides telles que le nombre de clusters et les centres initiaux. Le clustering hiérarchique ne nécessite aucun paramètre d'entrée, tandis que les algorithmes de clustering partitionnel nécessitent le nombre de clusters pour commencer à s'exécuter. Le clustering hiérarchique renvoie une division beaucoup plus significative et subjective des clusters, mais le clustering partitionnel donne exactement k clusters. Les algorithmes de clustering hiérarchique conviennent mieux aux données catégorielles tant qu'une mesure de similarité peut être définie en conséquence.