Agrupació Jeràrquica i Particional

El clustering és una tècnica d'aprenentatge automàtic per analitzar dades i dividir-la en grups de dades similars. Aquests grups o conjunts de dades similars es coneixen com a clústers. L’anàlisi de clúster té en compte algoritmes que poden identificar clústers de forma automàtica. Jeràrquic i Particional són dues classes d’aquest tipus d’algoritmes de clusterització. Els algorismes de agrupació jeràrquica separen les dades en una jerarquia de clústers. Els algoritmes parcials divideixen el conjunt de dades en particions mútuament desunides.

Què és l’agrupament jeràrquic?

Els algorismes de agrupació jeràrquica repeteixen el cicle de fusionar clústers més petits en altres de més grans o dividir clústers més grans a més petits. De qualsevol forma, produeix una jerarquia de clústers anomenada dendograma. L’estratègia d’agrupament aglomeratiu utilitza l’enfocament de baix a baix per fusionar clústers a grans, mentre que l’estratègia d’agrupament de divisions utilitza l’enfocament de dalt a baix per dividir-se en els més petits. Normalment, el mètode avariciós s’utilitza per decidir quins clústers més grans / petits s’utilitzen per fusionar / dividir. La distància euclidiana, la distància de Manhattan i la semblança del cosinus són algunes de les mètriques de similitud més utilitzades per a les dades numèriques. Per a dades que no siguin numèriques, s'utilitzen mètriques com la distància de Hamming. És important tenir en compte que les observacions (instàncies) reals no són necessàries per a l’agrupament jeràrquic, perquè només la matriu de distàncies és suficient. El Dendograma és una representació visual dels clústers, que mostra la jerarquia de manera molt clara. L'usuari pot obtenir diferents agrupacions segons el nivell en què es talli el dendograma.

Què és el Clusterisme Particional?

Els algorismes de clusterització parcials generen diverses particions per després avaluar-les per algun criteri. També se'ls coneix com a no jerarquitzats, ja que cada instància es situa exactament en un dels k clústers mútuament excloents. Atès que només un conjunt de clústers és la sortida d’un algorisme algoritme de clusterització particional típic, l’usuari ha d’introduir el nombre desitjat de clústers (normalment anomenats k). Un dels algorismes d’agrupament de particions particulars més utilitzats és l’algorisme de k-means clustering. L’usuari està obligat a proporcionar el nombre de clústers (k) abans d’iniciar-se i l’algoritme inicia primer els centres (o centres) de les particions k. En poques paraules, l’algoritme de clustering k-means assigna als membres en funció dels centres actuals i reestima els centres en funció dels membres actuals. Aquests dos passos es repeteixen fins a optimitzar una certa funció objectiva de similitud intra-clúster i una funció objectiva de dissimilaritat entre els clústers. Per tant, la inicialització sensible dels centres és un factor molt important per obtenir resultats de qualitat a partir d'algorismes de clustering parcials.

Quina diferència hi ha entre l’agrupament jeràrquic i el parcial?

L’agrupament jeràrquic i parcial té diferències claus en el temps d’execució, les hipòtesis, els paràmetres d’entrada i els clústers resultants. Típicament, el clusterisme parcial és més ràpid que el clúster jeràrquic. El clusterisme jeràrquic només requereix una mesura de similitud, mentre que el clusterisme parcial requereix supòsits més forts, com ara el nombre de clústers i els centres inicials. El clusterisme jeràrquic no requereix cap paràmetre d’entrada, mentre que els algorismes de clusterització parcials requereixen el nombre de clústers per començar a funcionar. La agrupació jeràrquica retorna una divisió de clústers molt més significativa i subjectiva, però el clusterisme parcial dóna lloc a exactament k clústers. Els algorismes d’agrupament jeràrquics són més adequats per a dades categòriques sempre que es pugui definir una mesura de similitud en conseqüència.