Saltar a contenido

Introducción al aprendizaje no supervisado

En los modelos no supervisados, como su nombre indica, no existe ninguna información etiquetada de entrada. Se proporcionan datos sin una "respuesta correcta", por así decirlo, y el mismo sistema se dedica a elaborar un resultado en base a los datos de entrada que recibe.

Existen diversos tipos de tareas que se pueden resolver mediante aprendizaje no supervisado. Veremos a continuación las más habituales.

1. Clustering

El clustering es una tarea que consiste en identificar los distintos tipos de datos de entrada que hay, en base a los atributos internos de cada uno. Por ejemplo, podríamos desarrollar un sistema que clasifique y agrupe los distintos clientes de una tienda online en base a sus datos de entrada (procedencia, volumen de compras mensual, o cualquier otro criterio). Hay que tener en cuenta que en el clustering, como en todo proceso no supervisado, no hay intervención externa, y el propio sistema "decide" cómo agrupa los datos, para que nosotros luego interpretemos los resultados. Para el clustering se pueden aplicar distintas estrategias:

  • K-medias (K-means)
  • Clustering jerárquico
  • Modelos de mezcla gaussianos (Gaussian Mixture Models)
  • DBSCAN
  • ...

2. Detección de anomalías

La detección de anomalías es otra tarea no supervisada: se dispone de un conjunto de datos de entrada y queremos que el sistema detecte qué valores son anómalos o poco comunes. Así, por ejemplo, podemos detectar operaciones fraudulentas en un registro de transacciones bancarias. Aquí también podemos aplicar diferentes estrategias, algunas compartidas con el clustering:

  • Modelos de mezcla gausianos (Gaussian Mixture Models)
  • Análisis de componentes principales (PCA)
  • Bosques de aislamiento
  • ...

3. Reducción de dimensionalidad

Existen otras tareas basadas en aprendizaje no supervisado, como la asociación entre características de un conjunto de datos. Por ejemplo, dados los datos de un coche usado para determinar el precio de venta, un sistema no supervisado podría detectar qué datos son muy co-dependientes, para reducir el conjunto de datos de entrada (por ejemplo, el año de matriculación y el kilometraje). Es lo que se llama reducción de la dimensionalidad, y también se pueden aplicar distintas estrategias:

  • Análisis de componentes principales (PCA)
  • Incrustación local lineal (LLE)
  • ...