Saltar a contenido

Introducción al aprendizaje supervisado

En los modelos basados en aprendizaje supervisado se necesita proporcionar un conjunto de datos etiquetados en el entrenamiento, es decir, un conjunto de datos junto con la respuesta correcta que se debe emitir para cada uno. De este modo, el sistema recogerá unos datos, emitirá una respuesta, la cotejará con la correcta y esto le permitirá reajustar sus parámetros para futuras operaciones.

Existen diferentes técnicas que podemos emplear para implementar diferentes modelos de aprendizaje supervisado, aunque fundamentalmente estos modelos son de dos tipos.

1. Regresión

Por un lado tenemos los modelos de regresión, donde se parte de un conjunto de datos de entrada que guardan una cierta correlación, y trataremos de averiguar un valor de salida objetivo en base a los datos de entrada que nos dan. Por ejemplo, calcular el sueldo que debería cobrar un trabajador en base a sus datos relevantes: años de experiencia, cursos realizados, etc. Otro ejemplo podría ser estimar el valor de venta de un coche usado en base a sus características (número de puertas, año de matriculación, estado general, kilometraje...). Para calcular esta regresión se pueden aplicar diferentes estrategias; iremos viendo con más detalle algunas de ellas en documentos posteriores:

  • Regresión lineal
  • Árboles de decisión
  • ...

2. Clasificación

Por otro lado tenemos los modelos de clasificación, donde tratamos de catalogar o categorizar un conjunto de datos de entrada en distintas categorías de salida. Por ejemplo, a partir de una imagen de una flor, determinar qué tipo de flor es, o a partir de los datos de un cliente de un banco, determinar si es apropiado o no concederle el préstamo que solicita. También existen distintas estrategias que aplicar para la clasificación:

  • K vecinos cercanos (K Nearest Neighbours)
  • Naive Bayes
  • Máquinas de Soporte Vectorial (SVM)
  • Regresión logística
  • ...

En los siguientes apartados aprenderemos las bases de estas dos técnicas y distintos algoritmos que usar para aplicarlas.