# Ejemplos de SciKit-Learn

Este documento muestra algunas de las principales funcionalidades de la librería SciKit-Learn en lo que se refiere a la ciencia de datos.

## Escalado de datos

SciKit-Learn incorpora algunas clases especializadas en el escalado de datos, tanto por normalización (`MinMaxScaler`) como por estandarización (`StandardScaler`). Veamos cómo usarlas en el siguiente ejemplo.

In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

df = pd.DataFrame({
    'altura': [150, 160, 170, 180, 190],
    'peso': [50, 65, 80, 95, 110]
})

# Crear escaladores
minmax = MinMaxScaler()
standard = StandardScaler()

# Escalamos con MinMax la altura y con Standard el peso
df[['altura']] = minmax.fit_transform(df[['altura']])
df[['peso']] = standard.fit_transform(df[['peso']])

df

Unnamed: 0,altura,peso
0,0.0,-1.414214
1,0.25,-0.707107
2,0.5,0.0
3,0.75,0.707107
4,1.0,1.414214


Si luego vienen datos nuevos y queremos escalarlos usando los mismos criterios que el original (mismos máximo/mínimo o media/desviación) usaremos la instrucción `transform` en lugar de `fit_transform`, ya que esta última sirve para hallar y guardar estos parámetros, y la primera para utilizar los que ya se han guardado previamente. Por ejemplo, en esta nueva secuencia de datos hay una altura mayor que las que se han registrado en el dataframe original, y por ello el escalador le va a asignar un valor mayor que 1, tomando como referencia el antiguo máximo

In [2]:
df2 = pd.DataFrame({
    'altura': [167, 198],
    'peso': [55, 95]
})

# Usamos transform en lugar de fit_transform para usar los parámetros de escalado originales
df2[['altura']] = minmax.transform(df2[['altura']])
df2[['peso']] = standard.transform(df2[['peso']])

df2

Unnamed: 0,altura,peso
0,0.425,-1.178511
1,1.2,0.707107


## Muestreo de elementos

La instrucción `train_test_split` del paquete `sklearn.model_selection` permite dividir un dataframe en un conjunto para entrenamiento de modelos de IA (normalmente el 80% de las muestras) y otro para testear el modelo entrenado (normalmente el 20% restante). Estos porcentajes se pueden especificar como parámetro en la instrucción

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.DataFrame({
    'nombre': [
        'Ana', 'Luis', 'Marta', 'Carlos', 'Lucía', 'Pedro', 'Sofía', 'Tomás',
        'Elena', 'Jorge', 'Nuria', 'Raúl', 'Clara', 'Mario', 'Sara', 'Iván',
        'Laura', 'Andrés', 'Patricia', 'Alberto'
    ],
    'edad': [
        25, 34, 29, 41, 22, 35, 28, 39, 31, 30,
        27, 33, 45, 23, 36, 32, 26, 38, 24, 40
    ],
    'ingresos': [
        20000, 32000, 28000, 40000, 18000, 35000, 27000, 39000, 30000, 31000,
        25000, 33000, 42000, 19000, 36000, 29000, 21000, 37000, 22000, 41000
    ],
    'ciudad': [
        'Madrid', 'Madrid', 'Sevilla', 'Valencia', 'Madrid', 'Bilbao', 'Sevilla', 'Madrid',
        'Bilbao', 'Valencia', 'Madrid', 'Sevilla', 'Bilbao', 'Valencia', 'Madrid', 'Sevilla',
        'Bilbao', 'Valencia', 'Madrid', 'Madrid'
    ],
    'etiqueta': [
        'A', 'A', 'A', 'B', 'A', 'A', 'A', 'C', 'C', 'A',
        'A', 'B', 'A', 'A', 'A', 'A', 'A', 'C', 'A', 'B'
    ]
})

# 30% para test, y con semilla aleatoria fija de 1 para generar siempre
# los mismos subconjuntos
df_train, df_test = train_test_split(df, test_size=0.3, random_state=1)

In [17]:
df_train

Unnamed: 0,nombre,edad,ingresos,ciudad,etiqueta
4,Lucía,22,18000,Madrid,A
17,Andrés,38,37000,Valencia,C
7,Tomás,39,39000,Madrid,C
1,Luis,34,32000,Madrid,A
13,Mario,23,19000,Valencia,A
0,Ana,25,20000,Madrid,A
19,Alberto,40,41000,Madrid,B
18,Patricia,24,22000,Madrid,A
9,Jorge,30,31000,Valencia,A
15,Iván,32,29000,Sevilla,A


In [18]:
df_test

Unnamed: 0,nombre,edad,ingresos,ciudad,etiqueta
3,Carlos,41,40000,Valencia,B
16,Laura,26,21000,Bilbao,A
6,Sofía,28,27000,Sevilla,A
10,Nuria,27,25000,Madrid,A
2,Marta,29,28000,Sevilla,A
14,Sara,36,36000,Madrid,A


### Muestreo estratificado

Como podemos ver en el ejemplo anterior, hay una columna (`etiqueta`) que no tiene los valores balanceados, y hay más de una categoría (A) que de otras (B o C). Esto ocasiona que en alguno de los conjuntos generados no existan elementos de alguna categoría específica. Por ejemplo, en el conjunto de test no hay elementos de tipo C.

Para paliar este problea podemos hacer un **muestreo estratificado**, que consiste en indicar a la instrucción `train_test_split` que genere los subconjuntos respetando las proporciones de la columna que le indiquemos.

In [19]:
df_train, df_test = train_test_split(df, test_size=0.3,
    stratify=df['etiqueta'], random_state=1)

In [20]:
df_train

Unnamed: 0,nombre,edad,ingresos,ciudad,etiqueta
18,Patricia,24,22000,Madrid,A
2,Marta,29,28000,Sevilla,A
5,Pedro,35,35000,Bilbao,A
17,Andrés,38,37000,Valencia,C
4,Lucía,22,18000,Madrid,A
1,Luis,34,32000,Madrid,A
10,Nuria,27,25000,Madrid,A
0,Ana,25,20000,Madrid,A
16,Laura,26,21000,Bilbao,A
7,Tomás,39,39000,Madrid,C


In [21]:
df_test

Unnamed: 0,nombre,edad,ingresos,ciudad,etiqueta
6,Sofía,28,27000,Sevilla,A
15,Iván,32,29000,Sevilla,A
13,Mario,23,19000,Valencia,A
3,Carlos,41,40000,Valencia,B
8,Elena,31,30000,Bilbao,C
12,Clara,45,42000,Bilbao,A


## Codificación de variables categóricas

Para codificar variables categóricas disponemos de las clases `OneHotEncoder` (para codificación *one hot*) y `OrdinalEncoder` (para *label encoding*) vamos a aplicarlas sobre el dataframe anterior para ver el resultado.

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder

df = pd.DataFrame({
    'nombre': [
        'Ana', 'Luis', 'Marta', 'Carlos', 'Lucía', 'Pedro', 'Sofía', 'Tomás',
        'Elena', 'Jorge', 'Nuria', 'Raúl', 'Clara', 'Mario', 'Sara', 'Iván',
        'Laura', 'Andrés', 'Patricia', 'Alberto'
    ],
    'edad': [
        25, 34, 29, 41, 22, 35, 28, 39, 31, 30,
        27, 33, 45, 23, 36, 32, 26, 38, 24, 40
    ],
    'ingresos': [
        20000, 32000, 28000, 40000, 18000, 35000, 27000, 39000, 30000, 31000,
        25000, 33000, 42000, 19000, 36000, 29000, 21000, 37000, 22000, 41000
    ],
    'ciudad': [
        'Madrid', 'Madrid', 'Sevilla', 'Valencia', 'Madrid', 'Bilbao', 'Sevilla', 'Madrid',
        'Bilbao', 'Valencia', 'Madrid', 'Sevilla', 'Bilbao', 'Valencia', 'Madrid', 'Sevilla',
        'Bilbao', 'Valencia', 'Madrid', 'Madrid'
    ],
    'etiqueta': [
        'A', 'A', 'A', 'B', 'A', 'A', 'A', 'C', 'C', 'A',
        'A', 'B', 'A', 'A', 'A', 'A', 'A', 'C', 'A', 'B'
    ]
})

# sparse_output a False para que guarde un array con ceros y unos completo, no sólo los unos
one_hot = OneHotEncoder(sparse_output=False)
ordinal = OrdinalEncoder()

# Codificamos en "one hot" las ciudades
codigos_ciudad = one_hot.fit_transform(df[['ciudad']])
df_codigos_ciudad = pd.DataFrame(codigos_ciudad, columns=one_hot.get_feature_names_out(['ciudad']))

# Codificamos con "label encoding" las etiquetas
codigos_etiquetas = ordinal.fit_transform(df[['etiqueta']])
df_codigos_etiqueta = pd.DataFrame(codigos_etiquetas, columns=['cod_etiqueta'])

# Añadimos las nuevas columnas al final del dataframe original
df = pd.concat([df, df_codigos_ciudad, df_codigos_etiqueta], axis=1)

df

Unnamed: 0,nombre,edad,ingresos,ciudad,etiqueta,ciudad_Bilbao,ciudad_Madrid,ciudad_Sevilla,ciudad_Valencia,cod_etiqueta
0,Ana,25,20000,Madrid,A,0.0,1.0,0.0,0.0,0.0
1,Luis,34,32000,Madrid,A,0.0,1.0,0.0,0.0,0.0
2,Marta,29,28000,Sevilla,A,0.0,0.0,1.0,0.0,0.0
3,Carlos,41,40000,Valencia,B,0.0,0.0,0.0,1.0,1.0
4,Lucía,22,18000,Madrid,A,0.0,1.0,0.0,0.0,0.0
5,Pedro,35,35000,Bilbao,A,1.0,0.0,0.0,0.0,0.0
6,Sofía,28,27000,Sevilla,A,0.0,0.0,1.0,0.0,0.0
7,Tomás,39,39000,Madrid,C,0.0,1.0,0.0,0.0,2.0
8,Elena,31,30000,Bilbao,C,1.0,0.0,0.0,0.0,2.0
9,Jorge,30,31000,Valencia,A,0.0,0.0,0.0,1.0,0.0
