2. Fundamentos Teóricos

Fundamentos Teóricos del Aprendizaje Supervisado y No Supervisado

Aprendizaje Supervisado:

En el aprendizaje supervisado, se entrena un modelo utilizando un conjunto de datos etiquetados. Esto significa que cada entrada de datos tiene una etiqueta o resultado deseado asociado. El objetivo es que el modelo aprenda a mapear las entradas a las salidas correctas.

Ejemplo: Imagina un modelo que intenta predecir si un correo electrónico es spam o no. Se le proporciona un conjunto de correos electrónicos etiquetados como "spam" o "no spam". El modelo aprende las características de los correos electrónicos etiquetados y utiliza esa información para predecir si correos nuevos son spam o no.

En el aprendizaje supervisado, hay dos tipos principales de problemas:

Clasificación: Donde el objetivo es predecir una etiqueta o clase discreta, como predecir si un correo es spam o no spam.
Regresión: Donde el objetivo es predecir un valor numérico, como predecir el precio de una casa según sus características.

Aprendizaje No Supervisado:

El aprendizaje no supervisado, por otro lado, implica el uso de datos no etiquetados. Aquí, el modelo explora la estructura inherente de los datos para encontrar patrones o agrupaciones interesantes.

Ejemplo: En la agrupación (clustering), el modelo busca agrupar datos similares sin conocer sus etiquetas. Por ejemplo, en un conjunto de datos de clientes de una tienda, el modelo podría agrupar clientes similares según sus hábitos de compra, pero sin etiquetar qué grupo pertenece a qué tipo de cliente.

Las técnicas de aprendizaje no supervisado incluyen:

Agrupación (Clustering): Agrupar datos similares.
Reducción de dimensionalidad: Reducir la cantidad de variables en un conjunto de datos manteniendo la mayor cantidad posible de información relevante.

Ambos tipos de aprendizaje tienen sus propias aplicaciones y se complementan entre sí en la resolución de problemas del mundo real en el campo del aprendizaje automático.

Fundamentos Teóricos del Aprendizaje Supervisado:

Funciones de Coste y Optimización: En el aprendizaje supervisado, se utiliza una función de coste para evaluar qué tan bien está haciendo el modelo las predicciones en comparación con las etiquetas reales. Los algoritmos intentan minimizar esta función de coste ajustando los parámetros del modelo durante el proceso de entrenamiento.
Modelos y Algoritmos: Se emplean diferentes tipos de modelos, como árboles de decisión, regresión lineal, regresión logística, máquinas de vectores de soporte (SVM), redes neuronales, entre otros. Cada uno tiene sus propias características y supuestos, pero todos buscan ajustarse a los datos de entrenamiento para hacer predicciones precisas en datos nuevos.
Generalización y Overfitting: Un aspecto crítico es lograr que el modelo generalize bien. Esto significa que el modelo no solo memorice los datos de entrenamiento, sino que sea capaz de hacer predicciones precisas en datos que nunca ha visto antes. Evitar el sobreajuste (overfitting) es esencial para lograr una buena generalización.

Fundamentos Teóricos del Aprendizaje No Supervisado:

Estructuras y Patrones Ocultos: En el aprendizaje no supervisado, se busca descubrir estructuras o patrones ocultos en los datos. Esto puede ser a través de técnicas como la agrupación (clustering) para identificar grupos de datos similares o la reducción de dimensionalidad para encontrar representaciones más compactas de los datos.
Medidas de Similitud o Disimilitud: Para agrupar datos, es crucial definir medidas que cuantifiquen la similitud o disimilitud entre ellos. Métricas como la distancia euclidiana, la similitud coseno o coeficientes de correlación se utilizan para evaluar la proximidad entre puntos de datos.
Exploración y Descubrimiento de Estructuras: Los algoritmos de aprendizaje no supervisado exploran activamente la distribución y la estructura subyacente de los datos sin depender de etiquetas predefinidas. Esto puede ayudar a identificar patrones emergentes, anomalías o segmentar los datos en grupos con características comunes.

Ejemplo de Aprendizaje Supervisado (Clasificación con SVM):

Código:

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd

# Cargar el dataset Iris de Scikit-learn
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Dividir el dataset en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo SVM
model = SVC(kernel='linear')
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
predictions = model.predict(X_test)

# Evaluar la precisión del modelo
accuracy = accuracy_score(y_test, predictions)
print(f"Precisión del modelo: {accuracy:.2f}")

# Informe de clasificación
print("\nInforme de clasificación:")
print(classification_report(y_test, predictions))

# Guardar el conjunto de datos Iris en un archivo CSV (opcional)
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
iris_df.to_csv('iris_dataset.csv', index=False)

Resultados

Precisión del modelo: 1.00 Informe de clasificación: precision recall f1-score support 0 1.00 1.00 1.00 19 1 1.00 1.00 1.00 13 2 1.00 1.00 1.00 13 accuracy 1.00 45 macro avg 1.00 1.00 1.00 45 weighted avg 1.00 1.00 1.00 45

Ejemplo de Aprendizaje No Supervisado (Agrupación con K-Means):

Código:

from sklearn import datasets
from sklearn.cluster import KMeans
import pandas as pd

# Cargar el dataset Iris de Scikit-learn
iris = datasets.load_iris()
X = iris.data

# Aplicar el algoritmo de agrupación K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# Obtener las etiquetas de los grupos
labels = kmeans.labels_

# Agregar las etiquetas al dataset original
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['cluster'] = labels

# Guardar el conjunto de datos con las etiquetas de agrupación en un archivo CSV
iris_df.to_csv('iris_clusters.csv', index=False)

Link del DatsSet en Google Colab

Buscar este blog

Modulo 4 - Diplomado IA