Machine Learning Workflow: Decision Trees, Random Forest & K-Means

Classified in Language

Written on May 30, 2026 in English with a size of 1.57 KB

Implementación de Árboles de Decisión y Random Forest

1. Preparación de datos: Manejo de NA, Outliers, Balanceo y Escala.
2. Train & Test: División del conjunto de datos.
3. Creación del modelo: rpart(variable~., data=train), rpart.plot() o randomForest(variable~., data=train, ntree=500).
4. Predicción: predict(modelo, mydata, type="class").
5. Evaluación: Uso de confusionMatrix, Precision (Pos Pred Value), Recall (Sensitivity) y Accuracy.
6. Importancia de variables: varImpPlot().
7. Comparación: R² (Árbol < RF), MAE/RMSE (Árbol > RF).

1. Preparación de datos: Normalización (Min-Max [0,1] o Z-Score), tratamiento de Outliers, NA y selección de variables.
2. Determinar K: Método del codo (WCSS vs. número de K) y conocimiento del dominio.
3. Ajuste de K-means: Pasos del algoritmo (Iniciación, Asignación, Actualización, Repetición), convergencia y métricas de distancia (Euclidiana, Manhattan, Coseno).
4. Evaluación: Métricas internas (WCSS, Silhouette, Davies-Bouldin, Calinski-Harabasz) y externas (ARI, NMI).
5. Visualización: Scatterplot 2D, mapas de calor y distribución del tamaño de los clusters.

Tags: