Machine Learning Workflow: Decision Trees, Random Forest & K-Means

Classified in Language

Written on in English with a size of 1.57 KB

Implementación de Árboles de Decisión y Random Forest

  • 1. Preparación de datos: Manejo de NA, Outliers, Balanceo y Escala.
  • 2. Train & Test: División del conjunto de datos.
  • 3. Creación del modelo: rpart(variable~., data=train), rpart.plot() o randomForest(variable~., data=train, ntree=500).
  • 4. Predicción: predict(modelo, mydata, type="class").
  • 5. Evaluación: Uso de confusionMatrix, Precision (Pos Pred Value), Recall (Sensitivity) y Accuracy.
  • 6. Importancia de variables: varImpPlot().
  • 7. Comparación: R² (Árbol < RF), MAE/RMSE (Árbol > RF).

Algoritmo K-Means: Clustering y Segmentación

  • 1. Preparación de datos: Normalización (Min-Max [0,1] o Z-Score), tratamiento de Outliers, NA y selección de variables.
  • 2. Determinar K: Método del codo (WCSS vs. número de K) y conocimiento del dominio.
  • 3. Ajuste de K-means: Pasos del algoritmo (Iniciación, Asignación, Actualización, Repetición), convergencia y métricas de distancia (Euclidiana, Manhattan, Coseno).
  • 4. Evaluación: Métricas internas (WCSS, Silhouette, Davies-Bouldin, Calinski-Harabasz) y externas (ARI, NMI).
  • 5. Visualización: Scatterplot 2D, mapas de calor y distribución del tamaño de los clusters.

Related entries: