Machine Learning Workflow: Decision Trees, Random Forest & K-Means
Classified in Language
Written on in
English with a size of 1.57 KB
Implementación de Árboles de Decisión y Random Forest
- 1. Preparación de datos: Manejo de NA, Outliers, Balanceo y Escala.
- 2. Train & Test: División del conjunto de datos.
- 3. Creación del modelo:
rpart(variable~., data=train),rpart.plot()orandomForest(variable~., data=train, ntree=500). - 4. Predicción:
predict(modelo, mydata, type="class"). - 5. Evaluación: Uso de
confusionMatrix, Precision (Pos Pred Value), Recall (Sensitivity) y Accuracy. - 6. Importancia de variables:
varImpPlot(). - 7. Comparación: R² (Árbol < RF), MAE/RMSE (Árbol > RF).
Algoritmo K-Means: Clustering y Segmentación
- 1. Preparación de datos: Normalización (Min-Max [0,1] o Z-Score), tratamiento de Outliers, NA y selección de variables.
- 2. Determinar K: Método del codo (WCSS vs. número de K) y conocimiento del dominio.
- 3. Ajuste de K-means: Pasos del algoritmo (Iniciación, Asignación, Actualización, Repetición), convergencia y métricas de distancia (Euclidiana, Manhattan, Coseno).
- 4. Evaluación: Métricas internas (WCSS, Silhouette, Davies-Bouldin, Calinski-Harabasz) y externas (ARI, NMI).
- 5. Visualización: Scatterplot 2D, mapas de calor y distribución del tamaño de los clusters.