Dataset y Preprocesamiento
Información sobre cómo se recolectaron, limpiaron y transformaron los datos para el entrenamiento del modelo.
Recolección de Datos
El dataset utilizado para entrenar el modelo de análisis de sentimientos fue recolectado de diversas fuentes públicas y anotado manualmente para garantizar la calidad de las etiquetas. Se priorizaron textos en español para asegurar que el modelo funcione correctamente con contenido en nuestro idioma.
Limpieza y Preprocesamiento
El proceso de preprocesamiento incluyó las siguientes etapas:
- Eliminación de caracteres especiales y URLs
- Normalización de texto (lowercase, acentos)
- Tokenización y segmentación
- Eliminación de stop words
- Balanceo de clases para evitar sesgos
Estadísticas del Dataset
10K+
Ejemplos de entrenamiento
3
Clases (Positivo, Neutral, Negativo)
80/20
División entrenamiento/validación
Transformaciones Aplicadas
Se aplicaron técnicas de data augmentation para aumentar la diversidad del dataset, incluyendo sinónimos, parafraseo controlado y variaciones sintácticas. Esto ayudó a mejorar la robustez del modelo frente a diferentes estilos de escritura y expresiones.