Dataset y Preprocesamiento

Información sobre cómo se recolectaron, limpiaron y transformaron los datos para el entrenamiento del modelo.

Recolección de Datos

El dataset utilizado para entrenar el modelo de análisis de sentimientos fue recolectado de diversas fuentes públicas y anotado manualmente para garantizar la calidad de las etiquetas. Se priorizaron textos en español para asegurar que el modelo funcione correctamente con contenido en nuestro idioma.

Limpieza y Preprocesamiento

El proceso de preprocesamiento incluyó las siguientes etapas:

Eliminación de caracteres especiales y URLs
Normalización de texto (lowercase, acentos)
Tokenización y segmentación
Eliminación de stop words
Balanceo de clases para evitar sesgos

Estadísticas del Dataset

10K+

Ejemplos de entrenamiento

Clases (Positivo, Neutral, Negativo)

80/20

División entrenamiento/validación

Transformaciones Aplicadas

Se aplicaron técnicas de data augmentation para aumentar la diversidad del dataset, incluyendo sinónimos, parafraseo controlado y variaciones sintácticas. Esto ayudó a mejorar la robustez del modelo frente a diferentes estilos de escritura y expresiones.