Dataset y Preprocesamiento

Información sobre cómo se recolectaron, limpiaron y transformaron los datos para el entrenamiento del modelo.

Recolección de Datos

El dataset utilizado para entrenar el modelo de análisis de sentimientos fue recolectado de diversas fuentes públicas y anotado manualmente para garantizar la calidad de las etiquetas. Se priorizaron textos en español para asegurar que el modelo funcione correctamente con contenido en nuestro idioma.

Limpieza y Preprocesamiento

El proceso de preprocesamiento incluyó las siguientes etapas:

  • Eliminación de caracteres especiales y URLs
  • Normalización de texto (lowercase, acentos)
  • Tokenización y segmentación
  • Eliminación de stop words
  • Balanceo de clases para evitar sesgos

Estadísticas del Dataset

10K+
Ejemplos de entrenamiento
3
Clases (Positivo, Neutral, Negativo)
80/20
División entrenamiento/validación

Transformaciones Aplicadas

Se aplicaron técnicas de data augmentation para aumentar la diversidad del dataset, incluyendo sinónimos, parafraseo controlado y variaciones sintácticas. Esto ayudó a mejorar la robustez del modelo frente a diferentes estilos de escritura y expresiones.