El objetivo principal de este proyecto es aplicar los fundamentos de ciencia de datos para desarrollar un sistema integral de análisis de noticias salvadoreñas. El proyecto abarcará diferentes etapas, comenzando con la obtención de datos a través de técnicas de web scraping. Posteriormente, se llevará a cabo el procesamiento de estos datos utilizando técnicas de procesamiento del lenguaje natural y modelado de aprendizaje automático. Finalmente, se creará una interfaz interactiva utilizando Streamlit para visualizar y explorar los resultados obtenidos.
El sistema de análisis de noticias salvadoreñas permitirá recopilar información relevante a partir de fuentes de noticias en El Salvador. Mediante el uso de técnicas de procesamiento del lenguaje natural, se analizarán los textos de las noticias para extraer información sobre eventos, tendencias y sentimientos en el contexto salvadoreño. Esto proporcionará una visión más amplia y comprensiva de la actualidad en el país.
El proyecto combinará habilidades de extracción de datos, procesamiento del lenguaje natural, modelado de aprendizaje automático y desarrollo de interfaces interactivas. La integración de estas técnicas permitirá obtener información valiosa a partir de las noticias salvadoreñas, facilitando el análisis y la comprensión de los eventos actuales en el país.
- Nathaly Rebeca Bonilla Morales - UCA
- Elmer Elias Chanchan - UFG
- Diego Alejandro Manzano Pineda - Lab-Dat
-
Recopilación de datos: En esta fase se extraen noticias del sitio web del periódico El Diario de Hoy, obteniendo información como título, resumen, autor, fecha, texto completo, palabras clave, URL y categorías. Estos datos se almacenan en archivos CSV diarios, y posteriormente se compilan en un único archivo para su análisis.
-
Análisis Exploratorio de Datos (EDA): En esta etapa se realiza un análisis exploratorio de los datos mediante técnicas de web scraping. Se extraen variables relevantes de la página de El Diario de Hoy para su posterior desarrollo.
-
Modelo de Machine Learning: Este componente realiza un análisis de datos, entrenamiento de modelos, evaluación y visualización de árboles de decisiones. Todo ello se lleva a cabo paso a paso utilizando los datos de noticias obtenidos con el web scraping.
-
Procesamiento de Lenguaje Natural (NLP): En esta etapa, se aplican técnicas de Procesamiento de Lenguaje Natural para procesar y analizar el contenido de las noticias recopiladas. Se utilizan algoritmos y herramientas de NLP para realizar tareas como tokenización, eliminación de palabras irrelevantes, lematización y etiquetado gramatical. Esto permite obtener una representación estructurada y significativa de los textos de las noticias, facilitando su análisis y extracción de información relevante.
-
Creación de una aplicación en Streamlit para la demostración de los resultados: En esta etapa, se desarrollará una aplicación interactiva utilizando la biblioteca Streamlit. Esta aplicación permitirá visualizar y explorar los resultados obtenidos del análisis de noticias salvadoreñas.
La aplicación en Streamlit proporcionará una interfaz intuitiva donde los usuarios podrán acceder a visualizaciones interactivas de los datos procesados. Además, se podrán explorar los eventos, tendencias y sentimientos identificados en las noticias salvadoreñas a través de gráficos.
La creación de esta aplicación en Streamlit permitirá compartir de manera eficiente los resultados del análisis de noticias con otros usuarios y facilitará la comprensión de la información obtenida. Esta etapa final del proyecto brindará una experiencia interactiva y accesible para explorar la actualidad salvadoreña a través de los datos procesados y analizados.
Enero 2024