{" . "}

Este reto tiene dos sub-retos: Covid-19 twitter dataset y Análisis de Movilidad Humana Durante desastres naturales. Se recomienda elegir uno de ellos.

 

Enlace a los dataasets

 

> . <

{ 01 }

< . >

Recolección de Datos .

Se transmitieron tweets en vivo desde Twitter después de que la OMS declarara a Covid-19 como una pandemia. Dado que esta epidemia de Covid-19 ha afectado a todo el mundo, se recolectaron tweets en inglés relacionados con Covid-19 de todo el mundo a una tasa de casi 10k por día en tres fases: de abril a junio de 2020, de agosto a octubre de 2020 y de abril a junio de 2021. Se preparó el primer conjunto de datos con alrededor de 235k tweets recolectados del 19 de abril al 20 de junio de 2020. Después de un mes, se comenzó nuevamente a recolectar tweets de Twitter ya que en ese momento la pandemia se estaba propagando con intensidad fatal. Se recolectaron casi 320k tweets en el período del 20 de agosto al 20 de octubre de 2020 para el segundo conjunto de datos. Finalmente, después de seis meses, se recolectaron casi 489k tweets en el período del 26 de abril al 27 de junio de 2021 para el tercer conjunto de datos.

Contenido .

Los conjuntos de datos desarrollados contienen información importante sobre la mayoría de los tweets y sus atributos. Los principales atributos de ambos conjuntos de datos son:

  • ID del Tweet
  • Fecha y hora de creación
  • Enlace de origen
  • Tweet original
  • Cantidad de favoritos
  • Cantidad de retweets
  • Autor original
  • Hashtags
  • Menciones de usuarios
  • Lugar

Se recolectaron 2,35,240, 3,20,316 y 4,89,269 tweets para los conjuntos de datos de la primera, segunda y tercera fase que contienen palabras clave con hashtags como: #covid-19, #coronavirus, #covid, #covaccine, #lockdown, #homequarantine, #quarantinecenter, #socialdistancing, #stayhome, #staysafe, etc. Aquí se presenta una visión general del conjunto de datos recolectado.

Preprocesamiento de Datos .

Estos datos recolectados fueron preprocesados desarrollando una función de preprocesamiento definida por el usuario basada en NLTK (Natural Language Toolkit, una biblioteca de Python para NLP). En la etapa inicial, se convirtieron todos los tweets a minúsculas. Luego se eliminaron todos los espacios en blanco extra, números, caracteres especiales, caracteres ASCII, URLs, puntuaciones y palabras comunes de los tweets. Luego se convirtieron todas las palabras ‘covid’ en ‘covid19’ ya que ya se eliminaron todos los números de los tweets. Usando la derivación, la función de preprocesamiento redujo palabras inflexionadas a su raíz.

Análisis de Sentimiento .

Se calculó la polaridad del sentimiento de cada tweet limpio y preprocesado usando el Analizador de Sentimiento basado en NLTK y se obtuvieron las puntuaciones de sentimiento para las categorías positiva, negativa y neutral para calcular la puntuación de sentimiento compuesto para cada tweet. Los tweets se clasificaron en función de las puntuaciones de sentimiento compuesto en tres clases diferentes, es decir, Positivo, Negativo y Neutral. Luego se asignaron las calificaciones de polaridad de sentimiento para cada tweet según el siguiente algoritmo:

para cada tweet en el conjunto de datos:

si tweet[compound] < 0:
tweet[sentiment] = 0.0 # asignado 0.0 para Tweets Negativos
elif tweet[compound] > 0:
tweet[sentiment] = 1.0 # asignado 1.0 para Tweets Positivos
else:
tweet[sentiment] = 0.5 # asignado 0.5 para Tweets Neutrales
fin

Agradecimientos .

Este trabajo no hubiera sido posible sin la ayuda del guía del proyecto, el Dr. Anup Kumar Kolya, Profesor Asistente, Departamento de Ciencias de la Computación e Ingeniería, RCCIIT, cuyas amables y valiosas sugerencias y excelente orientación proporcionaron la mejor oportunidad en la preparación de estos conjuntos de datos. Si se deben atribuciones o agradecimientos, se deben incluir aquí junto con cualquier cita de investigaciones anteriores.

Este conjunto de datos es parte de la publicación titulada: .

Chakraborty A.K., Das S., Kolya A.K. (2021) Análisis de Sentimiento de los Tweets de Covid-19 Usando un Modelo LSTM Basado en Clasificación Evolutiva. En: Pan I., Mukherjee A., Piuri V. (eds) Actas de Investigación y Aplicaciones en Inteligencia Artificial. Avances en Sistemas y Computación Inteligente, vol 1355. Springer, Singapur. https://doi.org/10.1007/978-981-16-1543-6_7

Dataset .

Puedes descargate el dataset aquí

{ 02 }

< . >

Análisis Temporal .
  • Visualizar la frecuencia de tweets a lo largo del tiempo.
  • Identificar picos o tendencias notables y correlacionarlos con eventos mundiales relacionados con COVID-19.
Análisis de Hashtags .
  • Identificar los hashtags más populares y cómo su popularidad cambió a lo largo de las tres fases.
  • Descubrir grupos o clusters de hashtags que suelen aparecer juntos.
Análisis de Sentimiento .
  • Validar y, si es necesario, mejorar la clasificación de sentimientos proporcionada en el conjunto de datos.
  • Analizar cómo el sentimiento general cambió a lo largo del tiempo y entre las tres fases.
Redes de Influencia .
  • Crear una red de usuarios basada en retweets y menciones.
  • Identificar los principales influenciadores y cómo su influencia cambió a lo largo de las fases.
  • Identificar las principales comunidades
  • Identificar el tipo de influencia que han tenido las redes (Análisis de sentimiento)
Análisis Geográfico .
  • Si es posible con los datos proporcionados, mapear la geolocalización de los tweets para identificar áreas de alta actividad o áreas donde el sentimiento es particularmente fuerte (positivo o negativo).
Modelado Predictivo .
  • Utilizar características de los tweets (como el texto, la hora del día, el número de hashtags, etc.) para predecir la polaridad del sentimiento.
  • Evaluar la precisión del modelo y su capacidad para generalizar a nuevos datos.
Criterios de Evaluación .
  • Precisión y profundidad del análisis.
  • Claridad en la presentación de resultados.
  • Innovación y creatividad en las técnicas utilizadas.

> . <

{ 01 }

< . >

Acerca del Conjunto de Datos .

Este conjunto de datos contiene información de geolocalización de miles de usuarios de Twitter durante desastres naturales en su área.

Resumen .

Los desastres naturales representan serias amenazas para las grandes áreas urbanas, por lo que comprender y predecir los movimientos humanos es esencial para evaluar la vulnerabilidad y resiliencia de una población y desarrollar planes para la evacuación, respuesta y alivio ante desastres. Sin embargo, se ha realizado una investigación limitada sobre el efecto de los desastres naturales en la movilidad humana. Este estudio examina cómo los desastres naturales influyen en los patrones de movilidad humana en poblaciones urbanas utilizando datos de movimiento de individuos recopilados de Twitter. Se seleccionaron quince casos destructivos en cinco tipos de desastres naturales y se analizaron los datos de movimiento humano antes, durante y después de cada evento, comparando los datos de movimiento perturbado y estable. Los resultados sugieren que la ley de potencias puede describir la movilidad humana en la mayoría de los casos y que los patrones de movilidad humana observados en estados estables a menudo se correlacionan con aquellos en estados perturbados, destacando su resiliencia inherente. Sin embargo, el análisis cuantitativo muestra que esta resiliencia tiene sus límites y puede fallar en desastres naturales más poderosos. Los hallazgos de este estudio profundizarán nuestra comprensión de la interacción entre los habitantes urbanos y la infraestructura civil, mejorarán nuestra capacidad para predecir patrones de movimiento humano durante desastres naturales y facilitarán la planificación de contingencia por parte de los responsables políticos.

Los datos .

Este conjunto de datos contiene los siguientes campos:

  • disaster.event: el desastre natural durante el cual se recopiló la observación. Uno de:
    • 01_Wipha, 02_Halong, 03_Kalmaegi, 04_Rammasun_Manila (tifones)
    • 11_Bohol, 12_Iquique, 13_Napa (terremotos)
    • 21_Norfolk, 22_Hamburg, 23_Atlanta (tormentas invernales)
    • 31_Phoenix, 32_Detroit, 33_Baltimore (tormentas eléctricas)
    • 41_AuFire1, 42_AuFire2 (incendios forestales)
  • user.anon: un ID de usuario anónimo; único para cada evento de desastre
  • latitude: latitud del tweet del usuario
  • longitude.anon: longitud del tweet del usuario; desplazado para preservar el anonimato
  • time: la fecha y hora del tweet.

Dataset .

Puedes descargarte el dataset aquí.

agradecimientos .

El artículo original para el cual se recopiló este conjunto de datos es:
Wang Q, Taylor JE (2016) Patrones y limitaciones de la resiliencia de la movilidad humana urbana bajo la influencia de múltiples tipos de desastres naturales. PLoS ONE 11(1): e0147299. http://dx.doi.org/10.1371/journal.pone.0147299

La página Dryad desde donde se descargó este conjunto de datos:
Wang Q, Taylor JE (2016) Datos de: Patrones y limitaciones de la resiliencia de la movilidad humana urbana bajo la influencia de múltiples tipos de desastres naturales. Repositorio Digital Dryad. http://dx.doi.org/10.5061/dryad.88354

objetivo .

Utilizar el conjunto de datos de geolocalización de usuarios de Twitter durante desastres naturales para comprender y predecir patrones de movilidad humana, evaluar la resiliencia de las poblaciones urbanas y proporcionar insights para la planificación de contingencias.

{ 02 }

< . >

Análisis Exploratorio .
  • Visualizar la distribución de tweets por tipo de desastre natural.
  • Identificar las áreas urbanas más afectadas por cada tipo de desastre.
Patrones de Movilidad .
  • Analizar la movilidad de los usuarios antes, durante y después de cada desastre.
  • Identificar patrones comunes de desplazamiento, como evacuaciones o concentraciones en áreas seguras.
Comparación entre Desastres .
  • Comparar la movilidad humana entre diferentes tipos de desastres (por ejemplo, tifones o. terremotos).
  • Determinar si ciertos desastres provocan patrones de movilidad más predecibles que otros.
Resiliencia Urbana .
  • Evaluar cómo las áreas urbanas se recuperan después de un desastre en términos de patrones de movilidad.
  • Identificar áreas que muestran alta resiliencia y áreas que muestran baja resiliencia.
Predicción de Movilidad .
  • Utilizar datos de movilidad antes del desastre para predecir patrones de movilidad durante y después del desastre.
  • Evaluar la precisión de los modelos predictivos y su aplicabilidad en diferentes contextos de desastre.
Herramientas Sugeridas .
  • Python (con bibliotecas como Pandas, Scikit-learn, Geopandas, Matplotlib, Seaborn).
  • Herramientas de visualización geoespacial como QGIS o ArcGIS.
  • Gephi para visualización de redes de movilidad.
Criterios de Evaluación .
  • Precisión y profundidad del análisis.
  • Claridad en la presentación de resultados.
  • Innovación y creatividad en las técnicas utilizadas.
  • Aplicabilidad y relevancia de los insights descubiertos para la planificación de contingencias.