Twitter como herramienta para la investigación ecológica

El acceso a flujos constantes de datos de observación de 60 o 70 millones de usuarios de Twitter es un problema potencial para los científicos, pero extraer los datos del objetivo es un desafío.
Una gran ventaja de la minería de datos de los medios sociales es la capacidad de convertir los datos en información utilizable en un corto período de tiempo. La pregunta es, ¿cómo se comparan los datos rápidos y retrospectivos con los datos de procesos de recolección cuidadosamente preparados?
Un estudio reciente comparó los resultados de tres estudios publicados de ciencia ciudadana con los datos extraídos retrospectivamente de Twitter durante los mismos períodos de tiempo. Confirmó que la explotación minera de Twitter podría proporcionar datos de referencia fiables (cuándo, dónde). En cuanto a probar relaciones causales o hipótesis que involucren variables dependientes, el jurado sigue sin decidir.
Twitter se muestra prometedor para el estudio ecológico, en particular estudios sobre fenómenos estacionales como la aparición anual de hormigas voladoras. Pero filtrar el ruido de la observación humana al azar es una ciencia en constante evolución.

Ya en 2009-10, los investigadores estudiaron la minería de datos de Twitter como una forma de predecir la incidencia de la gripe. En ese momento, el virus H1N1, o “gripe porcina”, había pasado de los cerdos a los humanos y llegó a los Estados Unidos. El Centro para el Control de Enfermedades (CDC) tomó nota y comenzó a patrocinar la investigación.

Ocho años después, los científicos de datos Alessandro Vespignani y su equipo han desarrollado modelos estadísticos para analizar los datos de Twitter en el pronóstico de la gripe que pueden predecir, a las seis semanas, cuándo y dónde un brote de gripe podría llegar a su punto máximo, con una precisión del 70 al 90 por ciento. El modelo de Vespignani integra los tweets de gripe con los datos de los CDC y otras entradas de las condiciones iniciales de la gripe, donde Twitter actúa como “un proxy para monitorear la incidencia de enfermedades infecciosas”. Vespignani también señaló que su modelo podría funcionar con muchas fuentes digitales (por ejemplo, los medios sociales), que a menudo vienen con sellos de tiempo o ubicación.

Debido a que los tweets no están estructurados y son abundantes, la oportunidad de hacer uso de los datos de Twitter ha inspirado trabajos avanzados de muchas ciencias: estadística y computacional, conductual y lingüística. ¿Cómo procesan el lenguaje las personas o cómo se influyen mutuamente? ¿Cómo podemos aplicar el aprendizaje automático para clasificar los datos del objetivo en medio de asociaciones humanas aleatorias?

A pesar de que el campo de la ecología está enterrado en los datos de las cámaras trampa, los estudios de seguimiento y los registros de la ciencia ciudadana, ha sido relativamente tarde para lanzar su expedición a Twitter. Pero en septiembre de 2018, un estudio de la Universidad de Gloucestershire realizado por Adam Hart y sus colegas analizó la fiabilidad de los datos de Twitter para estudios ecológicos. Hart ideó una metodología para recopilar, raspar y estructurar los conjuntos de datos de los tweets sobre tres fenómenos ecológicos.

En cierto sentido, estaban apostando a que estos tres fenómenos ecológicos cíclicos -la aparición anual de hormigas voladoras, el avistamiento de arañas en el hogar, las murmuraciones sincronizadas de los estorninos en la cabeza- podrían impresionar a los Tweeters lo suficiente como para que aparecieran de forma significativa en Twitter. Y al buscar en la API de Twitter palabras clave o hashtags, como #flyingants, #spider y #murmurations, la apuesta de los investigadores dio sus frutos.

“Asegúrate de elegir algo que la gente pueda twittear”, dijo Hart. “Todavía tenemos mucho que aprender sobre lo que motiva a la gente a twittear sobre los fenómenos ecológicos y el tipo de información que les motiva a incluir.”

Hart y sus colegas compararon entonces los resultados de Twitter con datos publicados de tres estudios de ciencias ciudadanas (CS) sobre los mismos fenómenos durante los mismos períodos de tiempo. Las muestras más robustas de Twitter provienen de tweets sobre avistamientos de arañas. La minería de Twitter produjo menos puntos de datos que los experimentos planificados (CS) – casi por un factor de diez en algunos casos – y las murmuraciones estelares fueron las que menos rindieron. Pero el equipo de Hart se hizo cargo de la ciencia de los datos.

“Los enfoques estadísticos que usamos permiten el tamaño de la muestra para calcular la significación”, dijo Hart. “Así que[un número relativamente bajo de puntos de datos] es importante, pero está permitido en los análisis.”

Utilizando un método de comparación estadística, la prueba Kolmogorov-Smirnov, para estudiar la fiabilidad de Twitter frente a los conjuntos de datos CS, el equipo de Hart pudo mostrar una sorprendente correlación.

Después de una discusión sobre la fiabilidad de Twitter con respecto a la determinación de cuándo y dónde ocurren los avistamientos, los científicos concluyen que la minería de Twitter puede ser una herramienta útil para los ecologistas, particularmente en fenología, el estudio del “calendario de la naturaleza”.

La minería de datos retrospectiva de los medios sociales y otras fuentes digitales ha generado mucho entusiasmo en la ecología porque puede ahorrar mucho tiempo en ciertos tipos de grandes proyectos de investigación centrados en los datos.

Gabriella Leighton y sus colegas desarrollaron una metodología para extraer imágenes de Google en el seguimiento de los lugares donde, geográficamente, los miembros de la misma especie comenzaron a exhibir diferentes variaciones de color. Al igual que Hart et al (2018), Leighton y sus coautores compararon los resultados de Twitter con hallazgos conocidos (Rounds, 1987) y encontraron una correlación sustancial. El artículo publicado no pudo evitar mencionar el ahorro de tiempo:

“En particular, el método de Google Imágenes tomó unas pocas semanas”, informaron Leighton et justify, “mientras que los métodos más tradicionales de recolección de datos realizados por Rounds (1987) tomaron 3 años”.

“Hemos podido mejorar la comprensión de las invasiones de insectos a través de nuestros estudios sobre la mariquita arlequín, una especie exótica invasora mundial”, dijo Roy a Mongabay. Twitter permite a Roy llevar a cabo tanto la ingesta de datos como la divulgación educativa.

“Hace apenas unos días, alguien envió una foto[vía Twitter] de la mariquita arlequín comiendo unos huevos de polilla”, dijo Roy. “Este es un ejemplo importante de la forma en que la mariquita arlequín puede estar afectando negativamente a otras especies.” Al igual que la minería retrospectiva de Twitter, esta investigación proporciona un punto de partida útil, aunque carece del carácter representativo de una muestra estadística.

Al final, los hallazgos de Hart et al (2018) ofrecen a los investigadores un tipo diferente de herramienta de investigación. Con su alto grado de ruido y sesgo, servirá menos como sustituto de un estudio bien diseñado y más como un ahorro de tiempo en la investigación preliminar. Hochachka lo ve como una herramienta potencial de “instantánea”: “si no hubiera otra fuente de información”, dice Hochachka, “o si pudieras reunir información, pero llevaría mucho tiempo recopilarla, y querrías una instantánea ahora mismo”.

Con su amplio alcance y su creciente disponibilidad a través de análisis de aprendizaje automático, Twitter y otros medios sociales pueden proporcionar cada vez más los grandes datos que pueden ayudar a los investigadores a apoyar una vía de investigación sobre otra o sugerir tendencias para una mayor investigación.

Ver también Ecología vial: el camino menos transitado

3 thoughts on “Twitter como herramienta para la investigación ecológica

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *