Obtener tweets con la API de X (Twitter)

Nota: Twitter ha sido rebautizado como X (desde 2023). La API de la plataforma es ahora oficialmente la API de X (anteriormente API de Twitter). Esta guía cubre la API de X v2 actual, que es la versión activa y con soporte. Las URLs de los endpoints usan ahora api.x.com en lugar del dominio heredado api.twitter.com. La API de Twitter v1.1 ha sido descontinuada y ya no está disponible para nuevos proyectos.

Configurar la API de Twitter para obtener tweets: guía para principiantes

Hola a todos los entusiastas de las redes sociales y desarrolladores que comienzan. ¿Alguna vez se preguntaron cómo acceder a la mina de oro de tweets que circulan por el Twitterverso? ¡Están de suerte! Hoy nos adentramos en el mundo de la API de Twitter v2, su boleto para obtener esas gemas de 280 caracteres.

Antes de adentrarse en la API de Twitter v2 y el proceso de obtención de tweets, puede ser útil entender cómo se usan las APIs en la vida cotidiana. Consulten Usos prácticos y ejemplos de APIs en la vida cotidiana para obtener una perspectiva práctica.

Explorando los niveles de acceso a la API de Twitter v2

Antes de arremangarse y empezar a escribir código, hablemos de los diferentes niveles de acceso disponibles con la API de Twitter v2. Piénsenlos como tipos de entrada a un concierto: cada uno les da una experiencia diferente.

Aquí está el desglose:

Acceso Esencial: ¡El paquete inicial! Este nivel se otorga automáticamente al crear una cuenta de desarrollador. Es perfecto para experimentar, aprender y construir proyectos pequeños. Tienen acceso a los endpoints estándar y pueden obtener una cantidad razonable de tweets por mes, más que suficiente para comenzar.
Acceso Elevado: ¿Listos para las grandes ligas? El acceso elevado levanta las restricciones para que puedan extraer aún más datos, perfecto para aplicaciones en producción o proyectos más serios. Necesitarán completar una solicitud rápida dentro del portal de desarrolladores, pero está disponible para todos (no solo para unos pocos seleccionados).
Acceso de Investigación Académica: Si son investigadores en una institución académica, este es su boleto de oro. El acceso de investigación académica no solo desbloquea límites de datos más altos, sino algo especialmente interesante: ¡pueden profundizar hasta el primer tweet de Twitter en 2006! Por supuesto, necesitarán completar una solicitud más detallada para este nivel, pero si analizan conversaciones públicas o tendencias a lo largo del tiempo, es un cambio radical.
Elevado+ (¡Próximamente!): Twitter ha insinuado un nuevo nivel aún más potente, Elevado+. Este es para los grandes usuarios, con la promesa de acceso a hasta 10 millones de tweets por mes. Los que quieran más capacidad para sus proyectos de datos pueden unirse a la lista de espera.

Resumen rápido:

Esencial = comenzar
Elevado = escalar
Académico = investigación en profundidad
Elevado+ = el sueño de los usuarios avanzados (¡próximamente!)

Ahora, antes de abordar la configuración, veamos cómo pasar de cero a héroe de las APIs...

Por qué importan los datos de Twitter

Twitter no es solo un lugar para memes, noticias y opiniones acaloradas; es un enorme flujo de datos colaborativos que refleja todo, desde lo cotidiano hasta la opinión pública. Investigadores y desarrolladores han aprovechado los datos de Twitter para construir sistemas de vigilancia de salud que identifican brotes de enfermedades, detectan incidentes de tráfico en tiempo real e incluso monitorean el acceso a alimentos en las ciudades. ¡Las posibilidades son enormes!

Por supuesto, es importante recordar: los usuarios de Twitter conforman una porción única de la población (un poco como una mesa ruidosa en el fondo de un café), y solo el 10% de los usuarios son responsables de aproximadamente el 80% de los tweets. Entonces, si bien los datos son ricos, vienen con sus propias peculiaridades y sesgos.

Empecemos: la API de Twitter v2 en pocas palabras

La última versión de la API de Twitter es como un nuevo juguete brillante para los desarrolladores. Está repleta de funciones interesantes que harán realidad sus sueños de obtener tweets. Esto es lo que nos entusiasma:

Respuestas más elegantes: Digan adiós a los datos engorrosos. La nueva API sirve la información en un formato mucho más digerible.
Poder de las encuestas: ¿Les gustan las encuestas de Twitter? ¡Ahora también pueden obtener esos datos!
Anotaciones inteligentes: Obtengan información sobre de qué trata realmente un tweet con información contextual y reconocimiento de entidades. Si les gusta el Procesamiento de Lenguaje Natural (NLP), este es un cambio de juego: la API de Twitter v2 les permite solicitar tanto anotaciones de entidades (personas, lugares, organizaciones nombradas) como anotaciones de contexto (¿de qué trata realmente el tweet?). Así, ya sea que estén entrenando un chatbot o simplemente analizando tweets, pueden profundizar más que nunca.
Hilos de conversación: No se pierdan el cuadro completo. Obtengan hilos de conversación completos con facilidad.

¿Por qué debería importarles?

Ya sea que estén construyendo un panel de redes sociales, realizando investigaciones o simplemente satisfaciendo su curiosidad, la API de Twitter v2 abre un mundo de posibilidades. ¡Es como tener un pase tras bastidores al Twitterverso!

¿Listos para entrar? En las siguientes secciones, los guiaremos a través de la configuración de su cuenta de desarrollador, la obtención de esas claves API cruciales y la realización de su primera llamada a la API. ¡Créanme, es más fácil de lo que piensan!

Obteniendo acceso a la API de Twitter: la configuración

Bien, arremánguense y configuremos su acceso a la API de Twitter. ¡No se preocupen, no es tan intimidante como puede sonar!

Paso 1: Convertirse en desarrollador de Twitter

Lo primero es lo primero: necesitan unirse al club de desarrolladores de Twitter. Así es como:

Vayan al sitio web de la Plataforma de Desarrolladores de Twitter.
Hagan clic en el botón "Registrarse" y sigan las instrucciones.
Completen la solicitud con sus ideas sobre cómo usar la API.
Crucen los dedos y esperen la aprobación. (¡No se preocupen, Twitter es bastante rápido al respecto!)

Paso 2: Crear su proyecto de Twitter

Una vez que estén dentro, es hora de crear un proyecto:

Inicien sesión en el Portal de Desarrolladores de Twitter.
Busquen el botón "Crear proyecto" y háganle clic.
Elijan un nombre llamativo para su proyecto. ¡Que cuente!
Elijan el caso de uso que mejor se adapte a sus planes.
Escriban una breve descripción de lo que están haciendo.

Paso 3: Conectar una aplicación

Ahora la parte divertida: configurar su aplicación:

En su nuevo proyecto, verán una opción para "Agregar aplicación" o "Crear aplicación".
Si están comenzando desde cero, hagan clic en "Crear aplicación" y denle un nombre.
¿Ya tienen una aplicación? Solo conectenla a su nuevo proyecto.

Paso 4: Asegurar sus claves al reino de Twitter

Aquí es donde obtienen su acceso VIP:

Una vez creada su aplicación, verán una pantalla con su clave de API, clave secreta de API y token de portador (Bearer Token).
Estos son sus boletos de oro, ¡así que manténganlos seguros! Cópienlos y guárdenlos de forma segura en su máquina local.
Consejo profesional: nunca compartan estas claves públicamente. ¡Son como las contraseñas de su reino de API de Twitter!

¡Y voilá! Ahora están oficialmente configurados con acceso de desarrollador de Twitter. Félicitense: ¡están un paso más cerca de convertirse en magos de la API de Twitter!

Obteniendo sus primeros tweets: ¡hagamos sonar esa API!

Ahora que están armados con sus claves de API, llegó el momento de la verdad: hacer su primera solicitud a la API. No se preocupen, tenemos opciones para todos, desde guerreros de la línea de comandos hasta entusiastas de Python. ¡Sumerjámonos!

Parada rápida: entendiendo los límites de velocidad

Antes de desatar una lluvia de solicitudes a la API, hay un bache importante a tener en cuenta: Twitter impone límites de velocidad para asegurarse de que todos jueguen limpio y los servidores permanezcan felices.

Si están en el nivel de acceso Esencial, pueden hacer hasta 180 solicitudes cada 15 minutos para este endpoint en particular. Eso equivale a aproximadamente una solicitud cada cinco segundos. Por eso, es mejor agregar una pausa corta entre solicitudes; de lo contrario, corren el riesgo de encontrar errores o ser bloqueados temporalmente. Piénsenlo como una pausa obligatoria para el café entre cada extracción de datos: ¡relajen por cinco segundos y hagan el siguiente movimiento!

No necesitan pensarlo demasiado: incluyan esa pausa y estarán bien dentro de las buenas gracias de Twitter.

Opción 1: El héroe de la línea de comandos (cURL)

Para quienes aman la terminal, cURL es su mejor amigo:

Abran su terminal.

Copien este comando (¡pero no presionen Intro todavía!):

 curl --request GET 'https://api.x.com/2/tweets/search/recent?query=from:twitterdev' --header 'Authorization: Bearer $BEARER_TOKEN'

Reemplacen $BEARER_TOKEN con su Bearer Token real.
¡Presionen Intro y vean la magia suceder! Verán una respuesta JSON con tweets recientes de @TwitterDev.

Pero, ¿qué están viendo en realidad?

Una vez que ejecuten el comando, recibirán un fragmento de JSON. Esto es lo que contiene:

La respuesta principal es un diccionario con dos claves: datos y meta.
Datos contiene una lista de tweets, cada uno como su propio diccionario con todos los campos de tweet que solicitaron.
Meta les da la información detrás de escenas: cuántos tweets obtuvieron, los IDs de los tweets más nuevos y más antiguos, y un token para la siguiente página (que usarán si quieren obtener más tweets).

Aviso: Las pautas para desarrolladores de Twitter significan que no verán datos de tweets reales aquí, pero tengan la seguridad de que su propia terminal estará llena de datos de tweets.

¡Enhorabuena! Con una simple solicitud cURL, han obtenido su primer lote de tweets y echado un vistazo a la estructura de la respuesta. ¡El mundo de las APIs es su ostra!

Extra: aplanando y procesando datos como un profesional

Han recopilado sus datos de tweets usando herramientas de línea de comandos, ¡genial! Pero, ¿qué pasa si su nuevo conjunto de datos está organizado como un gran bloque por respuesta de API, en lugar de una prolija línea por línea? Ahí es donde entra el aplanado, y es más fácil que desenredar auriculares.

Aquí está el paso a paso:

Recopilen sus datos brutos. Por ejemplo, si ejecutaron un comando como twarc2 timelines con una lista de IDs de usuario, su salida (por ejemplo, results.jsonl) tendrá una respuesta de API (que a menudo contiene múltiples tweets) por línea.
Aplanen los datos. En lugar de lidiar con JSON anidado, canalicen su archivo a través de una utilidad de aplanado. Con twarc, usen:
twarc2 flatten results.jsonl tweets.jsonl
Ahora, cada tweet individual se convierte en su propia línea en tweets.jsonl. ¡Voilá, sin más necesidad de profundizar en objetos anidados!
Pasen a su base de datos o herramienta de análisis. La mayoría de las bases de datos modernas (digamos, MongoDB) o bibliotecas de procesamiento de datos adoran este formato. Solo importen su archivo aplanado y estarán listos para cortar, dividir y analizar a su gusto.

Este truco mágico toma sus respuestas brutas y desordenadas y las transforma en un conjunto de datos fácil de buscar, procesar y visualizar, ya sea que estén construyendo paneles o adentrándose en la ciencia de datos. Punto extra: les ahorra mucho tiempo de manipulación, así pueden ir directo a los conocimientos.

Opción 2: Potencia de Python

¿Prefieren Python? Los tenemos cubiertos:

Vayan al código de muestra de la API de Twitter v2 en GitHub.
Descarguen o clonen el repositorio.
Naveguen hasta el archivo recent_search.py.
Asegúrense de tener instalada la biblioteca requests (pip install requests).
Establezcan su Bearer Token como variable de entorno:
```
export 'BEARER_TOKEN'='su_bearer_token_real_aqui'
```
Ejecuten el script: python3 recent_search.py
¡Boom! Ahora están obteniendo tweets con Python. No duden en modificar la consulta en el script para obtener diferentes tweets.

¿Curiosos sobre lo que sucede bajo el capó? Desglosémoslo para que puedan hackear, experimentar o construir su propio script como profesionales:

Configurando el script

Primero, necesitarán cargar sus paquetes de Python y obtener sus credenciales de Bearer Token (consejo profesional: usar variables de entorno mantiene sus claves seguras y su conciencia tranquila):

Definiendo su búsqueda de tweets

Digamos que quieren encontrar tweets que mencionen "bomba de calor" o "bombas de calor", solo en inglés, y omitir esos molestos retweets. Configurarían su endpoint y parámetros de consulta así:

query: Lo que están buscando (en este caso, tweets en inglés sobre bombas de calor, excluyendo retweets)
tweet.fields: Qué detalles quieren recibir (ID del tweet, texto, autor, fecha)
max_results: Número de tweets por solicitud

Enviando la solicitud

Necesitarán incluir su Bearer Token en los encabezados:
Ahora, conectémonos al endpoint y manejemos algunas verificaciones básicas de errores:

Ajústenlo a su gusto

¿La mejor parte? Pueden ajustar la consulta para obtener tweets sobre cualquier tema que les guste. Prueben buscar su hashtag, usuario o tema favorito: ¡dejen correr su curiosidad por los datos!

Y ahí lo tienen: un boleto impulsado por Python al flujo de tweets de Twitter. Ya sea que ejecuten el script de muestra o construyan el propio, ahora están listos para obtener tweets como profesionales.

Modo avanzado: recorriendo múltiples reglas con Python

¿Listos para subir de nivel en sus habilidades con la API de Twitter? Digamos que quieren recopilar tweets que coincidan con varias reglas de búsqueda diferentes, no solo una. Así pueden automatizar el proceso y obtener información de tweets y usuarios para cada regla en su lista.

Comiencen preparando dos DataFrames de pandas vacíos: uno para tweets, otro para usuarios. Recorrerán su colección de reglas, intercambiando el campo de consulta cada vez para obtener un nuevo lote de tweets y usuarios para cada regla.

Un flujo de trabajo básico se verá así:

Configuren sus DataFrames vacíos (uno para tweets, otro para usuarios).
Para cada regla en su lista, actualicen sus parámetros de consulta para que la búsqueda coincida con su regla actual.
Llamen a su función que envía la solicitud al endpoint de Twitter y procesa la respuesta. ¡No olviden fusionar los nuevos tweets y usuarios en sus DataFrames!
Respeten los límites de velocidad de Twitter: agreguen un time.sleep(5) después de cada solicitud para no exceder los límites. (Para el Acceso Esencial, son máximo 180 solicitudes por 15 minutos, aproximadamente una cada cinco segundos.)
Manejen la paginación: si su respuesta incluye un "next_token" en el campo "meta", sigan obteniendo páginas adicionales hasta que hayan capturado todos los tweets disponibles para esa regla.

¿El resultado final? Tendrán DataFrames robustos con tweets y detalles de usuarios para cada regla que les interese, ¡todo sin sudar ni romper el límite de velocidad!

Manejando errores de la API como un profesional

¿Qué ocurre si encuentran un problema al obtener tweets? No se preocupen: la API de Twitter le encanta hablar en códigos de estado, y con los trucos correctos, pueden manejar incluso los errores más difíciles como desarrolladores experimentados.

Aquí está el plan:

Verifiquen la respuesta:
Después de hacer su solicitud, siempre verifiquen response.status_code.
- Si es 200, ¡felicítense, han encontrado oro!
- Si es algo en los 400 (como 401 o 403), algo está mal, generalmente sus credenciales o permisos. En este caso, detengan el programa e investiguen; no sigan bombardeando la API o solo obtendrán más de los mismos errores.
- Si es un código de nivel 500, eso es por parte de Twitter. Generalmente son problemas temporales.
Sean amigables, no hagan spam:
Cuando obtengan un error temporal (piensen en 502, 503 o 504), ¡no envíen solicitudes a borbotones! En cambio:
- Esperen un poco antes de intentarlo de nuevo. Un temporizador de suspensión aleatorio entre 5 y 60 segundos suele funcionar (el time.sleep() de Python es su amigo aquí).
- ¿Siguen atascados después de un reintento? Consideren esperar aún más o verificar la página de estado de la API de Twitter para problemas generalizados.
Lanzar excepciones para lo importante:
Para errores del lado del cliente (estado 4xx), lancen una excepción con todos los detalles para poder depurar.

Al incorporar estas verificaciones y equilibrios en sus scripts, sus aventuras con la API de Twitter serán mucho más fluidas, y no terminarán atacándose accidentalmente con un DDoS a sí mismos.

Ahora, si el código no es su fuerte (o son alérgicos a las ventanas de la terminal), hay una opción que puede sentirse un poco más como magia...

Opción 3: La vía GUI (Qodex)

Si prefieren hacer clic en lugar de escribir:

Vayan a Qodex.ai.
Creen una nueva solicitud en Qodex.
Establezcan el tipo de solicitud como GET.
Usen esta URL: https://api.x.com/2/tweets/search/recent?query=from:twitterdev
En la pestaña Encabezados, agreguen Authorization como clave y Bearer su_bearer_token_real como valor.
¡Presionen Enviar y vean llegar esos tweets!

Extra: Bibliotecas a montones

¿Quieren agilizar su codificación? Consulten la página de herramientas y bibliotecas de Twitter. Hay bibliotecas disponibles en varios lenguajes de programación que admiten v2 de la API. ¡Pueden hacerles la vida mucho más fácil!

Solución de problemas para la recuperación de tweets en investigación académica

Embarcarse en la búsqueda de tweets para propósitos académicos a veces puede sentirse como una aventura de Indiana Jones, ¡completa con errores misteriosos y requisitos arcanos! Si dependen de bibliotecas de terceros o herramientas de línea de comandos (como twarc, Tweepy y similares), aquí hay algunos obstáculos clásicos que podrían encontrar, y cómo superarlos con estilo.

1. Acceso limitado a los archivos de tweets

Por defecto, la mayoría de los desarrolladores solo tienen acceso a tweets de los últimos siete días (gracias a esas limitaciones de la API). Para rangos de fechas más amplios, se requiere acceso académico, que es un proceso de solicitud separado y que en algunos casos ha sido eliminado progresivamente.
Solución alternativa: En lugar de búsquedas en vivo, busquen conjuntos de datos abiertos que puedan hidratar; consulten https://catalog.docnow.io/ para archivos de tweets públicos listos para investigación. Una vez que tengan los IDs de tweets, pueden usar herramientas como twarc para obtener el contenido completo.

2. Parámetros de consulta confusos

A diferencia de las plataformas de búsqueda regulares, algunas bibliotecas requieren convenciones específicas de nomenclatura de parámetros. Por ejemplo, no pueden usar operadores de búsqueda clásicos como since: y until: en consultas de API. En cambio, necesitarán usar parámetros start_time y end_time, o sus equivalentes, dependiendo de su herramienta.
Consejo profesional: Revisen la documentación de su biblioteca para encontrar la sintaxis correcta y verifiquen los ejemplos antes de ejecutar.

3. Problemas de autenticación

¿Usando las credenciales incorrectas? Están en buena compañía. Muchas APIs esperan un Bearer Token vinculado al nivel de acceso adecuado (especialmente para los endpoints académicos). Conectar un token de un proyecto básico en lugar de uno académico a menudo lleva a errores del cliente.
Solución: Visiten su portal de desarrolladores, verifiquen a qué aplicación está vinculado su token y asegúrense de que es el marcado para investigación académica. Si solo tienen acceso estándar, sus límites de recuperación serán más estrictos.

4. Manejo de límites de velocidad y volumen de datos

La mayoría de las APIs limitan la cantidad de tweets que pueden obtener por solicitud, o por usuario (a menudo limitándose a los 3200 más recientes por cuenta).
Estrategia: Para conjuntos de datos más grandes, dividan las solicitudes o usen scripts de procesamiento de datos locales para aplanar y combinar múltiples respuestas.

5. Importación y manejo de datos

La mayoría de las herramientas de línea de comandos generarán tweets en formato JSONL. ¡No entren en pánico, son fáciles de procesar! Pueden usar las funciones integradas de las herramientas (como flatten con twarc) para simplificar los resultados e importarlos directamente a bases de datos como MongoDB para un análisis más profundo.

Consejos rápidos para una caza de datos feliz:

Tengan cuidado con los tutoriales desactualizados: los endpoints y niveles de acceso de la API cambian con frecuencia.
Si están atascados, busquen guías en video o sesiones de codificación en vivo; hay una próspera comunidad académica que comparte recursos.
Prueben sus claves y consultas a pequeña escala antes de ejecutar el pipeline completo.

Ocasionalmente, se toparán de frente con un mensaje de error que parece críptico. Tomen un momento, repasen su configuración (bearer token, nivel de acceso, parámetros correctos) y no tengan vergüenza de buscar en Google: ¡es parte de la aventura!

Ahora que tienen su conjunto de herramientas de solución de problemas listo y el equipaje aligerado con algunos prácticos recursos alternativos, profundicemos aún más.

Ronda adicional: recopilación avanzada de tweets con Twarc

¿Listos para subir de nivel y capturar tweets de una lista personalizada de IDs de usuario, sin topar con la temida barrera de los siete días? Es hora de llamar a los grandes. Conozcan Twarc, la navaja suiza para la recopilación de datos de Twitter.

Con Twarc, pueden obtener tweets de usuarios específicos en cualquier rango de fechas (siempre que los tweets aún estén disponibles). Así pueden aprovechar esta práctica herramienta:

Paso 1: Instalación y configuración

Asegúrense de tener Python instalado.
Abran su terminal y ejecuten:
pip install twarc
Necesitarán autenticar Twarc con sus claves de API. Inicialicen Twarc con:
twarc2 configure
Sigan las instrucciones para ingresar sus claves.

Paso 2: Preparar su lista de IDs de usuario

Pongan cada ID de usuario en su propia línea en un archivo de texto sin formato, por ejemplo, twitter_ids.txt

Paso 3: Obtener tweets para un rango de fechas

Usen el siguiente comando para capturar tweets de esos usuarios, especificando su rango de fechas preferido:
twarc2 timelines --start-time "AAAA-MM-DD" --end-time "AAAA-MM-DD" --use-search twitter_ids.txt results.jsonl
- Reemplacen AAAA-MM-DD con sus fechas de inicio y fin reales.
- El archivo results.jsonl almacenará sus datos brutos de tweets.

Paso 4: Aplanar los datos

Twarc almacena los resultados como una respuesta de API por línea. Para obtener un tweet por línea (mucho más fácil de trabajar), ejecuten:
twarc2 flatten results.jsonl tweets.jsonl
Ahora, tweets.jsonl contiene tweets individuales, listos para análisis o importación.

Paso 5: Opcional: importar a una base de datos

Si son del tipo que acumula datos, pueden importar tweets.jsonl directamente a bases de datos como MongoDB para una exploración más profunda.

¿Necesitan más orientación?

La documentación oficial de Twarc y los tutoriales de la comunidad son tesoros para los apasionados por los datos.
Los tutoriales en video y guías pueden ayudarlos a ponerse manos a la obra rápidamente.

Con una herramienta de terceros como Twarc, no se limitan a tweets recientes: pueden construir colecciones de tweets potentes y personalizadas de usuarios específicos a lo largo del tiempo, dejando brillar a su mago interior de los datos.

Extra: almacenando tweets en MongoDB para análisis de nivel avanzado

Obtener tweets es solo el comienzo. ¿Qué pasa si quieren guardar todos esos jugosos datos de Twitter en algún lugar seguro para futuros análisis de números o seguimiento de tendencias? Conozcan MongoDB, ¡su amigable base de datos del vecindario!

Aquí está una guía práctica y rápida para sacar sus tweets recopilados de Python y llevarlos a MongoDB con el mínimo de complicaciones. Necesitarán la biblioteca pymongo; si aún no la tienen, enciendan su terminal y ejecuten:

pip install pymongo

Ahora, arremánguense:

Conectarse a MongoDB:
Comiencen importando pymongo y conectándose a su instancia de MongoDB (asegúrense de que MongoDB esté ejecutándose en su máquina o que su cadena de conexión apunte al servidor correcto).
from pymongo import MongoClient
client = MongoClient('localhost', 27017)
db = client['Twitter']
collection = db['Tweets']
Preparar sus datos:
Cuando obtengan tweets de la API (como se muestra arriba con Python), generalmente los recibirán como diccionarios, ¡perfectos para MongoDB! Para cada tweet, simplemente insértenlo en la colección:
Si tienen muchos tweets para insertar a la vez, aceleren el proceso con insert_many:
Verificar y analizar:
Después de importar, pueden ejecutar consultas rápidas para verificar sus datos.

¡Voilá! Su tesoro de Twitter ahora reside de forma segura en MongoDB, listo para todo lo divertido: análisis, puntuación de sentimientos, aprendizaje automático, lo que sea.

Si se toman en serio el análisis a gran escala, este pipeline facilita la búsqueda, el filtrado y la ejecución de estadísticas en millones de tweets, todo desde la comodidad de su explorador de bases de datos favorito.

Dominando el endpoint de búsqueda reciente: su puerta de entrada a los datos de Twitter

Ahora que ya mojaron los pies, profundicemos en el endpoint de búsqueda reciente. Esta poderosa herramienta es su boleto para encontrar tweets específicos de los últimos siete días. Así pueden aprovecharlo al máximo:

Límites de reglas con acceso esencial: la letra pequeña

Antes de comenzar a elaborar consultas inteligentes, conviene conocer las barreras de seguridad. Con el acceso esencial, pueden configurar hasta 5 reglas para recopilar tweets. Cada una de estas reglas puede ser tan detallada como quieran, solo tengan en cuenta que cada regla está limitada a 512 caracteres. Eso significa que necesitarán priorizar su lógica de búsqueda y hacer un uso inteligente de los operadores para que todo encaje.

Si se encuentran chocando con estos límites de reglas o caracteres, puede ser el momento de considerar actualizar su nivel de acceso. ¡Para la mayoría de los principiantes y proyectos casuales, cinco reglas bien planificadas deberían ser más que suficiente para comenzar!

Estructura básica de la consulta

El endpoint de búsqueda reciente se basa en la consulta. Aquí hay una estructura simple:

https://api.x.com/2/tweets/search/recent?query=sus_términos_de_búsqueda_aquí

Por ejemplo, para encontrar tweets sobre gatos:

https://api.x.com/2/tweets/search/recent?query=cats

¿Cuántos tweets pueden obtener por solicitud?

¿Curiosos sobre cuántos datos de Twitter pueden extraer en una sola llamada a la API? Cada solicitud al endpoint de búsqueda reciente les traerá hasta 100 tweets a la vez. Si necesitan más, no se preocupen: solo usen el token de paginación incluido en la respuesta para seguir y recopilar más tweets de los últimos siete días.

Modificando consultas para datos específicos

¿Quieren ponerse elegantes? Prueben estas modificaciones de consulta:

De un usuario específico: from:nombre_de_usuario
Que contenga un hashtag: #hashtag
Tweets con medios: has:images o has:videos
Tweets en un idioma: lang:es (para español)

El arte de refinar consultas: la precisión importa

El asunto es este: refinar sus consultas no es solo algo agradable de tener; es la salsa secreta para recopilar datos de Twitter de alta calidad sin quedar sepultados bajo una montaña de tweets irrelevantes. Cuando empiecen a buscar por primera vez, sus resultados pueden ser un poco desordenados o demasiado amplios. ¡Es normal! Es parte del proceso.

¿Por qué refinar? Porque las consultas específicas significan que recopilarán tweets que realmente importan para su proyecto, en lugar de tamizar ruido interminable. Por ejemplo, si buscan tweets sobre el lenguaje de programación Swift pero no ajustan su búsqueda, podrían quedar atrapados en un tsunami de conversación de fans de Taylor Swift.

Consejos para mantener sus consultas afiladas:

Ajusten sus palabras clave para excluir temas no relacionados.
Usen operadores de búsqueda avanzada (como -taylor si quieren Swift sin la estrella pop).
Exploren sus resultados iniciales y ajusten sus términos de consulta según lo que vean: es un poco como sintonizar una radio a la estación perfecta.
Iteren hasta que su búsqueda les dé exactamente lo que buscan.

Esta atención al detalle es especialmente crucial en la recopilación de datos en tiempo real, cuando podrían perderse los tweets que realmente les interesan si su red es demasiado amplia. ¡Cuiden un poco sus consultas y estarán nadando en los datos correctos en poco tiempo!

Consejos profesionales: elaborando reglas efectivas para tweets relevantes

¿Listos para afinar su juego de recopilación de datos de Twitter? El ingrediente secreto es escribir consultas inteligentes y enfocadas. Aquí les mostramos cómo apuntar exactamente a los tweets que desean, ni más ni menos:

Comiencen específicamente. Comiencen con una consulta estrecha para apuntar a su audiencia con precisión, luego amplíen si no ven suficientes resultados.
Usen filtros a su favor: combinen palabras clave, hashtags, nombres de usuario "from:", tipos de medios y códigos de idioma para excluir el ruido.
Prueben y ajusten. Ejecuten una búsqueda de muestra, revisen los resultados y ajusten su consulta para eliminar los tweets no deseados.
¡Cuidado con las palabras clave ambiguas! Por ejemplo, buscar "Swift" podría capturar publicaciones sobre Taylor Swift cuando en realidad quieren conversación sobre programación. Agreguen contexto con más palabras clave (como "Swift language" o "#iOSDev") para mantenerse en el tema.
¡No lo configuren y lo olviden! A medida que recopilen tweets, sigan refinando sus reglas para mejorar la calidad y la relevancia. La recopilación de datos es un proceso continuo.

Con cada ajuste, se acercan más a construir una mina de oro de datos de Twitter específicos y accionables.

Combinen estos para resultados más precisos:

query=cats from:ASPCA has:images lang:en

Esto encontraría tweets en inglés sobre gatos de @ASPCA que incluyen imágenes.

Paginando a través de los resultados: cómo usar el `next_token`

Digamos que una página de tweets simplemente no es suficiente. La API de Twitter los tiene cubiertos con paginación fácil. Así funciona:

Después de cada llamada a la API, verifiquen la sección meta de la respuesta JSON.
Si hay un campo next_token, eso significa que hay más tweets esperándolos.
Simplemente tomen ese valor de next_token y agréguenlo como parámetro de consulta, como &next_token=su_token_aquí, a su siguiente solicitud.

Repitan: sigan usando el next_token más reciente cada vez, y pasarán página por página de resultado hasta que eventualmente el token desaparezca. ¡Cuando eso suceda, enhorabuena! Han llegado al final de los tweets disponibles para su búsqueda.

Filtrando tweets por rango de fechas: la forma correcta

¿Listos para viajar en el tiempo (al menos hasta donde los archivos de Twitter les permitan)? Si quieren obtener tweets de un rango de fechas específico, hay un pequeño secreto: no incluyan fechas directamente en su cadena de consulta como since: o until:. En cambio, las versiones recientes de la API usan parámetros de URL especiales para manejar el filtrado de tiempo.

Así es como lo hacen:

Usen start_time para establecer la fecha y hora más temprana para los tweets que quieren capturar.
Usen end_time para establecer la fecha y hora más reciente.

Ambas deben estar en formato ISO 8601 (piensen: 2024-01-01T00:00:00Z).

Su URL podría verse así:
https://api.x.com/2/tweets/search/recent?query=cats&start_time=2024-06-01T00:00:00Z&end_time=2024-06-03T00:00:00Z

Esto obtendrá tweets que contengan "cats" desde el 1 de junio de 2024, hasta pero sin incluir el 3 de junio de 2024.

Consejo profesional: Las bibliotecas populares como twitter-api-v2 (para JavaScript) admiten estos parámetros; solo páselos cuando llamen al método de búsqueda relevante.

¡Ahora que saben cómo establecer marcos de tiempo precisos, están mucho más cerca de construir su propia máquina del tiempo de Twitter!

Consejo profesional: obteniendo tweets de usuarios específicos para un rango de fechas

¿Quieren recuperar tweets de IDs de usuario específicos durante una ventana de tiempo personalizada? ¡Es totalmente posible! Aquí les mostramos cómo prepararse y capturar esos tweets como verdaderos manejadores de datos.

Primero, abordemos la regla de oro: cuando se consulta por fecha, el endpoint de búsqueda reciente solo obtiene tweets de los últimos siete días. Si necesitan tweets de más atrás (por ejemplo, todo el período de Covid), necesitarán acceso al archivo completo, que generalmente requiere acceso de investigación académica. No se preocupen: si esa no es una opción, hay recursos alternativos útiles a continuación.

Usando Python y Tweepy para obtenciones simples (solo recientes):

Si su fecha objetivo está dentro de la última semana, Tweepy es su amigo. Aquí está lo que hacen:

Autentíquense con sus claves de API como siempre.
Usen los parámetros start_time y end_time, no palabras clave de búsqueda, cuando quieran filtrar por rango de fechas.
Iteren sobre sus IDs de usuario y hagan solicitudes como esta:

Para el análisis profundo: obtengan tweets más antiguos con herramientas de línea de comandos

Si necesitan tweets históricos (mucho más de 7 días atrás), querrán usar herramientas como Twarc, un favorito académico para extracciones serias de datos:

Guarden sus IDs de usuario, uno por línea, en un archivo de texto, por ejemplo, twitter_ids.txt.
Obtengan cronologías con un marco de tiempo específico.

Si tienen acceso de investigación académica, pueden obtener de todo el archivo. De lo contrario, están limitados a los aproximadamente 3200 tweets más recientes por usuario, independientemente de la fecha.

Opcional: Aplanen los resultados para obtener un tweet por línea:
twarc2 flatten results.jsonl tweets.jsonl

Luego pueden importar tweets.jsonl a su base de datos favorita para análisis.

Consejos para solucionar problemas:

Asegúrense de usar el bearer token correcto; los endpoints académicos requieren acceso específico de la aplicación.
Si encuentran problemas de permisos, verifiquen el tipo de proyecto en el Portal de Desarrolladores de Twitter.
¿Sin acceso académico? Estarán limitados a tweets recientes, pero aún pueden recopilar una muestra sustancial por usuario.

¡Con estos enfoques, estarán listos para capturar tweets de cualquier conjunto de usuarios, para cualquier período de tiempo que su proyecto requiera!

Elaborando reglas de búsqueda avanzadas

¿Listos para subir de nivel sus búsquedas? El endpoint de búsqueda reciente no solo busca palabras clave simples: pueden configurar reglas para capturar exactamente las conversaciones que les interesan.

Digamos que quieren extraer tweets sobre "heat pumps" o "gas boilers", pero omitir todos los retweets y enfocarse solo en tweets en inglés. La API de Twitter hace esto sencillo usando la sintaxis de reglas de consulta. Así pueden definir sus reglas de búsqueda en código:

Cada regla es un mini comando de búsqueda:

Usen OR para capturar diferentes formas en que las personas podrían mencionar un tema.
Excluyan retweets (para evitar duplicados) usando -is:retweet.
Establezcan el idioma, como lang:en para inglés.

Las etiquetas les ayudan a etiquetar y organizar los resultados, facilitando el seguimiento de qué regla capturó qué tweet. Pueden definir hasta cinco reglas con el nivel de acceso esencial, cada una de hasta 512 caracteres, ¡espacio más que suficiente para ser creativos con sus búsquedas!

Usando campos y expansiones

Para obtener respuestas más detalladas, usen campos y expansiones:

Agregar campos de tweet: tweet.fields=created_at,author_id,public_metrics
Incluir datos de usuario: expansions=author_id&user.fields=username,verified

Su URL podría verse así:

https://api.x.com/2/tweets/search/recent?query=cats&tweet.fields=created_at,author_id,public_metrics&expansions=author_id&user.fields=username,verified

Esto les da el tiempo de creación, información del autor y métricas de participación para cada tweet.

Aviso: Necesitarán agregar el parámetro (como se mencionó arriba) para recibir realmente datos de usuario en su respuesta. Cuando lo hagan, la respuesta JSON incluirá una clave adicional llamada "includes", donde encontrarán información relacionada con el usuario, como nombres de usuario, si el autor está verificado y más. Verifiquen su objeto de respuesta y verán que los detalles del usuario están convenientemente separados en esta nueva sección. Esto hace que sea mucho más fácil hacer coincidir los datos de los tweets con la información del usuario, especialmente si trabajan con múltiples autores en una sola solicitud.

Construyendo consultas poderosas con operadores

¡Pero hay más! La verdadera magia está en elaborar la consulta perfecta usando operadores: estos les permiten filtrar tweets con precisión quirúrgica. Los endpoints de búsqueda reciente y de transmisión filtrada les permiten construir reglas usando operadores que coinciden con el texto del tweet, la biografía del usuario, la ubicación y más. Cada endpoint tiene su propio conjunto de operadores disponibles, que pueden cambiar según el nivel de acceso a la API.

Digamos que quieren tweets que mencionen gatos negros, pero no perros, y quieren omitir los retweets. Su consulta se vería así:

¿No están seguros de qué significa todo eso? Aquí está el desglose:

Encuentra tweets que contengan cualquiera de las frases.
Excluye tweets que mencionen "dog" o "dogs".
Excluye retweets para contenido original fresco.

Consejo profesional sobre precedencia de operadores:
AND tiene mayor precedencia que OR, ¡así que usen siempre paréntesis para controlar su lógica! Por ejemplo:

Se interpreta como...
Se convierte en... ¡Cuando tengan dudas, agreguen paréntesis!

Algunos operadores útiles para potenciar sus búsquedas:

Tweets de un usuario específico: from:usuario
Tweets que contienen un hashtag: #hashtag
Tweets con medios: has:images, has:videos
Tweets en inglés: lang:en
Filtrar retweets o respuestas: is:retweet, is:reply

Para obtener una lista completa de operadores, consulten la documentación oficial.

Herramientas adicionales:
Si construir consultas complejas se siente intimidante, prueben la herramienta de construcción de consultas de Twitter para experimentar con filtros visualmente. Para más consejos, hay muchas guías sobre cómo construir filtros de alta calidad para datos de Twitter.

Con estas habilidades de consulta en su caja de herramientas, están listos para cortar y dividir los datos de Twitter como profesionales.

Yendo más lejos: paginación y límites de velocidad

¿Pero qué pasa si quieren capturar más que solo una sola página de tweets? Así pueden convertirse en profesionales:

Paginación con next_token: La API de Twitter devuelve resultados en páginas. Cada respuesta puede incluir un valor next_token en su campo meta. Siempre que vean este token, captúrenlo y agréguenlo a su siguiente solicitud como parámetro de consulta, y obtendrán el siguiente lote de tweets. Repitan hasta que no haya next_token y hayan llegado al final.
Respeten el límite de velocidad: Twitter establece un límite, generalmente 180 solicitudes por 15 minutos para el nivel de acceso esencial. Eso es aproximadamente una solicitud cada cinco segundos. Para jugar limpio y evitar errores, inserten un breve sleep (aproximadamente cinco segundos) entre llamadas si están recorriendo muchas páginas.

Ejemplo: recorriendo múltiples reglas

Si están recopilando tweets basados en varias reglas de búsqueda (piensen: "cats", "dogs", "parrots"), podrían usar una estructura como esta en Python (pseudocódigo para mayor claridad):

¿Qué está pasando aquí?

Se configuran DataFrames de pandas vacíos para almacenar información de tweets y usuarios.
Para cada regla (o tema), actualicen la consulta y la etiqueta, hagan la llamada a la API, procesen los datos y hagan una pausa de cinco segundos.
Si hay un next_token, ¡no han terminado! Sigan paginando hasta que hayan recopilado todos los tweets disponibles para esa regla.
La pausa de cinco segundos entre solicitudes los mantiene dentro de la zona segura de los límites de velocidad de Twitter.

Ahora están listos para cosechar tweets como experimentados manejadores de datos, sin dejar atrás buenos datos ni enfrentarse a la policía de las APIs.

Consejos profesionales: más allá de los conceptos básicos

En el ejemplo anterior, usamos el endpoint de búsqueda reciente para recuperar datos históricos de los últimos 7 días, ¿pero sabían que pueden usarlo para obtener tweets casi en tiempo real? Al aprovechar el parámetro since_id, pueden obtener solo los tweets que son más nuevos que un ID de tweet específico, perfecto para mantener el pulso sobre el nuevo contenido a medida que llega. Consulten la documentación oficial de Twitter para los detalles de este parámetro.

¿Buscan un verdadero flujo en tiempo real? Consideren usar el endpoint de transmisión filtrada. Si bien la búsqueda reciente es excelente para consultas bajo demanda, la transmisión filtrada les permite recopilar tweets continuamente a medida que suceden. Es ideal para monitoreo en vivo, paneles de control o cuando simplemente no pueden perderse ni un solo dato.

Con estas técnicas, no solo buscan en el pasado: están aprovechando el presente.

Solución de problemas de acceso: cuando no pueden buscar todos los tweets

¿Se topan con obstáculos en las búsquedas de tweets históricos? ¡Definitivamente no están solos! Si sus credenciales o nivel de acceso a la API no son suficientes para búsquedas de archivos completos, aquí está lo que pueden hacer:

Verifiquen su nivel de acceso: La mayoría de las claves de API de Twitter para principiantes o "esenciales" solo permiten acceso al endpoint de búsqueda reciente (últimos 7 días) y no admitirán una búsqueda histórica completa. La magia del archivo completo está reservada para cuentas con acceso de investigación académica.
Busquen acceso académico: Para desbloquear /search/all, necesitarán acceso de investigación académica. Esto generalmente está etiquetado como "Investigación académica (solo para uso no comercial)" en su panel de desarrolladores de Twitter. Sin él, estarán limitados a tweets recientes.
Prueben las cronologías de usuarios como alternativa: Si necesitan tweets de más atrás, hasta los últimos ~3200 por usuario, consideren extraer de las cronologías de usuarios. Muchas bibliotecas (como twarc o Python Tweepy) les permiten obtener estos datos, aunque no pueden especificar rangos de fechas arbitrarios más allá de lo que cabe en los últimos tweets.
Verifiquen el Bearer Token de su aplicación: Asegúrense de usar el conjunto correcto de claves, especialmente si tienen múltiples proyectos o aplicaciones de desarrolladores de Twitter conectadas a su cuenta. ¡A veces es solo una confusión de tokens!

¡Así que si las puertas a la historia de los tweets parecen cerradas, no se preocupen! Exploren los endpoints de cronología de usuarios, capturen tanta información como puedan y siempre estén atentos a su nivel de acceso para futuras actualizaciones.

Acceso gratuito y esencial: mirar hacia atrás no es tan simple

Antes de comenzar a planificar esa inmersión profunda en tweets de años anteriores, hay algunos obstáculos que deben conocer. Con la mayoría de las APIs de redes sociales, incluida la de Twitter, el acceso gratuito o esencial viene con un límite de tiempo bastante estricto: generalmente solo pueden recuperar tweets de los últimos siete días usando el endpoint de búsqueda estándar. Eso significa que si esperan rebobinar unos meses, o años, chocarán con una pared a menos que hayan asegurado permisos académicos o elevados, que ahora requieren superar obstáculos adicionales (y, en muchos casos, no están disponibles en absoluto).

Recursos alternativos y conjuntos de datos

Si necesitan tweets más antiguos, no se desesperen: todavía hay algunas formas inteligentes de obtener esos datos:

Conjuntos de datos precolectados: Organizaciones como DocNow curan conjuntos de datos de tweets públicos que pueden descargar y analizar. Esta es una opción popular para investigadores que necesitan datos históricos pero no quieren lidiar con restricciones de acceso.
Herramientas de hidratación: Herramientas como twarc les permiten "hidratar" (es decir, obtener objetos de tweet completos) usando listas de IDs de tweet de estos archivos públicos. Ustedes suministran los IDs y twarc extrae el texto y los metadatos a través de la API, dentro de los límites de lo que permite su nivel de acceso.

Mejoras de línea de comandos

Si bien no podrán rastrear tweets del pasado distante a través de los endpoints de búsqueda estándar, todavía pueden:

Recuperar hasta los últimos 3200 tweets de cronologías individuales de usuarios.
Aplicar filtros como rangos de fechas (donde lo soporten las herramientas), pero tengan en cuenta que no desbloquean contenido más antiguo, solo ayudan a tamizar lo que pueden acceder.

Aviso sobre los niveles de acceso

Si intentan llegar más lejos o usar el endpoint /search/all sin las credenciales académicas adecuadas, esperan ver errores que les digan que no están autorizados. Solo los usuarios con proyectos académicos aprobados tienen esta capacidad, y ese programa no acepta muchos nuevos solicitantes.

En resumen:
A menos que tengan acceso académico, piensen en los datos de la API más como un espejo retrovisor que una máquina del tiempo. Para investigaciones históricas profundas, los conjuntos de datos públicos y las herramientas de hidratación son sus mejores amigos. Para todo lo demás, establezcan sus expectativas (y scripts) solo para la historia reciente.

¡Ahora están preparados para sacar el máximo provecho del endpoint de búsqueda reciente y saben dónde están los límites cuando su curiosidad viaja al pasado!

Errores comunes al recuperar tweets históricos y cómo solucionarlos

Al igual que armar esa estantería de Ikea con una pieza misteriosa de sobra, obtener tweets históricos puede traer sus propios rompecabezas. Aquí hay algunos problemas comunes y qué pueden hacer al respecto:

1. Alcanzar el límite de búsqueda de siete días

Sin acceso académico, la mayoría de las APIs (incluida la oferta estándar de Twitter) solo les permiten buscar tweets de los últimos siete días. ¿Intentan ir más atrás? Probablemente choquen con un muro de "sin resultados" o reciban un mensaje de error vago. Si necesitan datos más antiguos, consideren usar conjuntos de datos curados de recursos como DocNow Catalog e "hidratar" los IDs de tweet (eso es solo obtener la información completa del tweet usando las herramientas disponibles).

2. Sintaxis de consulta incorrecta

Es tentador lanzar since: o until: directamente en su cadena de búsqueda, pero la forma correcta es usar start_time y end_time como parámetros, no en la cadena de consulta. Algunas herramientas esperan estos como opciones dedicadas, así que verifiquen la documentación si su búsqueda no arroja resultados.

3. Confusión de autenticación

Muchos errores, como "Error del cliente" o "No autorizado", ocurren debido a Bearer Tokens incorrectos o faltantes. Asegúrense de usar el token exacto asociado con el nivel de acceso correcto. Para los endpoints de acceso académico, solo las credenciales especiales vinculadas a un proyecto de investigación académica serán válidas.

4. Desajuste entre endpoint de API y nivel de acceso

Si están usando endpoints bloqueados detrás de niveles de acceso más altos (por ejemplo, /search/all), pero solo tienen acceso estándar o esencial, serán rechazados. Verifiquen qué endpoints cubre su acceso. Con el acceso esencial, por ejemplo, están limitados a una parte de la historia reciente (a menudo los últimos 3200 tweets por usuario).

5. Problemas comunes con bibliotecas y herramientas

Si están usando herramientas como Twarc u otras bibliotecas de código abierto:

Verifiquen que sus opciones de línea de comandos coincidan con su nivel de acceso
Para cronologías masivas, omitan los indicadores avanzados como --use-search a menos que tengan credenciales académicas
Usen la función flatten para dividir las respuestas de múltiples tweets en tweets individuales, que pueden importarse fácilmente a otro lugar (directamente a su MongoDB, para quienes tienen objetivos serios de recopilación)

Lista de verificación rápida para solucionar problemas

Asegúrense de que sus claves de autenticación sean correctas y válidas para el endpoint deseado
Verifiquen dos veces sus parámetros de consulta para errores tipográficos o mal posicionamiento
Para más datos, consideren combinar conjuntos de datos públicos con herramientas que les permitan hidratar IDs de tweet
Cuando todo lo demás falle, consulten la documentación o prueben el código de muestra de los tutoriales de los mantenedores de la biblioteca

Con estos consejos, sortearán los obstáculos más comunes y mantendrán su pipeline de datos fluyendo sin problemas.

Profundizando en tweets históricos: métodos alternativos cuando el acceso está restringido

¿Qué pasa si están buscando archivos de tweets pero sus endpoints habituales ponen obstáculos? No se preocupen: exploremos sus opciones para recopilar datos históricos de Twitter cuando los permisos de la API no cooperan.

Conjuntos de datos precolectados: el atajo que necesitan

Si quieren comenzar rápidamente, los conjuntos de datos curados son su amigo. Sitios web como DocNow Catalog (https://catalog.docnow.io/) ofrecen colecciones de IDs de tweet sobre una amplia variedad de temas, desde eventos importantes hasta memes y todo lo demás. Si bien estos conjuntos de datos no incluyen el contenido completo del tweet, pueden usar un proceso llamado "hidratación" (piénsenlo como agregar agua de vuelta a la sopa deshidratada, excepto con tweets y metadatos) para restaurar esos IDs de tweet a su esplendor completo, siempre que los tweets aún estén en vivo.

Hidratando tweets: el enfoque de la herramienta potente

Para hidratar IDs de tweet, necesitarán una herramienta de terceros. Twarc es un favorito de la comunidad para el público de la línea de comandos. Una vez instalado, simplemente apúntenlo a su lista de IDs de tweet y déjenlo obtener tanta información como su acceso actual a la API permita. Incluso si están bloqueados de los endpoints "académicos", la mayoría de las herramientas de hidratación seguirán funcionando, solo al límite de velocidad disponible para ustedes.

Comenzando con Twarc (y similares)

Si son nuevos en todo esto, no se preocupen. Hay muchos tutoriales para principiantes que los guían a través de la instalación y el uso de herramientas como Twarc. Los tutoriales en video y las guías escritas cubren todo, desde la configuración básica hasta el filtrado avanzado. Es una excelente manera de ponerse manos a la obra con datos históricos mientras perfeccionan sus habilidades de línea de comandos al mismo tiempo.

Armados con estas estrategias, pueden mantener su investigación de Twitter avanzando, incluso cuando las puertas habituales están cerradas. Solo recuerden: los datos de tweets hidratados solo incluirán tweets que sean públicos, por lo que podrían encontrar alguna publicación ocasionalmente faltante.

Paginando a través de tweets: cómo funciona la paginación

Aquí hay una verificación rápida de la realidad: Twitter no les enviará todos los tweets en una sola avalancha. En cambio, los resultados llegan en "páginas" manejables y convenientes, con los tweets más recientes siempre llegando primero. ¿Pero qué pasa si quieren profundizar más y ver más que solo ese primer lote?

Conozcan los tokens de paginación: su clave para hojear el resto de los resultados. Después de cada llamada a la API, recibirán una respuesta que puede incluir un next_token en la sección "meta". Este token actúa como un marcador, diciéndole a Twitter dónde lo dejaron.

¿Cómo se ve esto en acción?

Hagan su solicitud inicial al endpoint.
Si la respuesta incluye un next_token, agréguenlo como parámetro a su siguiente solicitud.
Repitan: con cada nueva respuesta, sigan captando el next_token y usándolo para su siguiente llamada.
Deténganse cuando el next_token desaparezca: ¡enhorabuena, han llegado al final de los resultados disponibles!

Consejo: Para ser un buen ciudadano de la API (y no ser limitados en velocidad), es inteligente agregar una breve pausa, como un sleep de cinco segundos, entre solicitudes.

Y ahí lo tienen: desplazamiento paginado a través de la historia de los tweets, todo con algunos ajustes a su URL de solicitud y un ojo atento a esos tokens.

Consejos profesionales para la recopilación de tweets en tiempo real

Unas palabras de sabiduría antes de ir a toda velocidad con la obtención de tweets en tiempo real: ¡no todos los tweets son iguales ni están accesibles! El endpoint de búsqueda reciente solo devuelve tweets disponibles públicamente, así que no esperen canalizar a su espía interior y descubrir mensajes privados.

Para evitar ahogarse en datos irrelevantes o perderse tweets que importan, mantengan sus reglas de consulta lo más claras y específicas posibles. Aquí hay un flujo de trabajo para ayudarlos a lograrlo:

Elaboren sus consultas con cuidado: piensen en enfoque láser en lugar de red de pesca.
Ejecuten sus búsquedas iniciales y revisen los resultados.
Ajusten y afinen sus consultas según lo que encuentren.
Repitan hasta que estén viendo los tweets que más importan.

Y un consejo rápido para todos los fanáticos de la programación: si están rastreando tweets sobre el lenguaje de programación Swift, hagan que sus consultas sean lo suficientemente inteligentes como para saltarse la charla sobre Taylor Swift. ¡El diablo está en los detalles y en los hashtags!

Este enfoque reflexivo significa que recopilarán los tweets correctos sin perder joyas en un diluvio de ruido.

Desbloqueando tweets en tiempo real con `since_id`

¿Curiosos sobre cómo mantener sus resultados de búsqueda frescos? Ahí es donde entra el parámetro since_id. Al agregar since_id a su solicitud, le dicen al endpoint de búsqueda reciente: "Solo muéstrenme tweets más nuevos que este ID de tweet específico." Esto es perfecto para consultar Twitter para las últimas actualizaciones sin quedarse inundados con repeticiones. Solo guarden el ID del tweet más reciente de su último lote y úsenlo en su siguiente consulta: ¡voilá, están obteniendo solo contenido completamente nuevo!

¿Listos para subir de nivel? Consulten la documentación oficial de Twitter para todos los detalles sobre since_id y otros parámetros avanzados.

Pero hay más: el mundo de los endpoints de la API de Twitter

Si bien el endpoint de búsqueda reciente es un favorito de los fanáticos, la API de Twitter es una vasta metrópolis de endpoints, cada uno ofreciendo formas únicas de recopilar datos o actuar sobre ellos. Ya sean científicos de datos, desarrolladores o simplemente peligrosamente curiosos, conviene saber qué hay disponible.

Algunos endpoints les permiten recopilar datos: piensen en tweets, perfiles de usuarios o volúmenes de tweets. Otros les permiten tomar acciones: publicar o eliminar tweets, dar "me gusta" y quitar "me gusta", o seguir y dejar de seguir cuentas. Todos estos endpoints están representados por diferentes URLs, y cada uno viene con sus propias reglas sobre límites de velocidad y niveles de acceso.

Vayan a su Portal de Desarrolladores y busquen en Twitter API v2 para obtener el resumen completo. Allí encontrarán un buffet de endpoints con enlaces útiles a documentación, información sobre límites de velocidad y atributos especiales (como la longitud máxima de la consulta). Muchos endpoints están disponibles en todos los niveles de acceso, pero los límites de velocidad (cuántos datos pueden extraer en un tiempo determinado) variarán según su nivel.

Para los interesados en datos, presten especial atención a endpoints como:

Búsqueda reciente: obtengan tweets de los últimos 7 días.
Transmisión filtrada: monitoreen tweets en tiempo real a medida que se publican.
Cronología de tweets de usuario: capturen tweets recientes de un usuario específico.
Búsqueda de usuario: obtengan información de perfil de usuario de forma masiva.

Siempre pueden consultar el mapa de ruta oficial de la API para ver qué endpoints están en desarrollo y cuándo podrán probarlos.

Próximos pasos: su viaje con la API de Twitter continúa

¡Enhorabuena! Ahora están equipados para obtener y filtrar tweets como profesionales. ¿Pero por qué detenerse aquí? Veamos a dónde ir a continuación:

Explorar más endpoints
- Prueben el endpoint de transmisión filtrada para el monitoreo de tweets en tiempo real
- Usen el endpoint de cronología de tweets de usuario para obtener los tweets recientes de un usuario
Consulten el mapa de ruta de la API de Twitter
- Visiten el mapa de ruta oficial de la API de Twitter para ver qué funciones emocionantes vienen
- Manténganse adelante preparándose para los próximos endpoints y características
Recursos para seguir aprendiendo
- Profundicen en la documentación de la API de Twitter para información detallada
- Únanse a la Comunidad de Desarrolladores de Twitter para conectarse con otros desarrolladores
- Vean tutoriales en video en el canal de YouTube de Desarrolladores de Twitter

Recuerden, el mundo de los datos de Twitter es vasto y siempre cambiante. Sigan experimentando, permanezcan curiosos y no tengan miedo de probar cosas nuevas. ¡Quién sabe! Su próximo gran proyecto o investigación innovadora podría estar a solo una consulta de distancia.

Conclusión

¡Y ahí lo tienen! Ahora están equipados para adentrarse en la API de Twitter y comenzar a obtener tweets como profesionales. Desde configurar su cuenta de desarrollador hasta elaborar la consulta perfecta, ya tienen los conceptos básicos. Recuerden, esto es solo el comienzo de su viaje con la API de Twitter. Sigan explorando, experimentando y llevando al límite lo que pueden hacer con esta poderosa herramienta. Ya sea que estén construyendo la próxima gran aplicación de redes sociales o realizando investigaciones innovadoras, la API de Twitter es su ostra. ¡Así que adelante, programen sin miedo y que sus tweets siempre sean abundantes!

Cómo obtener tweets con la API de Twitter | Guía paso a paso

Configurar la API de Twitter para obtener tweets: guía para principiantes

Explorando los niveles de acceso a la API de Twitter v2

Por qué importan los datos de Twitter

Empecemos: la API de Twitter v2 en pocas palabras

Obteniendo acceso a la API de Twitter: la configuración

Paso 1: Convertirse en desarrollador de Twitter

Paso 2: Crear su proyecto de Twitter

Paso 3: Conectar una aplicación

Paso 4: Asegurar sus claves al reino de Twitter

Obteniendo sus primeros tweets: ¡hagamos sonar esa API!

Parada rápida: entendiendo los límites de velocidad

Opción 1: El héroe de la línea de comandos (cURL)

Extra: aplanando y procesando datos como un profesional

Opción 2: Potencia de Python

Configurando el script

Definiendo su búsqueda de tweets

Enviando la solicitud

Ajústenlo a su gusto

Modo avanzado: recorriendo múltiples reglas con Python

Manejando errores de la API como un profesional

Opción 3: La vía GUI (Qodex)

Solución de problemas para la recuperación de tweets en investigación académica

1. Acceso limitado a los archivos de tweets

2. Parámetros de consulta confusos

3. Problemas de autenticación

4. Manejo de límites de velocidad y volumen de datos

5. Importación y manejo de datos

Consejos rápidos para una caza de datos feliz:

Ronda adicional: recopilación avanzada de tweets con Twarc

Paso 1: Instalación y configuración

Paso 2: Preparar su lista de IDs de usuario

Paso 3: Obtener tweets para un rango de fechas

Paso 4: Aplanar los datos

Paso 5: Opcional: importar a una base de datos

Extra: almacenando tweets en MongoDB para análisis de nivel avanzado

Dominando el endpoint de búsqueda reciente: su puerta de entrada a los datos de Twitter

Límites de reglas con acceso esencial: la letra pequeña

Estructura básica de la consulta

¿Cuántos tweets pueden obtener por solicitud?

Modificando consultas para datos específicos

El arte de refinar consultas: la precisión importa

Consejos profesionales: elaborando reglas efectivas para tweets relevantes

Combinen estos para resultados más precisos:

Paginando a través de los resultados: cómo usar el next_token

Filtrando tweets por rango de fechas: la forma correcta

Consejo profesional: obteniendo tweets de usuarios específicos para un rango de fechas

Usando Python y Tweepy para obtenciones simples (solo recientes):

Para el análisis profundo: obtengan tweets más antiguos con herramientas de línea de comandos

Elaborando reglas de búsqueda avanzadas

Usando campos y expansiones

Construyendo consultas poderosas con operadores

Yendo más lejos: paginación y límites de velocidad

Ejemplo: recorriendo múltiples reglas

Consejos profesionales: más allá de los conceptos básicos

Solución de problemas de acceso: cuando no pueden buscar todos los tweets

Acceso gratuito y esencial: mirar hacia atrás no es tan simple

Recursos alternativos y conjuntos de datos

Mejoras de línea de comandos

Aviso sobre los niveles de acceso

Errores comunes al recuperar tweets históricos y cómo solucionarlos

Lista de verificación rápida para solucionar problemas

Profundizando en tweets históricos: métodos alternativos cuando el acceso está restringido

Conjuntos de datos precolectados: el atajo que necesitan

Hidratando tweets: el enfoque de la herramienta potente

Comenzando con Twarc (y similares)

Paginando a través de tweets: cómo funciona la paginación

Consejos profesionales para la recopilación de tweets en tiempo real

Desbloqueando tweets en tiempo real con since_id

Pero hay más: el mundo de los endpoints de la API de Twitter

Próximos pasos: su viaje con la API de Twitter continúa

Conclusión

Ship continuously. Test continuously.

Related Blogs

Related Tools

API Key Generator

Paginando a través de los resultados: cómo usar el `next_token`

Desbloqueando tweets en tiempo real con `since_id`