Los siguientes comandos se ejecutaron en una instancia de Production de ClickHouse Cloud. También puedes ejecutarlos fácilmente en una instalación local.
- Veamos qué aspecto tienen los datos:
- Ahora veamos algunas filas:
url puede leer fácilmente datos de un archivo CSV:
- Ahora crearemos una tabla, ya que sabemos qué aspecto tienen los datos:
- El siguiente comando inserta el conjunto de datos completo en la tabla
covid19:
- Va bastante rápido: veamos cuántas filas se insertaron:
- Veamos cuántos casos totales de COVID-19 se registraron:
- Notarás que los datos tienen muchos 0’s en algunas fechas, ya sea por los fines de semana o por días en los que no se informaban cifras a diario. Podemos usar una función de ventana para suavizar los promedios diarios de casos nuevos:
- Esta consulta determina los valores más recientes de cada ubicación. No podemos usar
max(date)porque no todos los países reportaron todos los días, así que obtenemos la última fila conROW_NUMBER:
- Podemos usar
lagInFramepara calcular elLAGde los nuevos casos de cada día. En esta consulta filtramos por la ubicaciónUS_DC:
- Esta consulta calcula el porcentaje de variación diaria de los casos nuevos e incluye una columna simple de
increaseodecreaseen el conjunto de resultados:
Como se menciona en el repositorio de GitHub, el conjunto de datos dejó de actualizarse el 15 de septiembre de 2022.