GHCN-Daily es un conjunto de datos que contiene observaciones diarias de zonas terrestres de todo el mundo. Incluye mediciones de estaciones terrestres de todo el planeta, aproximadamente dos tercios de las cuales corresponden únicamente a mediciones de precipitación (Menne et al., 2012). GHCN-Daily es una recopilación de registros climáticos de numerosas fuentes que se fusionaron y se sometieron a un conjunto común de revisiones de control de calidad (Durre et al., 2010). El archivo incluye los siguientes elementos meteorológicos:
- Temperatura máxima diaria
- Temperatura mínima diaria
- Temperatura en el momento de la observación
- Precipitación (es decir, lluvia, nieve derretida)
- Caída de nieve
- Espesor de la nieve
- Otros elementos, cuando están disponibles
Descarga de los datos
- Una versión ya preparada de los datos para ClickHouse, que ha sido depurada, reestructurada y enriquecida. Estos datos abarcan de 1900 a 2022.
- Descargue los datos originales y conviértalos al formato requerido por ClickHouse. Los usuarios que deseen añadir sus propias columnas pueden preferir este enfoque.
Datos preparados previamente
Datos originales
Descarga
Muestreo de datos
- Un código de identificación de estación de 11 caracteres. Este código contiene en sí mismo información útil.
- YEAR/MONTH/DAY = fecha de 8 caracteres en formato YYYYMMDD (p. ej., 19860529 = 29 de mayo de 1986)
- ELEMENT = indicador de 4 caracteres del tipo de elemento. En la práctica, es el tipo de medición. Aunque hay muchas mediciones disponibles, seleccionamos las siguientes:
- PRCP - Precipitación (décimas de mm)
- SNOW - Nevada (mm)
- SNWD - Espesor de nieve (mm)
- TMAX - Temperatura máxima (décimas de grado C)
- TAVG - Temperatura media (décimas de grado C)
- TMIN - Temperatura mínima (décimas de grado C)
- PSUN - Porcentaje diario de insolación posible (porcentaje)
- AWND - Velocidad media diaria del viento (décimas de metros por segundo)
- WSFG - Velocidad máxima de ráfaga de viento (décimas de metros por segundo)
- WT** = Tipo de tiempo, donde ** define el tipo de tiempo. La lista completa de tipos de tiempo está aquí.
- DATA VALUE = valor de datos de 5 caracteres para ELEMENT; es decir, el valor de la medición.
- M-FLAG = indicador de medición de 1 carácter. Tiene 10 valores posibles. Algunos de estos valores indican que la precisión de los datos es cuestionable. Aceptamos datos donde este está establecido en “P” — identificado como ausente y presumiblemente cero —, ya que esto solo es relevante para las mediciones PRCP, SNOW y SNWD.
- Q-FLAG es el indicador de calidad de la medición con 14 valores posibles. Solo nos interesan los datos con un valor vacío; es decir, que no fallaron ninguna comprobación de aseguramiento de la calidad.
- S-FLAG es el indicador de origen de la observación. No es útil para nuestro análisis y se ignora.
- OBS-TIME = hora de observación de 4 caracteres en formato hora-minuto (es decir, 0700 = 7:00 a. m.). Normalmente no está presente en los datos más antiguos. Lo ignoramos para nuestros fines.
qFlag es igual a una cadena vacía.
Limpiar los datos
Reestructurar los datos
GROUP BY, podemos reestructurar nuestros datos para que adopten esta estructura. Para limitar la sobrecarga de memoria, lo hacemos archivo por archivo.
noaa.csv.
Enriquecimiento de los datos
noaa_enriched.parquet.
Crear una tabla
Insertar en ClickHouse
Insertar desde un archivo local
<path> representa la ruta completa del archivo local en disco.
Consulta aquí cómo acelerar esta carga.