GHCN-Daily — это набор данных, содержащий ежедневные наблюдения по всей суше земного шара. Он включает измерения с наземных станций по всему миру, причем около двух третей из них относятся только к осадкам (Menne et al., 2012). GHCN-Daily представляет собой свод климатических записей из многочисленных источников, которые были объединены и подвергнуты единому набору проверок качества (Durre et al., 2010). Архив включает следующие метеорологические показатели:
- Ежедневная максимальная температура
- Ежедневная минимальная температура
- Температура на момент наблюдения
- Осадки (т. е. дождь, растаявший снег)
- Снегопад
- Глубина снежного покрова
- Другие показатели, где доступны
Загрузка данных
- Заранее подготовленная версия данных для ClickHouse, очищенная, реструктурированная и обогащённая. Эти данные охватывают период с 1900 по 2022 год.
- Скачать исходные данные и преобразовать их в формат, необходимый для ClickHouse. Пользователи, которые хотят добавить собственные столбцы, могут выбрать этот подход.
Заранее подготовленные данные
Исходные данные
Скачивание
Сэмплирование данных
- 11-символьный идентификационный код станции. В нём закодирована некоторая полезная информация
- YEAR/MONTH/DAY = 8-символьная дата в формате YYYYMMDD (например, 19860529 = 29 мая 1986 г.)
- ELEMENT = 4-символьный индикатор типа элемента. По сути, это тип измерения. Хотя доступно множество измерений, мы выбираем следующие:
- PRCP - Осадки (десятые доли мм)
- SNOW - Снегопад (мм)
- SNWD - Глубина снежного покрова (мм)
- TMAX - Максимальная температура (десятые доли градуса C)
- TAVG - Средняя температура (десятые доли градуса C)
- TMIN - Минимальная температура (десятые доли градуса C)
- PSUN - Доля возможного солнечного сияния за день (проценты)
- AWND - Средняя скорость ветра за день (десятые доли метра в секунду)
- WSFG - Максимальная скорость порыва ветра (десятые доли метра в секунду)
- WT** = Тип погоды, где ** задаёт тип погоды. Полный список типов погоды приведён здесь.
- DATA VALUE = 5-символьное значение данных для ELEMENT, то есть значение измерения.
- M-FLAG = 1-символьный флаг измерения. У него 10 возможных значений. Некоторые из них указывают на сомнительную точность данных. Мы принимаем данные, где указано значение “P” — отсутствие данных, предположительно равное нулю, так как это относится только к измерениям PRCP, SNOW и SNWD.
- Q-FLAG — это флаг качества измерения с 14 возможными значениями. Нас интересуют только данные с пустым значением, то есть те, которые не не прошли ни одну из проверок контроля качества.
- S-FLAG — это флаг источника наблюдения. Для нашего анализа он не представляет ценности и игнорируется.
- OBS-TIME = 4-символьное время наблюдения в формате часы-минуты (то есть 0700 = 7:00 утра). Обычно отсутствует в старых данных. Для наших целей мы его игнорируем.
qFlag равен пустой строке.
Очистка данных
Преобразование данных
GROUP BY, мы можем заново привести данные к такой структуре. Чтобы ограничить расход памяти, мы обрабатываем по одному файлу за раз.
noaa.csv размером 50 ГБ.
Обогащение данных
noaa_enriched.parquet размером 6,4 ГБ.
Создание таблицы
Вставка данных в ClickHouse
Вставка из локального файла
<path> — это полный путь к локальному файлу на диске.
О том, как ускорить эту загрузку, см. здесь.