데이터 읽기
CSV 파일
Parquet 파일
JSON 파일
Excel 파일
SQL 데이터베이스
기타 포맷
데이터 쓰기
to_csv
to_parquet
to_json
to_excel
to_sql
기타 내보내기 방법
파일 포맷 비교
| 포맷 | 읽기 속도 | 쓰기 속도 | 파일 크기 | 스키마 | 가장 적합한 용도 |
|---|---|---|---|---|---|
| Parquet | 빠름 | 빠름 | 작음 | 있음 | 대규모 데이터셋, 분석 |
| CSV | 보통 | 빠름 | 큼 | 없음 | 호환성, 단순한 데이터 |
| JSON | 느림 | 보통 | 큼 | 부분 지원 | API, 중첩 데이터 |
| Excel | 느림 | 느림 | 보통 | 부분 지원 | 비기술 사용자와 공유 |
| Feather | 매우 빠름 | 매우 빠름 | 보통 | 있음 | 프로세스 간 데이터 교환, pandas |
권장 사항
-
분석 워크로드용: Parquet를 사용합니다
- 컬럼형 포맷이므로 필요한 컬럼만 읽을 수 있습니다
- 압축 효율이 뛰어납니다
- 데이터 타입이 유지됩니다
-
데이터 교환용: CSV 또는 JSON을 사용합니다
- 범용 호환성이 높습니다
- 사람이 읽기 쉽습니다
-
pandas 상호 운용용: Feather 또는 Arrow를 사용합니다
- 직렬화가 가장 빠릅니다
- 타입이 유지됩니다
압축 지원
압축 파일 읽기
압축 파일 쓰기
압축 옵션
| 압축 | 속도 | 압축률 | 사용 사례 |
|---|---|---|---|
snappy | 매우 빠름 | 낮음 | Parquet 기본값 |
lz4 | 매우 빠름 | 낮음 | 속도 우선 |
gzip | 보통 | 높음 | 호환성 |
zstd | 빠름 | 매우 높음 | 가장 뛰어난 균형 |
bz2 | 느림 | 매우 높음 | 최대 압축 |