| 데이터 웨어하우스를 구축하는 프로세스

복잡한 업무 시스템에서 나오는 다양한 데이터를 모아서 가공하고 분석용으로 정리해서 저장하는 과정을 파이프라인으로 나타내면 위와 같다.
용어 정리
| 데이터 소스 | 업무 시스템을 위한 RDB나 로그 등을 저장하는 파일 서버 |
| 로우 데이터 (raw data) | 데이터 소스에 보존된 원시 데이터 |
| ETL | 데이터를 꺼내고, 정리해서, 저장소에 넣는 과정 |
| 데이터 웨어하우스 | 정제된 데이터를 모아두는 분석 전용 저장소 |
| 데이터 마트 | 마케팅/영업처럼 부서별로 특화된 작은 창고 |
데이터 웨어하우스는 업무에 있어서 중요한 데이터 처리에 사용되기 때문에 과부하를 초래하면 안된다! 따라서, 데이터 분석과 같은 목적에 사용하는 경우에는 필요한 데이터만을 추출하여 데이터 마트(data mart)를 구축한다.
데이터 마트
- SQL로 데이터 집계
- 테이블 설계를 제대로 정한 후 데이터 투입
- BI 툴 사용하는 경우 미리 시각화에 적합한 형태로 테이블 준비
데이터 레이크
데이터를 원래의 형태 그대로 축적하는 장소


- 모든 데이터가 데이터 웨어하우스를 가정해 만들어지지 않기 때문에, 모든 데이터를 원래의 형태로 축적해두고 나중에 그것을 필요에 따라 가공할 수 있게 한다.
- 임의의 데이터를 저장할 수 있는 분산 스토리지가 데이터 레이크로 사용된다.
- 형식은 자유이나 대부분 CSV나 JSON 등 범용적인 텍스트 형식이 사용된다.
데이터 레이크와 데이터 마트
데이터 레이크는 단순한 스토리지이며, 분석에 필요한 데이터를 가공/집계해 데이터 마트로 추출한다. 이후 데이터 웨어하우스의 경우처럼 분석을 진행할 수 있다.
| 데이터 레이크 | 가공되지 않은 원시(raw) 데이터를 저장하는 공간 |
| 데이터 웨어하우스 | 정제된 구조화 데이터만 저장하는 분석용 창고 |
| 데이터 마트 | 특정 부서/주제별로 만든 소규모 웨어하우스 |
'Database' 카테고리의 다른 글
| [Database] 빅데이터의 탐색 (2) 열 지향 스토리지 (3) | 2025.07.22 |
|---|---|
| [Database] 빅데이터의 탐색 (1) 크로스 집계 (0) | 2025.07.22 |
| [Database] 빅데이터 기초 지식 (1) 데이터 처리 흐름 (3) | 2025.07.21 |
| [Database] 관계형 데이터 모델 (2) | 2025.07.21 |
| [Database] 데이터베이스의 개념 (0) | 2025.07.21 |