본문 바로가기
Database

[Database] 빅데이터 기초 지식 (2) 데이터 웨어하우스와 데이터 마트

by keemchanniee 2025. 7. 22.

 

| 데이터 웨어하우스를 구축하는 프로세스 

 

복잡한 업무 시스템에서 나오는 다양한 데이터를 모아서 가공하고 분석용으로 정리해서 저장하는 과정을 파이프라인으로 나타내면 위와 같다. 

 

용어 정리

데이터 소스 업무 시스템을 위한 RDB나 로그 등을 저장하는 파일 서버
로우 데이터 (raw data) 데이터 소스에 보존된 원시 데이터 
ETL 데이터를 꺼내고, 정리해서, 저장소에 넣는 과정
데이터 웨어하우스 정제된 데이터를 모아두는 분석 전용 저장소
데이터 마트 마케팅/영업처럼 부서별로 특화된 작은 창고

 

데이터 웨어하우스는 업무에 있어서 중요한 데이터 처리에 사용되기 때문에 과부하를 초래하면 안된다! 따라서, 데이터 분석과 같은 목적에 사용하는 경우에는 필요한 데이터만을 추출하여 데이터 마트(data mart)를 구축한다. 

 

 

데이터 마트

- SQL로 데이터 집계

- 테이블 설계를 제대로 정한 후 데이터 투입

- BI 툴 사용하는 경우 미리 시각화에 적합한 형태로 테이블 준비

 

데이터 레이크

데이터를 원래의 형태 그대로 축적하는 장소

 

 

- 모든 데이터가 데이터 웨어하우스를 가정해 만들어지지 않기 때문에, 모든 데이터를 원래의 형태로 축적해두고 나중에 그것을 필요에 따라 가공할 수 있게 한다. 

- 임의의 데이터를 저장할 수 있는 분산 스토리지가 데이터 레이크로 사용된다.

- 형식은 자유이나 대부분 CSV나 JSON 등 범용적인 텍스트 형식이 사용된다. 

 

 

데이터 레이크와 데이터 마트

데이터 레이크는 단순한 스토리지이며, 분석에 필요한 데이터를 가공/집계해 데이터 마트로 추출한다. 이후 데이터 웨어하우스의 경우처럼 분석을 진행할 수 있다.

데이터 레이크 가공되지 않은 원시(raw) 데이터를 저장하는 공간
데이터 웨어하우스 정제된 구조화 데이터만 저장하는 분석용 창고
데이터 마트 특정 부서/주제별로 만든 소규모 웨어하우스