전체 글24 [Database] 분산 처리 프레임워크 (1) 구조화 데이터 vs 비구조화 데이터 다수의 컴퓨터에 데이터 처리를 분산하기 위해서는 그 실행을 관리하기 위한 프레임워크가 필요하다. 분산 처리 시스템에 대해 이해하기 위해서는 먼저 우리가 다루는 데이터의 형태와 특성을 이해할 필요가 있다. 먼저 구조화 데이터와 비구조화 데이터에 대해 알아보자. | 구조화 데이터와 비구조화 데이터구조화된 데이터와 비구조화 데이터구조화된 데이터테이블의 칼럼명과 타입, 테이블 간 관게 등을 스키마로 명확하게 정의 비구조화된 데이터스키마가 없는 텍스트, 이미지, 동영상 등의 데이터 SQL로 데이터를 집계한다고 생각해보자. 기존의 데이터 웨어하우스에서 데이터는 항상 구조화된 데이터로 축적하는 것이 일반적이었다. 하지만 빅데이터에서는 스키마가 없는 비구조화 데이터가 있고, 이 상태로는 SQL로 제대로 집계하기 어.. 2025. 7. 28. [Database] 빅데이터 시대에 '열 기반 데이터베이스'가 중요한 이유는 무엇일까? | 빅데이터 시대에 왜 데이터웨어하우스만으로는 부족했을까?빅데이터 시대에 왜 데이터웨어하우스만으로는 부족한지를 제대로 이해하기 위해서는, 데이터 웨어하우스의 구조에 대한 이해가 선행되어야 한다. 데이터웨어하우스는 전통적인 관계형 데이터베이스처럼 테이블 기반의 정형화된 데이터 저장소와 가까운 성격을 가지고 있다. 관계형 데이터베이스데이터를 행(row)과 열(column)으로 구성된 테이블 형태로 저장하고, 관계(relation)를 통해 여러 테이블을 연결하는 데이터베이스 모델이다. 관계형 데이터베이스의 핵심1데이터 구조가 테이블 기반이다- 테이블 : 하나의 개체- 행 : 하나의 레코드- 열 : 하나의 속성 2스키마 기반의 구조- 데이터 저장 전 엄격한 스키마(scheman)에 대한 정의가 필요하다. (데.. 2025. 7. 25. [Database] 데이터 마트의 기본 구조 | OLAP BI 도구에서 대화형으로 데이터를 참고하려고 하면, 시각화에 필요한 정보만을 모은 데이터 마트가 필수적이다. 핵심적인 개념 중 하나로 OLAP(online analytical processing) 이라는 구조가 있다. 다차원 모델과 OLAP 큐브OLAP는 데이터 집계를 효율화하는 접근 방법 중 하나로, '다차원 모델;의 데이터 구조를 MDX(multidimensional expressions) 등의 쿼리 언어로 집계한다. - 데이터 분석을 위해 만들어진 다차원 데이터를 OLAP 큐브라고 부르며, 그것을 크로스 집계하는 구조가 OLAP이다. MPP 데이터베이스와 비정규화 테이블 최근 MPP 데이터베이스와 인메모리 데이터베이스 등의 보급으로 사전에 OLAP를 계산하는 것이 아니라, BI 도.. 2025. 7. 22. [Database] 빅데이터의 탐색 (2) 열 지향 스토리지 | 데이터베이스의 지연 줄이기메모리에 다 올라가지 않을 정도의 대량의 데이터를 신속히 집계하려면, 미리 데이터를 집계에 적합한 형태로 변환하는 것이 필요하다. 원시 데이터는 용량적인 제약이 적어 대량의 데이터를 처리할 수 있는 데이터 레이크와 데이터 웨어하우스에 저장한다. 이후 원하는 데이터를 추출하여 데이터 마트를 구축하고, 여기서는 항상 초 단위읭 응답을 얻을 수 있도록 해야한다. 지연이 적은 데이터 마트 작성을 위한 기초 지식데이터 처리의 응답이 빠른 것을 대기시간(latency)가 적다, 지연이 적다고 표현한다. 지연이 적은 데이터베이스는 크게 두 가지로 나뉜다. 모든 데이터를 메모리에 올리는 것 MySQL, PostgreSQL (일반적인 RDB) 압축과 분산에 의해 지연을 줄이는 것 Amaz.. 2025. 7. 22. [Database] 빅데이터의 탐색 (1) 크로스 집계 | 트랜잭션 테이블, 크로스 테이블, 피벗 테이블 어떤 상품의 매출을 정리한 보고서가 있다. 행 방향으로 '상품명'이, 열 방향으로 '매출 월'이 나열된다. 크로스 테이블행과 열이 교차하는 부분에 숫자 데이터가 들어가는 형태의 테이블을 말한다.- 엑셀 등의 스프레드시트에서 이러한 보고서를 작성하는 경우가 많다.- 새로운 행을 추가하는 것은 간단하지만, 열을 늘리는 것은 간단하지 않기 때문에 데이터 베이스에서 사용하기 어려운 형식 트랜잭션 테이블데이터가 행 방향으로만 증가하게 하고, 열 방향으로는 증가하지 않게 하는 테이블 형태 크로스 집계트랜잭션 테이블에서 크로스 테이블로 변환하는 과정 피벗 테이블소량의 데이터를 크로스 집계하는데 편리한 것이 스프레드 시트의 피벗 테이블 기능 | 데이터 집계의 프.. 2025. 7. 22. [Database] 빅데이터 기초 지식 (2) 데이터 웨어하우스와 데이터 마트 | 데이터 웨어하우스를 구축하는 프로세스 복잡한 업무 시스템에서 나오는 다양한 데이터를 모아서 가공하고 분석용으로 정리해서 저장하는 과정을 파이프라인으로 나타내면 위와 같다. 용어 정리데이터 소스업무 시스템을 위한 RDB나 로그 등을 저장하는 파일 서버로우 데이터 (raw data)데이터 소스에 보존된 원시 데이터 ETL데이터를 꺼내고, 정리해서, 저장소에 넣는 과정데이터 웨어하우스정제된 데이터를 모아두는 분석 전용 저장소데이터 마트마케팅/영업처럼 부서별로 특화된 작은 창고 데이터 웨어하우스는 업무에 있어서 중요한 데이터 처리에 사용되기 때문에 과부하를 초래하면 안된다! 따라서, 데이터 분석과 같은 목적에 사용하는 경우에는 필요한 데이터만을 추출하여 데이터 마트(data mart)를 구축한다. 데.. 2025. 7. 22. 이전 1 2 3 4 다음