전체 글24 [Database] 벌크형 vs 스트리밍형 : 데이터를 움직이는 두 가지 방식 대규모 데이터를 수집하고 처리하는 데이터 파이프라인에서는 전송 방식에 따라 효율성과 실시간성이 크게 달라진다. 데이터를 저장소로 옮기는 방식은 크게 벌크형과 스트리밍형 두 가지로 나뉜다. | 객체 스토리지와 데이터 수집 분산 스토리지 빅데이터는 대부분의 경우 확장성이 높은 분산 스토리지(ditributed storage)에 저장된다. 여기서 기본이 되는 것은 파일을 저장하기 위한 객체 스토리지이다.- Hadoop의 HDFS- Amazon의 S3 객체 스토리지의 동작 구조객체 스토리지는 데이터를 여러 대의 디스크에 복사 및 분산하여 저장한다.- [마스터-슬레이브] 구조- 데이터를 슬레이브의 디스크에 저장- 네트워크를 통해 파일 읽기/쓰기가 이루어짐 객체 스토리지는 데이터가 여러 디스크에 복사되어 .. 2025. 8. 3. [Database] 분산 처리 프레임워크 (5) 데이터 마트의 구축 분산 시스템이 준비되면 시각화를 위해 데이터 마트를 만드는 절차에 들어간다. 그 과정에서 필요한 각종 테이블의 역할과 비정규화 테이블을 만들기까지의 흐름을 살펴보자. | 팩트 테이블, 시계열 데이터 축적하기 데이터를 구조화하는 과정에서, 팩트 테이블이 압도적으로 많은 부분을 차지한다. 팩트 테이블이 아주 작으면 메모리에 올릴 수 있지만, 그렇지 않으면 열 지향 스토리지에서 데이터를 압축해야 한다. 이렇게 팩트 테이블을 작성하는 방법에는 추가와 치환이 있다. 추가(append)새로 도착한 데이터만을 증분으로 추가하는 것 치환(replace) 과거의 데이터를 포함하여 테이블 전체를 치환하는 것 그렇다면 언제 추가를 하고, 언제 치환을 해야할까? 효율만을 생각하면 추가가 압도적으로 유리하다. 그러나.. 2025. 7. 30. [Database] 나에게 맞는 데이터 분석 프레임워크 선택하기 (feat. Hive, Presto, Spark) 지금까지 텍스트 데이터를 구조화하고 대화식으로 집계하는 흐름을 살펴봤다. 이제는 이를 여러 컴퓨터에 배포하기만 하면, 빅데이터를 집계하기 위한 최소한의 준비가 된 것이다.실제 운용 시에는 클라우드 서비스 등을 이용해 시스템을 구축하는 경우가 많다. 앞으로는 시스템 구축 시 다양한 옵션 중 무엇을 선택해야 할지를 생각해보고자 한다. | 완성한 비정규화 테이블의 고속 집계가 필요할 때, MPP 데이터베이스MPP 데이터베이스의 특징구조스토리지와 계산 노드가 일체화된 구조처리 방식SQL 기반으로 대규모 데이터 병렬 처리성능완성된 비정규화 테이블에 대해 고속 집계 가능확장성수평 확장이 가능하여 대용량 데이터에 적합초기 설정ETL 과정을 통해 데이터를 구조화한 뒤 사용활용 예시Amazon Redshift, Go.. 2025. 7. 30. [Database] 분산 처리 프레임워크 (4) 대화형 쿼리 엔진 Presto의 구조 Hive와 같은 배치형 쿼리 엔진은 대량 출력을 수반하는 대규모 데이터 처리에 적합하지만, 작은 쿼리를 여러 번 실행하는 대화형 데이터 처리에는 적합하지 않다. 쿼리 실행의 지연을 감소시키는 것을 목적으로 개발된 것이 '대화형 쿼리 엔진'이다. 대표적인 엔진 Presto로 구조화 데이터를 집계하는 방법에 대해 알아보자. | 플러그인 가능한 스토리지 Presto의 특징 중 하나는 플러그인 가능한 스토리지 설계이다. - 일반적인 MPP 데이터베이스는 저장소마다 따로 조회해야 한다.- Presto는 한 번의 쿼리로 다양한 저장소에서 데이터를 가져올 수 있다. - 예를 들어, Hive에 저장된 로그/MySQL에 저장된 회원정보/NoSQL에 저장된 설정값을 하나의 쿼리로 조합할 수 있다. Presto의 .. 2025. 7. 30. [Database] 분산 처리 프레임워크 (3) 구조화부터 비정규화까지: Hive로 완성하는 데이터 마트 구축 A to Z 대표적인 SQL-on-Hadoop 기반 쿼리 엔진인 Hive와 Presto를 중심으로, 구조화된 데이터를 생성하고 이를 효율적으로 질의하는 방식을 살펴보자. Hive는 배치 기반의 처리에 강점을 가진 반면, Presto는 대화식 쿼리에 특화된 쿼리 엔진이다. 두 시스템은 상호 보완적인 관계를 이루며 데이터 파이프라인 내에서 함께 사용될 수 있다. | 데이터 마트 구축의 파이프라인 실제 쿼리 엔진을 사용하여 데이터 마트를 만들기까지의 흐름을 살펴보자. 위 그림은 Hive와 Presto를 결합한 데이터 파이프라인이다. 파이프라인의 구조는 다음과 같다. 1. 데이터 구조화 (Hive)- 분산 스토리지(HDFS 등)에 저장된 비구조화 데이터(텍스트, 로그 파일, csv 등)의 스키마를 정의해 구조화한다.- H.. 2025. 7. 29. [Database] 분산처리 프레임워크 (2) Hadoop이란? 개념부터 동작 원리까지 앞 글에서 살펴본 것처럼, 스키마리스 형태의 비구조화 데이터를 분석하기 위해서는 데이터를 구조화해 열 기반 스토리지에 저장하는 과정이 필요하다. 하지만 이 과정은 데이터의 양이 방대할수록 변환, 압축, 저장에 많은 컴퓨팅 자원과 처리 시간이 요구된다. 따라서 이러한 대규모 처리 파이프라인을 안정적이고 효율적으로 실행하기 위해 등장한 것이 Hadoop과 같은 분산 처리 프레임워크이다. 지금부터 Hadoop의 구조와 역할에 대해 자세히 살펴보자. | Hadoop 분산 데이터 처리의 공통 플랫폼 Hadoop 분산 데이터 처리를 위한 오픈소스 프레임워크- 대용량 데이터를 여러 서버에 나눠 저장하고 병렬로 처리할 수 있게 해줌- 단일 소프트웨어가 아닌, 여러 소프트웨어로 구성된 집합체 Hadoop의 역사 2.. 2025. 7. 28. 이전 1 2 3 4 다음