본문 바로가기

Paper review3

[paper review] Semantic Data Lineage and Impact Analysis of Data Warehouse Workflows 1.1 Overview of Data Lineage and Provenance # Data Lineage 란'데이터가 어디에서 왔고 어떻게 유래되었는지'를 추적하는 개념으로, 과학 분야에서는 provenance라는 용어를 사용 # Data Lineage는 왜 중요할까?신뢰성, 정확성, 무결성 확보에 필수적이다. 머신러닝, 데이터 웨어하우스, 비즈니스 인텔리전스 등에서는 데이터가 어떻게 만들어졌는지를 추적하지 않으면 결과도 믿기 어렵기 때문 # 적용 분야- Data Warehouses : ETL(추출-변환-적재) 과정을 통해 구성된 데이터 저장소- Curated Databases : 수작업으로 정제/갱신된 데이터베이스 # Data Lineage의 두 가지 표현 방식 - 워크플로우 수준 (Coarse-g.. 2025. 5. 6.
[paper review] GloVe: Global Vectors for Word Representation 1. Introduction 기존의 semantic vector space model은 각각의 단어를 실수로 이루어진 벡터로 임베딩 한다. 대부분 단어 벡터의 학습 방법은 단어 벡터 간의 거리나 각도를 기반으로 벡터의 품질을 평가해왔다. 하지만 Word2Vec이 등장하면서, 다양한 차원의 차이로 단어를 표현하는 방법도 생겼다. 예를 들면 'King - queen = man - woman'과 같은 벡터 방정식으로 단어의 의미를 표현할 수 있게 되었다.  기존의 대표적인 모델은 아래와 같다.  1.1 Global Matrix Factorization (ex. LSA)LSA는 통계 기반의 의미 분석 방법이다. 단어-문서의 행렬을 만들고, 특이값 분해(SVD)를 통해 차원을 축소하여 단어 간의 의미 관계를 파악.. 2025. 3. 29.
[paper review] Efficient Estimation Of Word Representations In Vector Space (Word2Vec) 1. Introduction논문 이전의 NLP 분야에서는 단어를 원소적인(atomic)한 객체로만 봐 왔다. 이러한 방식은 단순하고 효율적이며, 대용량 데이터에서 좋은 성능을 낼 수 있어 빈번하게 사용되어 왔다.  그러나 단어 간 유사성 정보를 반영하지 못했다. one-hot encoding 방식이 단어의 의미를 벡터에 담지 못하고, 고차원의 sparse한 vector만 생성하여 단순하지만 데이터가 적거나 희소한 경우 성능이 급격히 저하되는 문제가 있었다.  따라서 이 논문에서는 이러한 한계점을 개선하고 더욱 진전된 기술을 소개하고자 하였다. 핵심 목표는 아래와 같다. 1. 수십억 개의 단어와 수백만 개의 어휘를 포함한 대규모 데이터셋으로부터 고품질의 단어 벡터를 효율적으로 학습할 수 있는 모델 제안2... 2025. 3. 27.