티스토리 뷰

반응형

 

Data Lake

대규모의 데이터를 원시 그대로 저장하여 데이터의 다양성을 유지시키는 유형이다. 즉, 어떤 데이터를 수집하고 분석해야할지 정해져 있지 않은 경우에는 이 Data Lake를 구성한다. 구조화된(관계형 데이터), 반구조화된(CSV 또는 JSON 파일), 원시적인(기계 및 센서 데이터) 형태로 저장된 비정형(기계 및 센서 데이터) 데이터들이 저장된다. 개인적인 생각으로는 머신러닝이 발전되면서 정제된 데이터뿐만 아니라 모든 데이터에서 상관관계를 따져볼 수 있도록 학습 시키기 위해서 Data Lake가 발전되었다고 생각한다.

 

Data Warehouse

Data Warehouse 는 데이터 도매점과 같은 곳이다. 전사 또는 프로덕트에서 발생하는 데이터들이 모두 흩어져 있으나, 흩어져 있는 데이터들을 주제와 목적에 따라 분류해 구조화 놓은 곳이다. 이때 같은 데이터는 중복되지 않게 관리되어지는 곳이 Data Warehouse 이다. Data Lake를 광산에 비유하면, Data Warehouse는 어떤 보석이 되기전의 원석들을 모아놓은 곳이라고 할 수 있을 것 같다. 주제별로 정제하여 저장된 데이터이므로 식별이 더 원활하게 되기에 Data Lake보다 보안을 더 중요하게 생각한다.

 

Data Mart

Data Mart는 소매점이다. 데이터를 필요로 하는 부서에서 각 부서에 맞는 코너에서 데이터를 고를 수 있도록 된 DB이다. 재무,영업,마케팅,기획 등의 각 부서에서 필요로 하는 데이터를 확인하는데 빠르게 확인할 수 있다는 장점이 있다. 필요로 하는 부서에 맞게 데이터가 준비되어 있기에 접근성이 빠르고, 그만큼 의사결정 역시 빠르게 할 수 있다.

 

 

반응형
댓글