-
AWS :: DataLakeAWS 2021. 6. 24. 09:54728x90
** 참고 : https://www.samsungsds.com/kr/insights/1232760_4627.html
Data Lake 성공 과정
- 확장성 있는아키텍처를 설계해야 한다.
- 장기적인 데이터 관리 및 거버넌스를 정의해야 한다.
- 데이터를 수집, 준비하고 보안을 유지하는 강력한 기능셋을 가져야 한다.
Data Lake 주요 기술 이점
- IoT 데이터부터 SNS 게시물에 이르기까지, 모든 유형의 정형, 비정형 데이터를 저장할 수 있다.
- 모든 답을 미리 가질 필요가 없다. raw 데이터를 저장하기만 하면 되고, raw 데이터에 대한 이해와 인사이트가 향상될 때 정제하면 된다.
- 다양한 도구를 사용하여 데이터 조회가 가능하다.
- 조직 전체가 하나의 통합된 뷰로 데이터에 접근할 수 있다.
DW(Data Warehouse)와 Data Lake의 차이
- DW
- 다양한 기업형 애플리케이션으로부터 데이터를 흡수한다.
- 각 애플리케이션의 데이터는 자체적인 스키마가 있기 때문에, DW 자체의 사전 정의된 스키마에 맞춰서 데이터를 변환할 필요가 있다.
- 기업의 데이터 모델에 맞는 품질의 데이터만 수집되도록 설계된다.
- 즉, DW는 제한된 질문에만 답변이 가능하다.
- Data Lake
- raw 데이터를 제공받는다.
- 기업의 스키마에 맞추기 위해 거의 또는 전혀 손을 댈 필요가 없다.
- 가장 큰 장점은 '유연성'이다.
단일 데이터 모델로부터의 자유
- 정형, 비정형 등의 모든 데이터를 저장할 수 있다.
- 또한, 데이터를 저장하기 위해 일관성을 유지할 필요가 없다.
- DW에서는 문제가 될 수 있지만, Data Lake에서는 서로 다른 데이터 셋 간의 통합 스키마를 염려하지 않고 모든 종류의 데이터를 단일 저장소에 저장할 수 있다.
- 뿐만 아니라, 스트리밍 데이터, IoT, 주식 데이터와 같이 일상적인 데이터도 저장 가능하다.
다양한 데이터 도구
- Data Lake에서는 과도한 사전 작업이 없고, 다양하고 새로운 빅데이터 도구를 통해 데이터를 효율적으로 처리할 수 있다.
- 엄격한 스키마를 갖지 않기 때문에 데이터 통합에 필요한 단계가 줄어든다.
- Schema-on-Read를 통해 사용자는 쿼리 실행 시 자신의 쿼리로 사용자 정의 스키마를 만들 수 있다.
손쉬운 접근성 및 확장성
- Scale-Out 인프라스트럭처를 사용하면 분석을 위해 더 큰 데이터 볼륨을 통합할 수 있다.
- 실제로 데이터를 사용할 때까지 모델링을 연기할 수 있으므로, 더 나은 인사이트와 데이터 탐색 기회를 만들 수 있다.
- Peta-Byte 규모의 Data Lake는 원하는 규모로 구축하고 유지하는 데에 비용 효율적이고 상대적으로 간단하다.
Data Lake 단점
- 가시성
- 거버넌스
- 복잡성
728x90'AWS' 카테고리의 다른 글
AWS :: Lightsail vs Elastic Beanstalk (0) 2021.06.28 AWS :: Glue :: 실습 예제 (0) 2021.06.25 AWS :: Redshift (0) 2021.06.17 AWS :: Glue :: DataFrames과 DynamicFrames 비교 (0) 2021.06.16 AWS :: S3 (0) 2021.06.14