ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • AWS :: DataLake
    AWS 2021. 6. 24. 09:54
    728x90

    ** 참고 : https://www.samsungsds.com/kr/insights/1232760_4627.html

     

    Data Lake를 통한 데이터 관리 패러다임의 전환 – 2부 DW와 데이터 '늪' 사이

    Data Lake를 통한 데이터 관리 패러다임의 전환 – 2부 DW와 데이터 '늪' 사이

    www.samsungsds.com

     

     


     

     

     

     

     

    Data Lake 성공 과정

    • 확장성 있는아키텍처를 설계해야 한다.
    • 장기적인 데이터 관리 및 거버넌스를 정의해야 한다.
    • 데이터를 수집, 준비하고 보안을 유지하는 강력한 기능셋을 가져야 한다.

     

     

     

     

     

     

    Data Lake 주요 기술 이점

    • IoT 데이터부터 SNS 게시물에 이르기까지, 모든 유형의 정형, 비정형 데이터를 저장할 수 있다.
    • 모든 답을 미리 가질 필요가 없다. raw 데이터를 저장하기만 하면 되고, raw 데이터에 대한 이해와 인사이트가 향상될 때 정제하면 된다.
    • 다양한 도구를 사용하여 데이터 조회가 가능하다.
    • 조직 전체가 하나의 통합된 뷰로 데이터에 접근할 수 있다.

     

     

     

     

     

    DW(Data Warehouse)와 Data Lake의 차이

    • DW
      • 다양한 기업형 애플리케이션으로부터 데이터를 흡수한다.
      • 각 애플리케이션의 데이터는 자체적인 스키마가 있기 때문에, DW 자체의 사전 정의된 스키마에 맞춰서 데이터를 변환할 필요가 있다.
      • 기업의 데이터 모델에 맞는 품질의 데이터만 수집되도록 설계된다.
      • 즉, DW는 제한된 질문에만 답변이 가능하다.

     

    • Data Lake
      • raw 데이터를 제공받는다.
      • 기업의 스키마에 맞추기 위해 거의 또는 전혀 손을 댈 필요가 없다.
      • 가장 큰 장점은 '유연성'이다.

     

     

     

     

     

    단일 데이터 모델로부터의 자유

    • 정형, 비정형 등의 모든 데이터를 저장할 수 있다.
    • 또한, 데이터를 저장하기 위해 일관성을 유지할 필요가 없다.
    • DW에서는 문제가 될 수 있지만, Data Lake에서는 서로 다른 데이터 셋 간의 통합 스키마를 염려하지 않고 모든 종류의 데이터를 단일 저장소에 저장할 수 있다.
    • 뿐만 아니라, 스트리밍 데이터, IoT, 주식 데이터와 같이 일상적인 데이터도 저장 가능하다.

     

     

     

     

     

     

    다양한 데이터 도구

    • Data Lake에서는 과도한 사전 작업이 없고, 다양하고 새로운 빅데이터 도구를 통해 데이터를 효율적으로 처리할 수 있다.
    • 엄격한 스키마를 갖지 않기 때문에 데이터 통합에 필요한 단계가 줄어든다.
    • Schema-on-Read를 통해 사용자는 쿼리 실행 시 자신의 쿼리로 사용자 정의 스키마를 만들 수 있다.

     

     

     

     

     

     

    손쉬운 접근성 및 확장성

    • Scale-Out 인프라스트럭처를 사용하면 분석을 위해 더 큰 데이터 볼륨을 통합할 수 있다.
    • 실제로 데이터를 사용할 때까지 모델링을 연기할 수 있으므로, 더 나은 인사이트와 데이터 탐색 기회를 만들 수 있다.
    • Peta-Byte 규모의 Data Lake는 원하는 규모로 구축하고 유지하는 데에 비용 효율적이고 상대적으로 간단하다.

     

     

     

     

    Data Lake 단점

    • 가시성
    • 거버넌스
    • 복잡성

     

     

     

     

     

    728x90

    'AWS' 카테고리의 다른 글

    AWS :: Lightsail vs Elastic Beanstalk  (0) 2021.06.28
    AWS :: Glue :: 실습 예제  (0) 2021.06.25
    AWS :: Redshift  (0) 2021.06.17
    AWS :: Glue :: DataFrames과 DynamicFrames 비교  (0) 2021.06.16
    AWS :: S3  (0) 2021.06.14

    댓글

kxmjhwn@gmail.com