ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • AWS :: Glue :: 개념 설명
    AWS 2021. 6. 14. 11:30
    728x90

     

     

     

     

     

     

     

     

    AWS Glue

    • 데이터의 분석을 위해 데이터를 준비하는 시간 소모적인 단계를 자동화하는, 완전관리형 ETL 서비스
    • 간단한 수행 단계
      • Glue 카탈로그를 통해 데이터를 자동으로 검색 및 프로파일링
      • ETL 코드를 추천 및 생성하여 소스 데이터를 대상 스키마로 변환
      • 완전관리형 스케일 아웃 Apache Spark 환경에서 ETL 작업을 실행하여 데이터를 대상에 로드

     

     

    주요 구성

    • 데이터 카탈로그
    • Scala 또는 Python 코드를 자동으로 생성할 수 있는 ETL 엔진
    • 종속성 확인, 작업 모니터링 및 재시도를 처리하는 유연한 스케줄러

     

     

     

    AWS Glue에서 지원하는 데이터 원본

    • Amazon Aurora
    • Amazon RDS
    • DynamoDB
    • Amazon S3
    • Amazon Redshift

     

     

    데이터 카탈로그

    • 모든 데이터 자산의 정형 및 운영 메타 데이터를 저장하는 '중앙 리포지토리'
    • Apache Hive Metastore와 호환되고, Amazon EMR에서 실행되는 빅데이터 애플리케이션용 Apache Hive Metastore를 즉시 대체할 수 있다.

     

     

    분류자

    • 데이터의 스키마를 결정한다.
    • CSV, JSON, XML 등의 일반 파일 형식에 대한 분류자를 제공한다.
    • JDBC 연결을 사용한 일반 관계형 데이터베이스 관리 시스템을 위한 분류자를 제공한다.
    • grok 패턴을 사용하거나, XML 문서에 행 태그를 지정하여 자체 분류자를 작성할 수 있다.

     

     

     

    크롤러

    • 프로그램은 데이터 스토어에 연결하여, 분류자의 우선 순위 지정 목록을 통해 데이터의 스키마를 결정한 다음, AWS Glue 데이터 카탈로그에 메타데이터를 생성한다.

     

     

     

     

    스크립트

    • 소스에서 데이터를 추출하고 데이터를 변환한 다음 대상으로 로드하는 코드이다.

     

     

     

     

    테이블

    • 데이터를 나타내는 메타데이터를 정의한다.
    • AWS Glue 데이터 카탈로그의 테이블은 열 이름, 데이터 유형 정의, 베이스 데이터 세트에 대한 기타 메타데이터로 구성된다.

     

     

     

     

     

     

    728x90

    'AWS' 카테고리의 다른 글

    AWS :: Glue :: DataFrames과 DynamicFrames 비교  (0) 2021.06.16
    AWS :: S3  (0) 2021.06.14
    AWS :: 서버리스(serverless) 아키텍처  (0) 2021.06.14
    AWS :: Redshift  (0) 2021.06.11
    AWS :: DataWarehouse  (0) 2021.06.11

    댓글

kxmjhwn@gmail.com