-
AWS Glue
- 데이터의 분석을 위해 데이터를 준비하는 시간 소모적인 단계를 자동화하는, 완전관리형 ETL 서비스
- 간단한 수행 단계
- Glue 카탈로그를 통해 데이터를 자동으로 검색 및 프로파일링
- ETL 코드를 추천 및 생성하여 소스 데이터를 대상 스키마로 변환
- 완전관리형 스케일 아웃 Apache Spark 환경에서 ETL 작업을 실행하여 데이터를 대상에 로드
주요 구성
- 데이터 카탈로그
- Scala 또는 Python 코드를 자동으로 생성할 수 있는 ETL 엔진
- 종속성 확인, 작업 모니터링 및 재시도를 처리하는 유연한 스케줄러
AWS Glue에서 지원하는 데이터 원본
- Amazon Aurora
- Amazon RDS
- DynamoDB
- Amazon S3
- Amazon Redshift
데이터 카탈로그
- 모든 데이터 자산의 정형 및 운영 메타 데이터를 저장하는 '중앙 리포지토리'
- Apache Hive Metastore와 호환되고, Amazon EMR에서 실행되는 빅데이터 애플리케이션용 Apache Hive Metastore를 즉시 대체할 수 있다.
분류자
- 데이터의 스키마를 결정한다.
- CSV, JSON, XML 등의 일반 파일 형식에 대한 분류자를 제공한다.
- JDBC 연결을 사용한 일반 관계형 데이터베이스 관리 시스템을 위한 분류자를 제공한다.
- grok 패턴을 사용하거나, XML 문서에 행 태그를 지정하여 자체 분류자를 작성할 수 있다.
크롤러
- 프로그램은 데이터 스토어에 연결하여, 분류자의 우선 순위 지정 목록을 통해 데이터의 스키마를 결정한 다음, AWS Glue 데이터 카탈로그에 메타데이터를 생성한다.
스크립트
- 소스에서 데이터를 추출하고 데이터를 변환한 다음 대상으로 로드하는 코드이다.
테이블
- 데이터를 나타내는 메타데이터를 정의한다.
- AWS Glue 데이터 카탈로그의 테이블은 열 이름, 데이터 유형 정의, 베이스 데이터 세트에 대한 기타 메타데이터로 구성된다.