ABOUT ME

-

Today: -

Yesterday: -

Total: -

value = able

AWS :: Glue :: 개념 설명

AWS 2021. 6. 14. 11:30

728x90

AWS Glue

데이터의 분석을 위해 데이터를 준비하는 시간 소모적인 단계를 자동화하는, 완전관리형 ETL 서비스
간단한 수행 단계
- Glue 카탈로그를 통해 데이터를 자동으로 검색 및 프로파일링
- ETL 코드를 추천 및 생성하여 소스 데이터를 대상 스키마로 변환
- 완전관리형 스케일 아웃 Apache Spark 환경에서 ETL 작업을 실행하여 데이터를 대상에 로드

주요 구성

데이터 카탈로그
Scala 또는 Python 코드를 자동으로 생성할 수 있는 ETL 엔진
종속성 확인, 작업 모니터링 및 재시도를 처리하는 유연한 스케줄러

AWS Glue에서 지원하는 데이터 원본

Amazon Aurora
Amazon RDS
DynamoDB
Amazon S3
Amazon Redshift

데이터 카탈로그

모든 데이터 자산의 정형 및 운영 메타 데이터를 저장하는 '중앙 리포지토리'
Apache Hive Metastore와 호환되고, Amazon EMR에서 실행되는 빅데이터 애플리케이션용 Apache Hive Metastore를 즉시 대체할 수 있다.

분류자

데이터의 스키마를 결정한다.
CSV, JSON, XML 등의 일반 파일 형식에 대한 분류자를 제공한다.
JDBC 연결을 사용한 일반 관계형 데이터베이스 관리 시스템을 위한 분류자를 제공한다.
grok 패턴을 사용하거나, XML 문서에 행 태그를 지정하여 자체 분류자를 작성할 수 있다.

크롤러

프로그램은 데이터 스토어에 연결하여, 분류자의 우선 순위 지정 목록을 통해 데이터의 스키마를 결정한 다음, AWS Glue 데이터 카탈로그에 메타데이터를 생성한다.

스크립트

소스에서 데이터를 추출하고 데이터를 변환한 다음 대상으로 로드하는 코드이다.

테이블

데이터를 나타내는 메타데이터를 정의한다.
AWS Glue 데이터 카탈로그의 테이블은 열 이름, 데이터 유형 정의, 베이스 데이터 세트에 대한 기타 메타데이터로 구성된다.

728x90

'AWS' 카테고리의 다른 글

AWS :: Glue :: DataFrames과 DynamicFrames 비교 (0)	2021.06.16
AWS :: S3 (0)	2021.06.14
AWS :: 서버리스(serverless) 아키텍처 (0)	2021.06.14
AWS :: Redshift (0)	2021.06.11
AWS :: DataWarehouse (0)	2021.06.11

관련글 관련글 더보기

댓글

티스토리툴바