-
AWS :: Glue :: DataFrames과 DynamicFrames 비교AWS 2021. 6. 16. 14:46728x90
** 출처 : https://www.youtube.com/watch?v=aavblrrk4Fo
먼저, Apache Spark ?
- 데이터 병렬 분산 처리 프레임워크
- 내결함성 내장
- 유연한 interface : Scala, Java, Python, SQL, R 등
- 풍부한 eco-system : ML, Stream, Graph, Analytics 등
Spark 구조 + Glue
- 기존의 DataFrame이라는 자료구조를 사용하는 spark에, 새로운 자료구조인 DynamicFrame을 Glue에서는 사용한다.
- 이유 : AWS의 다른 서비스와의 통합을 조금 더 수월하게 수행하기 위해 재정의함
자료 구조 비교
- DataFrames
- '테이블' 형태를 기반으로 한 자료구조
- 즉, 사전에 정의된 스키마가 필요하고, 각 행은 동일한 구조를 가진다.
- DynamicFrames
- JSON, Avro, Apache Logs 등의 semi-structured 데이터를 처리하기 위해 설계됨
- ETL dataframe과 유사하다.
- 따라서, 각각의 행은 제각각의 스키마를 가지는 구조를 가진다.
- 다음과 같은 함수를 활용하면, dataframe과 dynamicframe 간 변환이 가능하다.
- 또한, 아래의 함수를 통해, dataframe과 dynamicframe 간 변환이 가능하고, 때문에 spark의 API 역시 사용 가능하다.
성능 비교
728x90'AWS' 카테고리의 다른 글
AWS :: DataLake (0) 2021.06.24 AWS :: Redshift (0) 2021.06.17 AWS :: S3 (0) 2021.06.14 AWS :: Glue :: 개념 설명 (0) 2021.06.14 AWS :: 서버리스(serverless) 아키텍처 (0) 2021.06.14