ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • AWS :: Glue :: DataFrames과 DynamicFrames 비교
    AWS 2021. 6. 16. 14:46
    728x90

    ** 출처 : https://www.youtube.com/watch?v=aavblrrk4Fo 


     

     

     

    먼저, Apache Spark ?

    • 데이터 병렬 분산 처리 프레임워크
    • 내결함성 내장
    • 유연한 interface : Scala, Java, Python, SQL, R 등
    • 풍부한 eco-system : ML, Stream, Graph, Analytics 등

     

     

     

    Spark 구조 + Glue

     

     

    • 기존의 DataFrame이라는 자료구조를 사용하는 spark에, 새로운 자료구조인 DynamicFrame을 Glue에서는 사용한다.
    • 이유 : AWS의 다른 서비스와의 통합을 조금 더 수월하게 수행하기 위해 재정의함 

     

     

    자료 구조 비교

    • DataFrames
      • '테이블' 형태를 기반으로 한 자료구조
      • 즉, 사전에 정의된 스키마가 필요하고, 각 행은 동일한 구조를 가진다.

     

    • DynamicFrames
      • JSON, Avro, Apache Logs 등의 semi-structured 데이터를 처리하기 위해 설계됨
      • ETL dataframe과 유사하다.
      • 따라서, 각각의 행은 제각각의 스키마를 가지는 구조를 가진다.
      • 다음과 같은 함수를 활용하면, dataframe과 dynamicframe 간 변환이 가능하다.
      • 또한, 아래의 함수를 통해, dataframe과 dynamicframe 간 변환이 가능하고, 때문에 spark의 API 역시 사용 가능하다.

     

     

     

    성능 비교

     

     

    728x90

    'AWS' 카테고리의 다른 글

    AWS :: DataLake  (0) 2021.06.24
    AWS :: Redshift  (0) 2021.06.17
    AWS :: S3  (0) 2021.06.14
    AWS :: Glue :: 개념 설명  (0) 2021.06.14
    AWS :: 서버리스(serverless) 아키텍처  (0) 2021.06.14

    댓글

kxmjhwn@gmail.com