AWS
-
AWS :: Glue :: DataFrames과 DynamicFrames 비교AWS 2021. 6. 16. 14:46
** 출처 : https://www.youtube.com/watch?v=aavblrrk4Fo 먼저, Apache Spark ? 데이터 병렬 분산 처리 프레임워크 내결함성 내장 유연한 interface : Scala, Java, Python, SQL, R 등 풍부한 eco-system : ML, Stream, Graph, Analytics 등 Spark 구조 + Glue 기존의 DataFrame이라는 자료구조를 사용하는 spark에, 새로운 자료구조인 DynamicFrame을 Glue에서는 사용한다. 이유 : AWS의 다른 서비스와의 통합을 조금 더 수월하게 수행하기 위해 재정의함 자료 구조 비교 DataFrames '테이블' 형태를 기반으로 한 자료구조 즉, 사전에 정의된 스키마가 필요하고, 각 행은 동..
-
AWS :: S3AWS 2021. 6. 14. 16:23
Amazon S3(Simple Storage Service) 인터넷 스토리지 서비스 개발자가 쉽게 웹 규모 컴퓨팅 작업을 수행할 수 있도록 설계 내구성과 확장성이 뛰어난 스토리지 서비스 사용한 스토리지 만큼 요금이 청구되고, 데이터 전송부분에서는 해당 리전 내에서는 데이터 송수신이 무료이다. 단독 스토리지로도 사용 가능하고, EC2, EBS, Glacier와 같은 다른 AWS 서비스와도 함께 사용할 수 있다. S3 용어 개념 객체(Object) 파일과 해당 파일을 설명하는 모든 메타데이터 S3에 데이터가 저장되는 기본 단위 파일과 메타데이터로 이루어짐 객체 메타데이터는 객체가 업로드 된 후 수정 불가능 수정이 필요하다면, 복사 후 수정해야 한다. 버킷(Bucket) 객체에 대한 컨테이너 버킷 소유권은 이..
-
AWS :: Glue :: 개념 설명AWS 2021. 6. 14. 11:30
AWS Glue 데이터의 분석을 위해 데이터를 준비하는 시간 소모적인 단계를 자동화하는, 완전관리형 ETL 서비스 간단한 수행 단계 Glue 카탈로그를 통해 데이터를 자동으로 검색 및 프로파일링 ETL 코드를 추천 및 생성하여 소스 데이터를 대상 스키마로 변환 완전관리형 스케일 아웃 Apache Spark 환경에서 ETL 작업을 실행하여 데이터를 대상에 로드 주요 구성 데이터 카탈로그 Scala 또는 Python 코드를 자동으로 생성할 수 있는 ETL 엔진 종속성 확인, 작업 모니터링 및 재시도를 처리하는 유연한 스케줄러 AWS Glue에서 지원하는 데이터 원본 Amazon Aurora Amazon RDS DynamoDB Amazon S3 Amazon Redshift 데이터 카탈로그 모든 데이터 자산의 ..
-
AWS :: 서버리스(serverless) 아키텍처AWS 2021. 6. 14. 11:11
서버리스(serverless) 직역하자면, '서버가 없다'라는 의미 하지만, 사실상 서버가 없는 것이 아닌, 특정 작업을 수행하기 위해 서버를 설정하거나 처리하지 않음을 의미 '서버의 존재'에 대해 신경쓰지 않아도 됨을 의미 서버가 어떠한 사양인지, 개수를 조정해야 하는지 등에 대해 신경쓰지 않아도 됨을 의미 기존의 기술 자체적 시스템 설계(예 : 전산실에서 공간, 하드웨어, 네트워크, 운영체제 등 모두 직접 관리) IaaS(Infrastructure as a Service) PaaS(Platform as a Service) 서버리스 기술 BaaS(Backend as a Service) FaaS(Function as a Service) FaaS(Funtion as a Service) AWS Lambda는..