Computer Science/etc
-
-
DataEngineer :: 하둡(Hadoop)과 아파치 스파크(Spark)Computer Science/etc 2021. 6. 8. 15:03
하둡(Hadoop) 1. 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크 2. Job을 작은 단위로 분할하고, 이를 클러스터의 모든 노드로 매핑한다.(map) 각 노드는 job을 처리한 중간 결과를 생성한다. 분산 저장 기술인 HDFS와, 분산 처리 기술인 맵리듀스(MapReduce)를 장점으로 꼽는다. 3. 맵리듀스의 워크플로우 클러스터에서 데이터 읽기 -> 동작 실행 -> 클러스터에 결과 기록 -> 업데이트 된 데이터 내용 읽기 -> 다음 동작 실행 -> 클러스터에 결과 기록 아파치 스파크(Aparch Spark) 1. 빅데이터 워크로드에 주로 사용되는 분산처리 시스템 2. 빠른 성능을 위해 인 메모리 캐싱과 최적화 된 실행을 사용하고 일반 배치처리, 스트리밍 분석, 머신러닝, ..
-
-
DataEngineer :: Data LakeComputer Science/etc 2021. 6. 8. 10:50
1. 가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 저장소의 집합 2. 빅데이터와 인공지능 기술의 중요성이 커지면서, 다양한 영역의 다양한 영역의 다양한 데이터가 만나 새로운 가치를 만들어내기 시작했다. 이 과정에서, 빅데이터를 효율적으로 분석하고 사용하고자 다양한 영역의 Raw 데이터(가공되지 않은 데이터)를 한 곳에 모아 관리하고자 하는 것을 Data Lake라고 한다. 3. Data Lake Framework Data Lake에 모든 데이터를 모은 뒤, 데이터 준비 과정에 도움을 주는 도구가 필요했고, 그것이 바로 Data Lake Framework이다. [수집], [가공 및 제공], [관리] 기능을 제공한다.