Computer Science
-
-
CS :: DB :: 효율적인 SQL 쿼리 작성 방법Computer Science/DB 2021. 6. 23. 09:43
1. WHERE 조건의 이해 1) 묵시적 형변환 묵시적 형변환이란, 조건절의 데이터 타입이 다를 때, 우선순위가 높은 타입으로 형이 내부적으로 변환되는 것을 말한다. 예 : 정수 타입의 우선순위가 문자열 타입의 우선순위보다 높다. 이로 인해, 의도치 않은 결과가 나올 수 있다. 2) 잘못 사용된 함수 대부분의 DBMS에서는 함수 기능을 제공하고, 이는 복잡한 연산을 알아보기 쉽고 사용하기 편리하게 하지만, 잘못 사용하면, 불필여한 시스템 부하를 일으킬 수 있다. 위와 같이 쿼리를 작성한다면, 알아보기는 쉽지만 DB 내부적으로 'table fullscan'이 발생한다. [reg_date] 컬럼의 검색 시, DATE_FORMAT 함수로 인해 옵티마이저는 [reg_date]와 연관된 데이터의 분포도를 알 수 ..
-
DataEngineer :: 하둡(Hadoop)과 아파치 스파크(Spark)Computer Science/etc 2021. 6. 8. 15:03
하둡(Hadoop) 1. 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크 2. Job을 작은 단위로 분할하고, 이를 클러스터의 모든 노드로 매핑한다.(map) 각 노드는 job을 처리한 중간 결과를 생성한다. 분산 저장 기술인 HDFS와, 분산 처리 기술인 맵리듀스(MapReduce)를 장점으로 꼽는다. 3. 맵리듀스의 워크플로우 클러스터에서 데이터 읽기 -> 동작 실행 -> 클러스터에 결과 기록 -> 업데이트 된 데이터 내용 읽기 -> 다음 동작 실행 -> 클러스터에 결과 기록 아파치 스파크(Aparch Spark) 1. 빅데이터 워크로드에 주로 사용되는 분산처리 시스템 2. 빠른 성능을 위해 인 메모리 캐싱과 최적화 된 실행을 사용하고 일반 배치처리, 스트리밍 분석, 머신러닝, ..