-
Elasticsearch : 데이터 색인과 텍스트 분석Elasticsearch 2021. 4. 13. 17:21728x90
Inverted Index (역 인덱스)
1. 전통적인 RDBMS의 데이터의 저장 및 구성은 다음과 같다.
2. 위의 table에서 'fox'를 검색하고자 할 때는 다음과 같은 과정으로 검색이 이뤄진다.
3. 이러한 과정은 특히나 대용량 데이터의 경우 매우 비효율적인 구조이다.
4. Elasticsearch는 다음과 같은 역 인덱스(inverted index) 구조로 데이터를 색인한다.
5. 때문에 'fox'가 포함된 document를 빠르게 찾을 수 있다.
텍스트 분석
1.
Elasticsearch는 문자열 필드가 저장될 때, 데이터에서 검색어 토큰을 저장하기 위해 여러 단계의 처리 과정을 거치고, 이러한 과정을 텍스트 분석이라고 한다.
2.
애널라이저(analyzer)라는 구성품이 텍스트 분석 과정을 수행한다.
3.
애널라이저는, 0~3개의 캐릭터 필터(character filter)와 1개의 토크나이저(tokenizer), 0~n개의 토큰 필터(token filter)로 이루어진다.
4. 결론
elasticsearch는 analyzer를 통해 텍스트 분석 과정을 수행하고, analyzer는 character filter, tokenizer, token filter로 구성된다.
** 추가 예정
728x90'Elasticsearch' 카테고리의 다른 글
Elasticsearch : setting과 mapping (0) 2021.04.13 Elasticsearch : 검색 (0) 2021.04.13 Elasticsearch : 데이터 처리 (0) 2021.04.13 Elasticsearch : 시스템 구조 (2/2) (0) 2021.04.13 Elasticsearch : 시스템 구조 (1/2) (0) 2021.04.13