[lucene] Token과 Tokenizer Token과 TokenStream 단어가 분석기를 거쳐서 토큰으로 변환되고, 토큰은 다시 텀으로 변환되어 색인에 저장된다. 하나의 토큰은 텍스트에서 얻어낸 하나의 단어를 의미하며, 시작위치, 끝위치, 토큰종류, 위치증가값등의 메타 정보를 갖는다. (the quick brown fox 같은 경우 각 토큰은 이전 토큰에 대해 한 단어만큼 뒤에 있기 때문에 모두 각각 1씩의 위치 증가값을 갖는다.) 토큰이 텀의 형태로 색인에 전달되는데 토큰의 단어와 위치 증가값만 사용된다. 토큰의 위치증가값이 1보다 큰 경우에는 단어와 단어가 떨어져 있다는 것이고, 0이라면 토큰의 위치가 이전 토큰과 같다는 의미이다. TokenStream에는 Tokenizer와 TokenFilter가 있다. Tokenizer는 글자 단위로 .. 더보기 이전 1 ··· 698 699 700 701 702 703 704 ··· 713 다음