'CharTokenizer' 태그의 글 목록

본문 바로가기

CharTokenizer

[lucene] CharTokenizer를 살펴보자. 한글 색인어 추출기 작업을 위해서 가장 먼저 살펴봐야 했던 class가 CharTokenizer였다. 정말 아무것도 모르는 상태에서 시작하게 된거라서 난감하기도 했고 오픈소스라는 놈을 처음 열어보는거라..(그냥 쓰기만했지... 이걸 까볼줄은...;;) CharTokenizer를 열어보았을때 느낌은.. "이 뭥미?" 이해가 전혀 되지 않았다 -_- 그냥 일단 한손에 삽들고 팠다. CharTokenizer는 루씬에서 모든 Analyzer의 기본이 된다. 이놈의 역할은 문장을 읽어들여서 Token을 만들어 반환하는 것이다. 그럼 어떻게 Token을 만드느냐.. 한글자씩 읽어와서 문자냐 아니냐를 판단하여 만들어내는데 그 역할 하는 것이 protected abstract boolean isTokenChar(cha.. 더보기

[lucene] 모르겠다.. CharTokenizer..ㅠㅠ CharTokenizer.. Analyzer WhitespaceAnalyzer = new WhitespaceAnalyzer(); TokenStream stream = analyzer.tokenStream("contents", new StringReader(text)); Token token = stream.next(); 바로 이 next...!! stream.next는 TokenStream의 next 메서드가 호출되고 이는 public Token next() throws IOException { Token result = next(new Token()); if (result != null) { //이것들은 무엇을 하기 위한 로직인고..;; Payload p = result.getPayload(); if .. 더보기

이전 1 다음

티스토리툴바