본문 바로가기

Lucene

[lucene] IndexReader를 사용한 Term 리스트 얻기.

루씬 메일링 리스트에서 쓸만한 내용이 있기에 정리해봅니다.

문의 내용은

내가 가진 인덱스에서 유니크한 키워드 목록을 얻고 싶은데 방법을 알려달라는 것이었구요..

간략한 대답이었습니다.

IndexReader.terms();를 사용 하면 된다고..

Termenum을 리턴하기 때문에 Termenum.next()와 Termenum.term()을 사용하면

Term의 리스트를 얻을 수 있고

더불어서

IndexReader.docFreq(Term) 메서드를 함께 사용하면

빈도수도 같이 얻을 수 있겠습니다.

한글 Analyzer로 인덱싱 후 어느 키워드가 많이 사용되었는지..

잘 사용되었는지... 등을 확인할때 좋을듯 합니다.