루씬 메일링 리스트에서 쓸만한 내용이 있기에 정리해봅니다.
문의 내용은
내가 가진 인덱스에서 유니크한 키워드 목록을 얻고 싶은데 방법을 알려달라는 것이었구요..
간략한 대답이었습니다.
IndexReader.terms();를 사용 하면 된다고..
Termenum을 리턴하기 때문에 Termenum.next()와 Termenum.term()을 사용하면
Term의 리스트를 얻을 수 있고
더불어서
IndexReader.docFreq(Term) 메서드를 함께 사용하면
빈도수도 같이 얻을 수 있겠습니다.
한글 Analyzer로 인덱싱 후 어느 키워드가 많이 사용되었는지..
잘 사용되었는지... 등을 확인할때 좋을듯 합니다.
문의 내용은
내가 가진 인덱스에서 유니크한 키워드 목록을 얻고 싶은데 방법을 알려달라는 것이었구요..
간략한 대답이었습니다.
IndexReader.terms();를 사용 하면 된다고..
Termenum을 리턴하기 때문에 Termenum.next()와 Termenum.term()을 사용하면
Term의 리스트를 얻을 수 있고
더불어서
IndexReader.docFreq(Term) 메서드를 함께 사용하면
빈도수도 같이 얻을 수 있겠습니다.
한글 Analyzer로 인덱싱 후 어느 키워드가 많이 사용되었는지..
잘 사용되었는지... 등을 확인할때 좋을듯 합니다.