'lucene 4.0' 태그의 글 목록

본문 바로가기

lucene 4.0

Terms.getSumTotalTermFreq() in Lucene 4.0 소스의 중복도를 체크하는 프로그램의 파일럿을 만들어보려고 새벽 출근한김에 뚝딱거려보았다. 뭐 기본적으로는 루씬으로 색인 후 루씬의 TermFreqVector를 이용해서 코사인유사도를 사용해서 일단 뽑아보는거였는데.. lucene 3.6까지는 TermFreqVector가 있었는데 4.0에서는 그것이 Terms, TermEnum, DocEnum등으로 대체가 된듯 하였다. 그래서 관련한 자료들을 찾아보고테스트 코드를 만들어가면서 이것저것 실행을 해보고 있었는데Terms.getSumTotalTermFreq()의 결과가 영~~ 이상하게 나온다. 계속 -1이 나오는것.. IndexReader로부터 하나의 Document에 대한 Terms 인스턴스를 얻어내면그 Terms의 인스턴스는 딱 하나의 Document가 색인.. 더보기

이전 1 다음

티스토리툴바