본문 바로가기

TermFreqVector

[lucene] TermFreqVector 얻기. (lucene 3.6, lucene 4.0) 루씬 3.X 버전까지는 IndexReader로부터 Term과 TermFreq를 얻기 위해서 아래와 같은 코드를 사용하였습니다. IndexReader로부터 TermFreqVector termFreqVector1 = ir.getTermFreqVector(0, "f"); 와 같은 형태로 document 하나에 대한 TermFreqVector를 얻어내고 이를 통해서 term 배열과 freq 배열을 얻어서 조합하는 방식입니다. 4.0에서는 IndexReader.getTermFreqVector 메서드가 사라지고 대신 아래와 같은 방법을 사용합니다. IndexReader.getTermVector(0, "f") 메서드를 사용합니다. 이때 Terms라는 클래스의 인스턴스를 얻을 수 있는데, 위 코드의 예에서는 doucm.. 더보기
[Lucene] coord와 Match Term 가져오기 방명록에 남겨진 질문 중 하나에 대한 답을 찾아보려고 이것저것 해보다가 우선 생각나는 방법이 있어서 적어보려고 합니다. 질문의 내용은 루씬의 Explain에서.. 0.5987479 = (MATCH) product of: 1.4968698 = (MATCH) sum of: 0.7484349 = (MATCH) weight(label:시크릿 in 0), product of: 0.40649435 = queryWeight(label:시크릿), product of: 2.9459102 = idf(docFreq=1, maxDocs=14) 0.13798599 = queryNorm 1.8411939 = (MATCH) fieldWeight(label:시크릿 in 0), product of: 1.0 = tf(termFreq(l.. 더보기
[lucene] TermFreqVector, TermPositionVector 루씬 인 액션을 보던 중 텀벡터에 대한 얘기가 나와서 살펴보았다. 간단하게 색인을 해 놓고.. 소스를 간단하게 만들어서 돌려보았다.. package kr.co.gshs.lucene.test; import java.io.IOException; import org.apache.lucene.document.Document; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.TermFreqVector; import org.apache.lucene.index.TermPositionVector; import org.apache.lucene.index.TermVectorOffsetInfo; public class TermVectorT.. 더보기