예전에 루씬으로 색인한 인덱스파일로부터 Term Freq를 뽑는 포스팅을 한적이 있는데요..


http://devyongsik.tistory.com/577

http://devyongsik.tistory.com/578


그 당시에는 인덱스리더로부터 TermVector를 하나 들고와서 TermVector로부터 Terms 객체를 얻어서

getSumTotalTermFreq()를 실행했었고 이 값이 -1이 나왔었습니다. 이건 전체 Term의 Freq의 합이죠..


IndexReader ir = IndexReader.open(dir);

Terms terms1 = ir.getTermVector(0, "f");


System.out.println(terms1.getSumTotalTermFreq());


당시 루씬 메일링 리스트에 질문을 해서 위와 같은 케이스에서의 -1은 정상이라는 답변도 받았었습니다.


이번에 페이스북에서 '김호연'님하고 같이 이야기를 하다가 알게된 사이트에서

http://sujitpal.blogspot.kr/2012/12/analyzing-enron-data-frequency.html


MultiFields로부터 TermFreq를 얻는 방법이 있어서, 이것을 자바로 변환해보았습니다.


결과를 보시면 전체 색인된 document로부터 같은 필드명을 갖는 필드에 대한 모든 Term Freq 정보를 가져올 수 있네요. 위에서 -1이 나오던 getSumTotalTermFreq도 해당 필드에서 추출된 전체 Term의 Freq의 합으로 잘 나옵니다.


위 예에서는 13.. 왠지 전체 필드에 대한 Term을 가지고 위와 비슷한 작업을 할 수 있을것도 같은데요.. 흠..


Posted by 용식

루씬 3.X 버전까지는 IndexReader로부터 Term과 TermFreq를 얻기 위해서

아래와 같은 코드를 사용하였습니다.




IndexReader로부터 

TermFreqVector termFreqVector1 = ir.getTermFreqVector(0, "f"); 와 같은 형태로

document 하나에 대한 TermFreqVector를 얻어내고

이를 통해서 term 배열과 freq 배열을 얻어서 조합하는 방식입니다.


4.0에서는 IndexReader.getTermFreqVector 메서드가 사라지고 대신 아래와 같은 방법을 사용합니다.


IndexReader.getTermVector(0, "f") 메서드를 사용합니다.

이때 Terms라는 클래스의 인스턴스를 얻을 수 있는데, 위 코드의 예에서는 doucment 0번에 대한

인스턴스이므로 하나의 document (위의 예에서는 document 0)가 색인된 역인덱스 파일의 통계 정보를

가지고 있는 것과 같은 값을 가지고 있습니다.


예를 들어서, termEnum.docFreq()는 해당 term을 가진 전체 document의 개수이지만, 위의 경우 전체 document가

하나인것과 같은 상태이므로 1을 return하는 형태입니다.


전체 Terms에 대한 통계정보가 아직 제대로 수집이 되지 않는 부분이 있습니다만 (http://devyongsik.tistory.com/577) 곧 수정이 된다고 합니다.


그리고, Terms도 하나의 document가 아니라

전체 혹은 특정 Term이나 필드에 대한 Terms 인스턴스를 얻어내서 그에 대한

통계를 얻을 수 있는 방법도 있을 것 같습니다.


Posted by 용식