Lucene 썸네일형 리스트형 [Lucene] DrillDown Facet Search in Lucene 4.6.1 앞선 포스트에서 FacetSearch에 대해 간단하게 알아보았습니다. http://devyongsik.tistory.com/679 앞의 예제에서 카테고리를 "java"에서 "programming/java"와 같은 형태로 상위레벨의 카테고리를 같이 표현하면어떻게 될까요? 한번 테스트를 돌려보면 아래와 같은 exception이 발생합니다. java.lang.IllegalArgumentException: delimiter character '/' (U+2f) appears in path component "programming/lucene" "/" 이 캐릭터가 문제가 된다는 것을 대략 알 수 있는데요.. 앞에 예제의 결과에서 색인시 CategoryPath를 생성할때 CategoryPath cp = new Ca.. 더보기 [Lucene] FacetSearch in Lucene 4.6.1 오랜만에 Lucene 포스트입니다.FacetSearch의 샘플 코드인데요.. 기능 자체는 예전 버전부터 제공이 되었던 기능입니다.FacetSearch란 무엇이냐 하면 간단하게 SQL의 group by와 같은 기능이라고 생각하시면 됩니다. 보통 쇼핑몰에서 검색결과를 카테고리별로 묶어서 해당 카테고리에 몇개의 상품이 검색되어 있는지등을보여줄때 많이 사용됩니다. 그리고, DB도 그렇지만 성능에 많은 영향을 미치는 기능이기도 하지요.. 11번가에서 검색 운영을 할때도 이런저런 성능적인 이슈들이 많았지만 그중 검색결과 페이지의 로딩 속도에 큰 영향을 주는 부분은 바로 이 group by 기능이었습니다. 예전부터 Lucene의 이 기능을 한번 사용해보고 싶었는데 이제서야 학습테스트 코드로나마 작성해보네요.. --ㅋ.. 더보기 최근 lucene-Korean-Analyzer 프로젝트의 근황 아주 먼 옛날.... 한 6년전쯤? GS모사에 있을때 루씬으로 처음 검색엔진 만들어보고자 했을때 한글 분석기가 없어서 세종프로젝트의 양해를 구해 명사 사전을 받아 단순 탐색+매칭으로 명사추출을 시키고, 스테머, 동의어필터등을 구현해서 만들어왔던 프로젝트가 하나있습니다. https://github.com/need4spd/lucene-Korean-Analyzer 인데요.. 이게 그로부터 1-2년 후 이수명님께서 한글형태소분석기를 개발해 오픈(http://cafe.naver.com/korlucene)해주시면서 제가 그 형태소분석기를 명사추출 모듈의 하나로 사용하여 필터를 보강하였고, 현재 crescent를 gradle build하면 바로 이 라이브러리를 다운받아 사용하도록 되어있습니다. 최근에 이수명님의 한글.. 더보기 [Lucene] NumberType Field 관련 crescent의 색인관리 페이지를 루씬 4.4로 바꾸면서 한구님께서 만드셨던 부분을 거의 다 손을 댔는데.. 그중 각 필드의 term 개수를 추출하는 부분에서 이상한 현상이 보였다. Long 혹은 Integer 타입의 필드에서 term이 이상하게 추출되는 것이었는데..현상은 두가지로 나타나고 있었다. 1. 색인된 숫자가 깨져서 보임2. 색인된 숫자보다 더 많은 term이 색인되어있음 테스트 코드를 만들어서 다시 확인을 해봐도 동일한 현상이었다.stackoverflow에도 같은 현상으로 질문이 올라온 것도 찾았다.http://stackoverflow.com/questions/11883066/luke-reveals-unknown-term-values-for-numeric-fields-in-index 위 코.. 더보기 [Lucene 4.X] IndexStatistic from Index https://builds.apache.org/job/Lucene-Artifacts-4.x/javadoc/core/org/apache/lucene/index/package-summary.html#stats 예전에 루씬4.0이 처음 나왔을무렵에..인덱스 파일에 대한 통계 정보를 가지고 오는 것을 한번 정리하려고 관련 자료만 스크랩을 해두었었는데요(http://devyongsik.tistory.com/576)이번에 관련 스크랩 정보를 사용해서, Lucene 4.4에서 한번 테스트를 해보았습니다. Junit을 사용한 학습 테스트를 작성하였지만, 시간상 Assert는 사용하지 않고 그냥 값들을 System.out.println으로 출력만 하도록 하였습니다. 이 부분은 나중에 다시 손을 좀 봐야겠습니다. 아무래도.. 더보기 [Lucene] IndexDeletionPolicy - lucene 4.2.1 이전에 IndexCommit에 대해서 잠깐 확인을 해보았었는데요.. 이번에는 IndexDeletionPolicy에 대해서 확인해보려고 합니다. 기본적으로 제공되는 IndexDeletionPolicy의 구현 클래스로는 KeepOnlyLastCommitDeletionPolicy와 SnapShotDeletionPolicy가 있습니다. KeepOnlyLastCommitDeletionPolicy가 기본이구요. commit을 할때마다 commit의 정보를 가지고있는 IndexCommit 객체가 생성되는데 이 IndexCommit을 어떻게 할것이냐의 정책이라고 보시면 좋을 것 같습니다. 우선 기본적인 IndexDeletionPolicy에서 제공되는 메서드가 2개가 있습니다. 하나는, onInit 메서드 하나는 onC.. 더보기 [Lucene] IndexCommit - lucene4.2.1 IndexDeletionPolicy에 대한 내용을 보기전에 IndexCommit에 대한 학습예제를 조금 작성해보았습니다.lucene 소스에 있는 IndexCommit 테스트케이스에는 두개의 IndexCommit에 대한 비교만들어가 있네요.. 실제 commit시에 어떠한 값을 가지고 있는지 확인해보고 싶어서 아래와 같이출력만하는 학습테스트 클래스를 작성하였습니다. 결과를 보시면..1. commit이 일어날때마다 generation을 계속 증가합니다.2. commit이 일어날때마다 segmentcount 역시 증가합니다.3. segmentcount의 경우 위 예제에서의 결과만으로 보면, 문서를 하나씩 indexWriter에 add 후 commit을 하였기 때문에 문서 하나가 하나의 세그먼트에 들어갔고, 그 .. 더보기 [lucene] MultiFields.getTerms. getSumTotalTermFreq in Lucene 4.2.1 예전에 루씬으로 색인한 인덱스파일로부터 Term Freq를 뽑는 포스팅을 한적이 있는데요.. http://devyongsik.tistory.com/577http://devyongsik.tistory.com/578 그 당시에는 인덱스리더로부터 TermVector를 하나 들고와서 TermVector로부터 Terms 객체를 얻어서getSumTotalTermFreq()를 실행했었고 이 값이 -1이 나왔었습니다. 이건 전체 Term의 Freq의 합이죠.. IndexReader ir = IndexReader.open(dir);Terms terms1 = ir.getTermVector(0, "f"); System.out.println(terms1.getSumTotalTermFreq()); 당시 루씬 메일링 리스트에 질.. 더보기 로그 분석기를 Oracle+Lucene에서 Hadoop+MySQL로 변경하면서 처음 이 회사에 입사하여 매일 손으로 작업하던 업무들을 정리해가던 중 개인적인 시간을 내어개발을 했던 것이 검색 로그분석기이다. 단순히, 인기검색어등의 분석만이 아니라쿼리별 평균응답시간부터, remote client ip, 호출 클래스, 정렬조건, 페이지, 색인시간등 검색 운영에 필요한 전반적인 정보들을 모두 분석해서 웹으로 보려고 했던 것이 이 개인 프로젝트 시작이었다. 제일 초기버전은 로그를 분석 할 파서를 개발하고이렇게 분석된 정보들을 Java Programm에서 Map을 사용하여 일별로 집계하는 방식이었다.그리고, 이렇게 집계된 데이터는 Lucene으로 색인하여 저장하고, 조회 또한 Lucene으로 검색하여조회하는 방식이었다. 이렇게 약 1년을 사용하다보니 이 프로그램을 유지보수해야하는 다른 파트.. 더보기 [lucene] TermFreqVector 얻기. (lucene 3.6, lucene 4.0) 루씬 3.X 버전까지는 IndexReader로부터 Term과 TermFreq를 얻기 위해서 아래와 같은 코드를 사용하였습니다. IndexReader로부터 TermFreqVector termFreqVector1 = ir.getTermFreqVector(0, "f"); 와 같은 형태로 document 하나에 대한 TermFreqVector를 얻어내고 이를 통해서 term 배열과 freq 배열을 얻어서 조합하는 방식입니다. 4.0에서는 IndexReader.getTermFreqVector 메서드가 사라지고 대신 아래와 같은 방법을 사용합니다. IndexReader.getTermVector(0, "f") 메서드를 사용합니다. 이때 Terms라는 클래스의 인스턴스를 얻을 수 있는데, 위 코드의 예에서는 doucm.. 더보기 이전 1 2 3 4 5 다음