DEV용식

본문 바로가기

[lucene] 오랜만에 진행중인 상황 올려봅니다. 커.. Analyzer하나 만드는게 장난 아닙니다. 전에 올렸듯이.. Tokenizer는 기본적으로 스페이스,특수문자,영어&숫자 와 한글 분리 로 토큰을 만들어 내는 방식을 고수하고 있습니다. 문제는 이제 저렇게 해서 나온 TokenStream을 받아서 어떻게 색인어를 추출하느냐.. 마땅히 어디서 구할 사전도 없고 해서 정말 아는 것도 없는 놈이 막코딩을 하고 있습니다..ㅠㅠ 일단 기본적인 명사 사전을 가지고.. 들어온 Token에서 명사를 추출해야 하는데.. 현재는 이런 방식을 쓰고 있습니다. String target_term = "언어로배우는자바디자인패턴"; for(int i=0; i < target_term.length(); i++) { for(int j=i; j < target_term.lengt.. 더보기

이전 1 ··· 651 652 653 654 655 656 657 ··· 713 다음

티스토리툴바