이번에 공개소프트웨어 개발자 대회에 출품하였다가
1회전 낙방한 한글명사 추출 Analyzer입니다.
형태소 분석 알고리즘은 들어있지 않고
String Scan 형식으로 사전과 Match되는 명사를 추출하고
동의어사전, 복합명사사전, 불용어사전등을 사용하여
루씬의 Analyzer와 Filter의 사용으로 여러 기능을 구현하고 있습니다.
형태소분석까지는 무리더라도
Scan을 좀 빠른 속도와 효율적인 알고리즘, 자료구조로 바꿔보고 싶은
욕심은 있습니다.
형태소분석 기능이 들어가면 더할나위 없이 좋겠지만
제가 형태소분석에 대한 지식이 없어서 구현은 하지 못 하였습니다.
소스는 github를 사용하여 관리하고 있습니다.
한글명사 추출의 기능적인 면보다도 어쩌면 Analyzer와 Filter의 사용에 대한
공부에 더 좋을지도 모르겠네요 :)
com/tistory/devyongsik/sample 패키지를 보시면
이 Analyzer를 활용한 예도 있으니 참고해보세요.
https://github.com/need4spd/lucene-korean-analyzer
그래도 조금 기대했었는데
아직 실력이 많이 부족한 것 같습니다. 참여자가 많지 않다고 하여
너무 쉽게 생각했을지도 모르겠습니다. :)
내년에 다시 한번 도전해보고 싶네요.
Lucene