루씬을 사용하기 위해
상품명 색인어 추출을 위한 Analyzer를 제작중입니다.

맨땅에서 할 실력이 안되어서
루씬인액션 책에 있는 StemFilter를 참고하여
텍스트 사전 기반의 StemFilter를 하나 만들고

CharTokenizer를 참고하여 영문/숫자와 한글을 분리해내는
Tokenizer를 하나 만들어서 시작 해볼 생각입니다.

형태소 분석이라기 보다는 말 그대로 색인어 추출에 가깝죠..;;

국어도 못 하고
형태소 분석하기 위해서 국어 공부와 알고리즘 등등을 할 엄두가 나지 않아
일단 부딫혀 봤습니다.

빡세네요..^^;;

그래도 저한테는 많은 도움이 될 것 같습니다..

정리되는대로 소스도 올려보고 해서 많은 도움 받았으면 좋겠네요..웅


일단
정품 아베크롬비 프리티 베드포드 핫팬츠/반바지[착불], 4KUS 16배속 DVD±RW(DRW-3S167)[16X16]+블랙베젤+FANTASY2.0(동영상편집프로그램)
를 넣으면
[정품][아베크롬비][프리티][베드포드][핫팬츠][반바지][착불][4kus][16][배속][dvd][rw][drw][3s167][16x16][블랙베젤][fantasy2][0][동영상편집프로그램]

MP3엠피3 BYR24098 패션[style] usb1gb/충전기 패션style usb1gb충전기
를 넣으면
[mp3][엠피][3][byr24098][패션][style][usb1gb][충전기][패션][style][usb1gb][충전기]

MP3P폰, 세닉스 MP3플레이어 DMP-860 (256MB) 패션 스타일 MP3 Player 유혹FL-350 1GB+USB충전아답터
를 넣으면
[mp3p][폰][세닉스][mp3][플레이어][dmp][860][256mb][패션][스타일][mp3][player][유혹][fl][350][1gb][usb][충전아답터]

요기까지 되는데.. 보고있으면 어디부터 손대야 할지 ㅠㅠ...

발전되가는 모습을 계속 적어나갈 수 있었으면 좋겠습니다 ^^
Posted by 용식