논문내용 |
사용자가 요구하는 정보를 정확하고 효과적으로 검색하는 작업은 더욱 불편해지고 있다. 문서의 클러스터링은 대용량의 문서 집합에서 효과적인 정보 검색을 위한 요구 기능이다. 본 논문에서는 문서의 검색 응용에 문서 단위로의 연산 보다는 문서 내의 의미 부분을 활용한다. 온톨로지를 활용, 문서내의 의미 흐름 기반으로 문서를 문단화하고 이를 클러스터링에 활용하는 기법을 제안한다. 의미 흐름 단위로 문서 분류를 수행하므로 의미 기반 클러스터링이 가능하다. 클러스터링을 수행하는데 사용하는 단위가 문서에서 문단으로 줄어든다. 따라서, 문단 기반의 검색이 가능하게 함으로써 사용자가 문서 내에서의 검색을 수행할 수 있다. Reuter-21578 문서 집합을 사용하여 실험한 결과 문단기반 방식 보다 성능이 향상되었다. |