Классификатор текстовых документов на базе WordNet
Программный комплекс предназначен для автоматической классификации текстовых документов. Областями применения являются существующие информационные системы (повышение релевантности результатов поиска), системы электронного документооборота (тематическая классификация документов). Классификатор создан на базе метода ближайших соседей. В качестве признаков документов используются значения слов и словосочетаний, которые представляются синсетами WordNet. Алгоритм разрешения лексической многозначности разработан автором [1] и использует метод векторов дефиниций [2] для оценки семантической близости синсетов с контекстом. Программный комплекс рассчитан на работу с документами коллекций "Reuters-21578" и "Reuters Corpus Volume 1". Инструментальными средствами создания являются язык программирования Erlang/OTP и базы семантического словаря английского языка WordNet.
[1] Епрев А.С. Применение контекстных векторов в классификации текстовых документов // Журнал радиоэлектроники. 2010. № 10. С. 1-7.
ОС Windows/Unix с установленной средой выполнения Erlang.