Классификатор текстовых документов на базе WordNet

Тип разработки: 
Программа
Регистрационный номер в ФАП: 
PR10035
Дата регистрации в ФАП: 
2010-12-23
Тематическая направленность: 
Автоматическая классификация текстов
Заявитель: 
Разработчики программы (базы данных): 
Аннотация: 

Программный комплекс предназначен для автоматической классификации текстовых документов. Областями применения являются существующие информационные системы (повышение релевантности результатов поиска), системы электронного документооборота (тематическая классификация документов). Классификатор создан на базе метода ближайших соседей. В качестве признаков документов используются значения слов и словосочетаний, которые представляются синсетами WordNet. Алгоритм разрешения лексической многозначности разработан автором [1] и использует метод векторов дефиниций [2] для оценки семантической близости синсетов с контекстом. Программный комплекс рассчитан на работу с документами коллекций "Reuters-21578" и "Reuters Corpus Volume 1". Инструментальными средствами создания являются язык программирования Erlang/OTP и базы семантического словаря английского языка WordNet.

[1] Епрев А.С. Применение контекстных векторов в классификации текстовых документов // Журнал радиоэлектроники. 2010. № 10. С. 1-7.

[2] Patwardhan S., Pedersen T. Using WordNet-based context vectors to estimate the semantic relatedness of concepts // EACL 2006 Workshop Making Sense of Sense. Trento, Italy, 2006. P. 1-8.
Использованные при разработке материалы: 
WordNet (Princeton University), Erlang/OTP (Ericsson Computer Science Laboratory)
Признак доступности программы (базы данных): 
доступ по запросу
Требования к аппаратным и программным средствам: 

ОС Windows/Unix с установленной средой выполнения Erlang.

Контактная информация: 
a.eprev@gmail.com