Привет тебе, великий All! Задам вопрос, может быть, тривиальный. А может, наоборот, из области фантастики. Тебе видней. Предположим, у нас имеется 100 текстов на русском языке. Стоит задача провести их анализ и в итоге получить следующую инфу: Какие тексты, скорее всего, посвящены одной и той же теме (событию, явлению). Список ключевых слов, связанных с этими темами. Что это? Как это делается? Есть ли какие-то готовые алгоритмы, проекты, библиотеки?
хyйня вопрос, но для начала нужно решить задачу определения тематики. =) ну... короче, есть сервисы, которые могут это сделать. Пытаться родить это самостоятельно - дохлый номер.
Создаешь словарь принадлежности к какой то тематике проверяешь текст по всем словарям и смотришь где больше совпадений
А что смешного? В инете полно русско-английских словарей разбитых по тематикам. Берешь за основу и все готово