Морфологический анализ объема данных

Цена договорная • электронные деньги
07 января 2015, 18:36 • 11 откликов • 295 просмотров
Нужен помощник-программист и энтузиаст data mining с научно-исследовательскими целями. Решается проблема нашего технократического общества, в котором технологии опережают реальные потребности людей.

Дано:

Собранный объем информации за определенный период в виде статей с таксономией.

Задача:
Сделать выводы и прогнозы, обнаружив закономерности и тренды

Решение:
Нужно проанализировать статьи на % повторяющихся слов и словосочетаний. Результат нужен в виде не просто отсортированных ключевых слов,
а группы статей, объединенные по их типу. То есть это похоже на задачу
кластеризации.

Основное, что требуется для ее решения, — написать функцию расстояния,
которая на вход принимает пару заказов и на выходе дает число,
показывающее, насколько они похожи. Например, 1, если это одна и та же
задача, и 0, если между ними нет ничего общего. Если что-то общее есть,
то какое-то значение где-нибудь между 0 и 1. Есть разные алгоритмы
кластеризации, которые, используя эту функцию расстояния, смогут
объединить близкие задачи в одну группу.

Чтобы такую функцию написать тоже может потребоваться перебрать
несколько вариантов. Для начала можно смотреть на количество одинаковых
слов в текстах статей. Слова можно взвешивать, чтобы часто
употребляемые имели меньший вес (TF-IDF). Возможно, у текста статей есть какие-то особенности, которые помогут построить более точную
функцию расстояния.