Показать сообщение отдельно
Старый 24.02.2015, 17:02   #12
SerejaKu
Старожил
 
Аватар для SerejaKu
 
Регистрация: 15.02.2007
Адрес: Екатеринбург
Сообщений: 5,768
SerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мира
Способен:

http://habrahabr.ru/post/229403/

Смысловые связи

С этим сложнее. Смысловые связи определяются в тезаурусах, в том числе — в открывшемся недавно в публичный доступ тезаурусе RuThes, но общая проблема всех тезаурусов — их ограниченность. Слишком мало слов, слишком мало связей. Поэтому связи между словами можно накапливать и самостоятельно — занимаясь набором статистики согласованных и несогласованных нграмм по библиотекам художественной литературы, новостным лентам.
Процесс обработки больших объёмов текста, тем не менее, относительно быстр — 1 Гигабайт текста в однобайтовой кодировке можно обработать менее чем за неделю.

Что получилось в результате?

Сеть, объединяющая большую часть сейчас употребляемых слов русского языка, с 32-мя типами связей между словами. Связи, такие как «синоним», «антоним», «характеристика», «определение» и т.д. Для сравнения, в FreeBase типов связей — более 14-ти тысяч. Но даже эта скромная сеть позволяет получать нетривиальные результаты.

Вывод по аналогии

Представим себе, что на вход системы, в качестве обучающего образца, поступила пара вопрос-ответ:

Какого цвета огурец? Огурец зелёного цвета.

и мы желаем, что-бы система правильно ответила на вопрос Какого цвета апельсин?

Как это сделать? Необходимо найти такой путь по сети, который связывает «огурец» и «зелёный». И который можно применить к «апельсину». И сделать это необходимо автоматически. Обилие связей между словами в сети позволяет решить эту задачу следующим образом:

1. зелёный является гипонимом цвета (Викисловарь).
2. Огурец имеет высокочастотную связь с зелёным (согласованные нграммы. Это означает, что в обработанной литературе часто встречалась связь зелёного и огурца «на столе лежали зелёные огурцы»).
3. Следовательно, путь по сети определяется как «огурец <нграмма „характеристика“> ЦЕЛЬ <гипероним (обратный к гипониму)> цвет».

Собственно, задача поиска пути по сети является классической задачей поиска пути по ненаправленному графу. Понятно, что таких путей может быть несколько, и каждый из них приводит не только к нужной нам цели — «зелёный», но и к другим аналогичным словам. Например — жёлтый. Жёлтые огурцы (перезрелые) также встречаются в литературе, хотя и реже, чем зелёные. И жёлтый, разумеется, точно так-же связан со словом «цвет», как и зелёный. Поэтому, приходится проводить взвешивание каждого из путей весовыми коэффициентами так, что-бы цель поиска имела наибольший рейтинг. Немного переформулируя, можно сказать, что мы формируем самообучающуюся сеть, которая в качестве входных сигналов воспринимает не числовые значения, а слова.

Итак, попробуем применить найденный путь к другим аргументам:

Апельсин оказывается оранжевым, море — синим, тучи серыми, а облака — белыми. Трава обычно оказывается зелёной, хотя иногда прорывается и лиловый цвет. Видимо, при накоплении нграмм попались несколько фантастических рассказов.

Но также, океан оказывается глубоким, лужа — мелкой, а семечка — маленькой. Путь универсален, и работает не только для цвета. Путь работает для большинства вопросов, ориентированных на получение значения характеристики «какого цвета/размера/глубины...».

Вычисление подобия

Мы можем использовать нашу сеть для формирования метрики — вычисления степени подобия между различными словами. Что общего между травой и огурцом? Они оба имеют связь со словом «зелёный». Но ещё они имеют связи со словами «кушать», «расти» и многими другими. Следовательно, если вычислить количество совпадающих у двух разных слов связей, можно вычислить степень подобия между этими словами. Даже если в словарях эти слова не представлены и все связи между словами получены в результате накопления статистики.
__________________
Пока живут растаманы из глубинки - Вавилону не устоять!
SerejaKu вне форума   Ответить с цитированием