Мозаичный форум  

Вернуться   Мозаичный форум > О мире > Цифровые технологии, программирование и сайтостроительство
Галерея Справка Пользователи Календарь Поиск Сообщения за день Все разделы прочитаны

Цифровые технологии, программирование и сайтостроительство Полупрофессиональный подраздел. Подробное описание раздела находится в прикреплённой теме.

Ответ
 
Опции темы
Старый 24.02.2015, 16:29   #11
Zab
Старожил
 
Аватар для Zab
 
Регистрация: 22.01.2008
Адрес: Санкт-Петербург
Сообщений: 8,738
Zab мозаика мираZab мозаика мираZab мозаика мираZab мозаика мираZab мозаика мираZab мозаика мираZab мозаика мираZab мозаика мираZab мозаика мираZab мозаика мираZab мозаика мира
Знакомый описывал свое изумление, когда в техническом тексте вдруг вынырнуло "это конская голова". Какие тут лошади? Про них речь вообще не шла. Не зная англичан, наш человек и не поймет что это значит. И какой смысл буквального перевода?
В обратную сторону все тоже самое. Слова сами по себе далеко не все передают, много надо брать из образа жизни и подыскивать аналоги в образе жизни чужом. Автомат на такое способен?
Zab вне форума   Ответить с цитированием
Старый 24.02.2015, 17:02   #12
SerejaKu
Старожил
 
Аватар для SerejaKu
 
Регистрация: 15.02.2007
Адрес: Екатеринбург
Сообщений: 5,752
SerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мираSerejaKu мозаика мира
Способен:

http://habrahabr.ru/post/229403/

Смысловые связи

С этим сложнее. Смысловые связи определяются в тезаурусах, в том числе — в открывшемся недавно в публичный доступ тезаурусе RuThes, но общая проблема всех тезаурусов — их ограниченность. Слишком мало слов, слишком мало связей. Поэтому связи между словами можно накапливать и самостоятельно — занимаясь набором статистики согласованных и несогласованных нграмм по библиотекам художественной литературы, новостным лентам.
Процесс обработки больших объёмов текста, тем не менее, относительно быстр — 1 Гигабайт текста в однобайтовой кодировке можно обработать менее чем за неделю.

Что получилось в результате?

Сеть, объединяющая большую часть сейчас употребляемых слов русского языка, с 32-мя типами связей между словами. Связи, такие как «синоним», «антоним», «характеристика», «определение» и т.д. Для сравнения, в FreeBase типов связей — более 14-ти тысяч. Но даже эта скромная сеть позволяет получать нетривиальные результаты.

Вывод по аналогии

Представим себе, что на вход системы, в качестве обучающего образца, поступила пара вопрос-ответ:

Какого цвета огурец? Огурец зелёного цвета.

и мы желаем, что-бы система правильно ответила на вопрос Какого цвета апельсин?

Как это сделать? Необходимо найти такой путь по сети, который связывает «огурец» и «зелёный». И который можно применить к «апельсину». И сделать это необходимо автоматически. Обилие связей между словами в сети позволяет решить эту задачу следующим образом:

1. зелёный является гипонимом цвета (Викисловарь).
2. Огурец имеет высокочастотную связь с зелёным (согласованные нграммы. Это означает, что в обработанной литературе часто встречалась связь зелёного и огурца «на столе лежали зелёные огурцы»).
3. Следовательно, путь по сети определяется как «огурец <нграмма „характеристика“> ЦЕЛЬ <гипероним (обратный к гипониму)> цвет».

Собственно, задача поиска пути по сети является классической задачей поиска пути по ненаправленному графу. Понятно, что таких путей может быть несколько, и каждый из них приводит не только к нужной нам цели — «зелёный», но и к другим аналогичным словам. Например — жёлтый. Жёлтые огурцы (перезрелые) также встречаются в литературе, хотя и реже, чем зелёные. И жёлтый, разумеется, точно так-же связан со словом «цвет», как и зелёный. Поэтому, приходится проводить взвешивание каждого из путей весовыми коэффициентами так, что-бы цель поиска имела наибольший рейтинг. Немного переформулируя, можно сказать, что мы формируем самообучающуюся сеть, которая в качестве входных сигналов воспринимает не числовые значения, а слова.

Итак, попробуем применить найденный путь к другим аргументам:

Апельсин оказывается оранжевым, море — синим, тучи серыми, а облака — белыми. Трава обычно оказывается зелёной, хотя иногда прорывается и лиловый цвет. Видимо, при накоплении нграмм попались несколько фантастических рассказов.

Но также, океан оказывается глубоким, лужа — мелкой, а семечка — маленькой. Путь универсален, и работает не только для цвета. Путь работает для большинства вопросов, ориентированных на получение значения характеристики «какого цвета/размера/глубины...».

Вычисление подобия

Мы можем использовать нашу сеть для формирования метрики — вычисления степени подобия между различными словами. Что общего между травой и огурцом? Они оба имеют связь со словом «зелёный». Но ещё они имеют связи со словами «кушать», «расти» и многими другими. Следовательно, если вычислить количество совпадающих у двух разных слов связей, можно вычислить степень подобия между этими словами. Даже если в словарях эти слова не представлены и все связи между словами получены в результате накопления статистики.
__________________
Пока живут растаманы из глубинки - Вавилону не устоять!
SerejaKu вне форума   Ответить с цитированием
Старый 24.02.2015, 17:21   #13
Aliskana
Вольная мастерица
 
Аватар для Aliskana
 
Регистрация: 26.11.2008
Адрес: Пока Кармиэль
Сообщений: 26,047
Aliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мира
Примеры учитывающих это переводов можно?

Кстати, я тут начала новый уровень английского осваивать. Сейчас изучаю курс на примере "Шерлока". Учусь понимать на слух в оригинальном темпе. Интересное развлечение. Даже с сабами.

Вот, подкидываю для умного автомата. Пусть покушает, позабавится:

Cold turkey we agreed, no matter what.
Chance would be a fine thing.
Been at the scrath card again.
They're probably paw prints, could be anything, therefore nothing.
It doesn't take much these days, one mention on Twitter and whoomph!
Mind if I join you?
It was foggy, mind, couldn't make much out.
Quite a way, sir.
I have a lot of fingers in a lot of pies.
On your head be it.

Удачи роботу!
__________________


Плохой купил ты телевизор -
В нем лишь убийства и разврат.
Верни наш старый чёрно-белый
Про мир гагарин и мосфильм.

Предпочитаю вежливость.


Последний раз редактировалось Aliskana; 24.02.2015 в 17:39. Причина: ==
Aliskana вне форума   Ответить с цитированием
Старый 24.02.2015, 17:21   #14
Tytgrom
реал зовет
 
Аватар для Tytgrom
 
Регистрация: 08.10.2007
Сообщений: 83,332
Tytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мира
Мы развлекались переводя кусочки художественных произведений с русского на английский и обратно Если проделать это используя несколько языков, то (по слухам) из Анны Каренины получается Каштанка
__________________
Некоторые материалы в интернете могут содержать недостоверную информацию. Пожалуйста, будьте внимательны.
Tytgrom вне форума   Ответить с цитированием
Старый 24.02.2015, 17:44   #15
Aliskana
Вольная мастерица
 
Аватар для Aliskana
 
Регистрация: 26.11.2008
Адрес: Пока Кармиэль
Сообщений: 26,047
Aliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мира
Пример, приведенный Чуковским в "Искусстве перевода".

Пушкин, однако.

Оригинал:

Богат и славен Кочубей,
Его поля необозримы.
Здесь табуны его коней
Пасутся вольны, нехранимы.
И много у него добра:
Мехов, булата, серебра.

Обратный перевод на немецкий, затем на русский:

Был Кочубей богат и горд,
Его поля обширны были.
И очень много конских морд,
Мехов, сатина первый сорт
Его потребностям служили.

Смысл, в общем, тот же самый. В отличие от свежего спирта и протухшего мяса.
__________________


Плохой купил ты телевизор -
В нем лишь убийства и разврат.
Верни наш старый чёрно-белый
Про мир гагарин и мосфильм.

Предпочитаю вежливость.

Aliskana вне форума   Ответить с цитированием
Старый 24.02.2015, 17:48   #16
Tytgrom
реал зовет
 
Аватар для Tytgrom
 
Регистрация: 08.10.2007
Сообщений: 83,332
Tytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мираTytgrom мозаика мира
"Он покрыл его матом" вместо "он накрыл его циновкой" )

А Чуковский тоже через компьютерного переводчика переводил?
__________________
Некоторые материалы в интернете могут содержать недостоверную информацию. Пожалуйста, будьте внимательны.
Tytgrom вне форума   Ответить с цитированием
Старый 24.02.2015, 17:54   #17
Aliskana
Вольная мастерица
 
Аватар для Aliskana
 
Регистрация: 26.11.2008
Адрес: Пока Кармиэль
Сообщений: 26,047
Aliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мира
Нет, Чуковский приводил пример человеческого перевода. Какой-то немец вставил перевод Пушкина в книгу по истории Украины 18 века, а переводчик этой книги на русский не узнал Пушкина в немецком переводе и перевел стихотворение заново.

Компьютерный переводчик вроде как стихи не умеет переводить. Или уже умеет?
__________________


Плохой купил ты телевизор -
В нем лишь убийства и разврат.
Верни наш старый чёрно-белый
Про мир гагарин и мосфильм.

Предпочитаю вежливость.

Aliskana вне форума   Ответить с цитированием
Старый 24.02.2015, 19:39   #18
Рыжий Кот
Пророк без порток(с)Тутти
 
Аватар для Рыжий Кот
 
Регистрация: 27.04.2006
Адрес: Ближнее Замкадьё
Сообщений: 10,424
Рыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мира
Следователь: Чукча спрятал золото?
Переводчик: Чукча спрятал золото?
Чукча: Чукча не знает, где золото.
Переводчик: Чукча не знает, где золото.
Следователь: Если чукча не скажет, где спрятал золото, следователь его расстреляет.
Переводчик: Если чукча не скажет, где спрятал золото, следователь его расстреляет.
Чукча: золото лежит под кривым засохшим деревом в третьем овраге.
Переводчик: Чукча не скажет. Пускай расстреливает.


Судак, ты про что? В каждом компьютере с переводчиком торчит Виндоуз, который Билл Гейтс, миллиардер и лояльный гражданин США, давно сдал со всеми кодами в АНБ, ФБР и ЦРУ. Переведут как надо; в нужный момент вставят "чукча согласен через повешенье" и всё. И Андроид там же.
Нэ тратьте, кумэ, сылы, а спускайтэсь соби на дно.
__________________
Если человек лишён чувства юмора, значит было за что. (с) JIuca
Рыжий Кот вне форума   Ответить с цитированием
Старый 24.02.2015, 19:50   #19
Aliskana
Вольная мастерица
 
Аватар для Aliskana
 
Регистрация: 26.11.2008
Адрес: Пока Кармиэль
Сообщений: 26,047
Aliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мираAliskana мозаика мира
Хищный кот, хорош беззащитного судака запугивать.
__________________


Плохой купил ты телевизор -
В нем лишь убийства и разврат.
Верни наш старый чёрно-белый
Про мир гагарин и мосфильм.

Предпочитаю вежливость.

Aliskana вне форума   Ответить с цитированием
Старый 24.02.2015, 21:12   #20
Рыжий Кот
Пророк без порток(с)Тутти
 
Аватар для Рыжий Кот
 
Регистрация: 27.04.2006
Адрес: Ближнее Замкадьё
Сообщений: 10,424
Рыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мираРыжий Кот мозаика мира
Мы, коты, рыбу не запугиваем. Мы, коты, рыбу любим.
__________________
Если человек лишён чувства юмора, значит было за что. (с) JIuca
Рыжий Кот вне форума   Ответить с цитированием
Ответ

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Часовой пояс GMT +4, время: 15:17.