Блог экспериментатора инженера-разработчика: Infanty.
Я пишу how-to статьи на редкие темы или статьи обзоры - для себя и тех кто со мной работает.
Блог существует при поддержке: "Оккупационных сил Марса".

Оглавление

  1. Введение.
  2. Прошлое, настоящее и утопическое будущее.
  3. Текущие состояние отрасли прикладных программ в области ИИ.
  4. Знания по ИИ имевшиеся у меня перед началом проекта в области ИИ.
  5. Сравнение алгоритмов поисковых систем нового поколения.
  6. Нейронная сеть без дополнительных алгоритмов не может быть основой для ИИ.
  7. ПО, алгоритмы и архитектура проекта с использованием AI и BigData (реализация не включена).
  8. Реализация прототипа проекта с использованием AI и BigData (настройка ПО не включено).

 

5. Сравнение алгоритмов поисковых систем нового поколения

Для выявления ключевых особенностей (связанных с ИИ) поисковых систем текущего поколения (Google, Bing) был произведён анализ их крупнейщих технологических поглощений.

 

Metaweb

В июле 2010 года поисковый стартап Metaweb разрабатывающий технологию семантической разметки материалов размещённых в сети интернет и поддерживающий открытую базу знаний Freebase (12 млн людей, мест и объектов, связанных друг с другом), был куплен компанией Google. По мнению экспертов сумма сделки должна составлять не менее нескольких миллионов долларов.

Вопросы на которые может отвечать поисковый алгоритм данной фирмы:

  • актёры старше 40 лет, которые получили хотя бы одну премию «Оскар»;
  • университет на западном берегу со стоимостью обучения не более 30 000$.

Поисковый алгоритм основан на том, что каждое слово является тегом который связан с другими тегами. Часть связей объединены в группы — кластеры тегов. При получении запроса от пользователя:

  • ищется, на базе морфологии предложения, объект о котором задаётся вопрос;
  • перебираются все теги в базе знаний соответствующие условию поиска объекта;
  • для каждого найденного тега строится кластер содержащий связи данного тега с со словами найденными в предложении, которые так же являются тегами;
  • если удалось построить кластер, то начальный тег является ответом на вопрос.

Данный поисковый алгоритм позволяет отвечать на простые вопросы которые могут задавать дети в возрасте от 2 до 6 лет:

  • принадлежность объекта к группе объектов;
  • отличительные признаки одного объекта от другого;
  • схожие по признакам объекты;
  • связь двух объектов;
  • список объектов с заданными параметрами описания;
  • зависимость двух объектов;
  • описание и название объекта из словаря;
  • буквы присутствующие в названии объекта;
  • генерация рассказа о объекте на основе базового шаблона и слов относящихся к данному объекту;
  • работа с цифрами и числами, математические операции, сравнение;
  • работа с временными шкалами на основании предлогов;
  • работа с пространственными шкалами на основании предлогов;
  • ответы на вопросы по тексту типа: сколько объектов определённого типа и цвета упоминалось в тексте;
  • поиск закономерностей в наборах объектов и обработка событий объектов;
  • обработка связей «объект — событие — последствие» реализующих простейшие эмоции.

 

2 мая 2015 года Freebase была закрыта и вместо нее Google предлагает использовать Knowledge Graph. Как альтернативу Knowledge Graph можно использовать базу данных DBpedia или Wikidata (данные Freebase  вошли в её состав).

 

Powerset

В июне 2008 года разработчик технологии семантического (смыслового) поиска, компания Powerset, перешла в собственность Microsoft. По неофициальной информации, сумма сделки составила около $100 млн.

Поисковый алгоритм основан на том, что каждое слово представляет описанный вручную класс с определённым набором свойств.

Данный поисковый алгоритм позволяет отвечать на сложные вопросы, но ограничен словарным запасом в 60 000 уникальных словоформ. Так же используется алгоритм тегирования слов (алгоритм подобный алгоритму Metaweb и построенный на основе её открытой базы знаний Freebase).

Поисковый алгоритм позволяет отвечать на достаточно сложные вопросы, но всё же не может самостоятельно обучаться пополняя свою базу знаний и отвечать на сложные вопросы на которые может ответить только специалист в своей области.

 

WolframAlpha

Не является поисковой системой в чистом виде, это база знаний и набор вычислительных алгоритмов для работы с этим знаниями. Запущена 15 мая 2009 года.

Вопросы на которые может отвечать поисковый алгоритм данной фирмы:

  • где завтра в полдень будет находиться МКС;
  • сколько лет Стиву Джобсу;
  • каково население Соединенных Штатов;
  • который сейчас час в Москве.

Данный поисковый алгоритм позволяет отвечать на сложные вопросы, на которые может ответить только специалист в своей области. Но ограничен только математическими вопросами. Слова в базе знаний протегированны на подобии как в базе знаний Freebase.

 

Итоги анализа

В текущий момент времени для конкуренции на рынке поисковых систем необходимо не только реализовать классический поиск и дополнительные "фишки" поиска, но и внедрить в поисковую систему искусственный интелект.

Поисковая система с ИИ должна разделять все вопросы от пользователей минимум на три категории — простые, сложные и профессиональные. На простые вопросы она может отвечать на основании алгоритма тегирования (с помошью Freebase), на сложные на основании алгоритма классов (как у Powerset), а на профессиональные вопросы отвечать с применением модификаторов которыми являются процессы заключённые в вопросе или с помошью формул расчёта если процесс является математическим (на подобии как у WolframAlpha).

Т.е. все тексты для ответа на профессиональный вопрос должны обрабатываться на основе следующих правил:

  • Любой текст сводится к цепочке на подобии: "охотник" → "действие" → "жертва". Чем больше текст, тем больше раз будет запущено построение таких цепочек. При этом любое "действие" изменяет текущее состояние объектов-классов (далее: объект) описанных в тексте. Так же "действия" могут запускать связанные "действия" и любое "действие" перед запуском может быть модифицировано и включено в состав более сложного "действия".
  • Объект описанный в тексте, которым оперирует система для построения ответа, может быть на самом деле ссылкой на другой объект, а не реальным объектом.
  • Несколько объектов описанных в тексте и находящихся в устойчивом отношении - являются новым составным объектом. Поэтому объекты могут превращаться друг в друга, например из-за нарушения отношений объектов входящих в первоначальный объект.
  • В усложнённой формуле "действия" есть "компонент" который побуждает охотника к "действию", а так же есть "условие" которое он должен выполнить для того что бы ему было разрешено произвести "действие".
  • "Действия" могут быть объединены в кластеры ассоциаций (тегов).
  • На основе проанализированного текста можно построить алгоритм производимых "действий" в тексте — т.е. "алгоритм мира", а на основе кластера ассоциаций создать по полученному алгоритму новый текст — интерпретацию модели мира с последующей генерацией связанных предложений.
  • Следует помнить, что любое предложение является деревом подчинения, в нём есть главное слово которому подчинятся все остальные слова.
  • Так же следует не забывать о запутанности языка, это когда будущее событие описывается с помошью прошедшего времени (например: завтра я опоздаю).

Так же совсем недавно текущее поколение поисковых систем получило обновление в виде улучшения своих алгоритмов с помошью нейронных сетей, что так же необходимо реализовать новой поисковой системе для конкуренции на рынке поисковых систем.