На следующей неделе за приз в миллион долларов два профессиональных игрока будут биться с суперкомпьютером IBM Watson. Противостоять ему будут сильнейшие американские интеллектуалы: Ken Jennings, выигравший подряд 74 тура телевикторины Jeopardy для всезнаек, заработав на этом 2,5 млн. долл., и его коллега Brad Rutter — рекордсмен по сумме призовых (3,25 млн. долл.). Предварительные туры в январе уже прошли, и компьютер победил достаточно убедительно.

Машина быстро отвечает на вопросы из самых разных сфер знаний. Она выполняет сложный поиск и производит весьма глубокий анализ текстовой базы. Ее потенциальный объем — 15 Тб, хотя реальное количество информации, конечно, меньше (по неофициальным сведениям, до 500 Гб). Объем Интернета на сегодня составляет около 1 Тб, а человеческий мозг умещает 1000 Тб.

Справочно-энциклопедическая информация Watson проиндексирована по тематическим областям. Получив вопрос на обычном английском, система пытается понять его смысл, генерирует около сотни гипотез, и начинает параллельный аналитический поиск в базе, проверяя тысячи возможных ответов, и дополняя их статистическими оценками. До финиша добирается пятерка вариантов, которая для наглядности показывается зрителям шоу, и из нее Watson выбирает наиболее подходящий, по его мнению, ответ — с учетом возможного штрафа за неверную попытку, то есть требуется еще как следует оценить игровые риски.

Интернетом Watson не пользуется, полностью автономен и связан с внешним миром только через модуль текстового ввода вопроса в ANSII-формате (некоторые СМИ поспешили заявить, что Watson распознает разговорную речь, сам выделяет вопросы ведущего и т. д., но это не так). Кроме того, для нажатия на сигнальную кнопку используется несложный автоматический механизм.

Watson поверхностно критикуют, что, дескать он больше похож на гигантский справочник, нежели на действительно рассуждающий комплекс. Но этот комплекс как раз весьма эффективно моделирует важные логические способности человека — не просто выдает готовый шаблонный ответ, а как и все нормально рассуждающие люди, разумно пользуется своей памятью для нахождения подчас весьма нетривиальных ответов на свободно сформулированные вопросы на естественном языке. Наверняка в будущем Watson будет дополнен различными прикладными модулями логического вывода. Более того, Watson неплохо понимает и метафоры и неоднозначно или нечетко сформулированные вопросы.

Watson составлен из 90 Linux-кластеров Power 750 и насчитывает 2880 процессоров Power 7 суммарной производительностью 80 Тфлопс. На создание этого аппаратно-программного комплекса подразделение IBM Research потратило сто человеко-лет.

На первый взгляд, непонятно, зачем нужна такая вычислительная производительность, если система вроде бы преимущественно выполняет поиск по массиву текстов, пусть и весьма сложный. Дело в том, что Watson для нахождения достоверного ответа рассматривает множество вариантов, и для каждого из них запускает собственный аналитический процесс. С учетом того, что реагировать на вопрос надо быстро (люди отвечают за две-три секунды), и приходится организовывать интенсивный параллельный обсчет.

Более подробно про Watson и технологию поиска ответов deep question-answering можно почитать на сайте лаборатории.
В этой технологии, кстати, применяются наработки, вошедшие в открытую среду Apache UIMA для анализа неструктурированного контента, которая стандартизована консорциумом OASIS. Для нее также имеется масштабируемое расширение UIMA-AS для асинхронных middleware-архитектур.
Сергей Бобровский
Источник: pcweek.ru

загрузка...