IBM и его суперкомпьютер

Одной из интересных лингвистических разработок нашего времени является Watson — суперкомпьютер, созданный компанией IBM. Свое название проект получил в честь основателя компании Томаса Дж. Уотсона (Thomas J. Watson).

Толчком для создания Watson послужила идея, зародившаяся в IBM в начале 2000-х годов — создать компьютерную систему, которая сможет выиграть у человека в шоу Jeopardy. Основным заданием этого телешоу является быстрый ответ на разнообразные вопросы из разных областей. Выиграть шоу у опытных участников было своеобразным современным аналогом прохождения теста Тьюринга, способным привлечь внимание публики. И в 2011 году, после пяти лет разработок, Watson действительно становится победителем шоу и выигрывает 77147 долларов США.

Watson является частью проекта DeepQA, он был изначально разработан исследовательской командой, которой руководил Девид Феруччи (David Ferrucci). Для создания Watson применяется программное обеспечение IBM DeepQA и инфраструктура Apache UIMA. Для работы суперкомпьютера используется 90 серверов IBM Power 750, каждый из которых использует 3,5 ГГц восьмиядерный процессор POWER7. Компьютер может обрабатывать 500 гигабайт информации в секунду.

Если машинных переводчиков и систем обработки данных существует уже большое количество и многие и них показывают хорошие результаты, то понимать нюансы и контекст произнесенного или написанного текста задача для компьютерных систем практически невыполнимая. Также непреодолимую трудность для машинных систем составляют принятые в определённом обществе или местности отклонения от литературного языка. Использование жаргонизмов, кроме того «живая» речь может обогащаться интонациями, понижением или повышением тона, что придаёт ей дополнительные смыслы. Ни один из таких нюансов не улавливается и не может быть использован машинными системами.

Но создатели Watson поставили перед собой именно такую задачу. Они намерены не просто научить компьютер распознавать письменную и устную речь, но и понимать её на высоком уровне, а также уметь свободно общаться на определённом языке, понимая задаваемые вопросы, находя нужную информацию для ответа. Эта компьютерная система разработана для того чтобы понимать разговорный «живой» язык. В ней использует когнитивный, обучающий подход к обработке информации.

Первым языком, на котором был запущен Watson, был английским.

На сегодняшний день Watson свободно владеет девятью языками: английским, японским, испанским, французским, немецким, итальянским, португальским, арабским, корейским, Что означает — около двух миллиардов жителей Земли, носителей этих языков, уже теоретически могут свободно общаться друг с другом, преодолевая языковой барьер.

Изучение компьютером языка происходит по следующей схеме — система запоминает тысячи слов из словарей, новостных лент, художественных произведений и т.д. и формирует из них предложения, которые затем корректируются экспертами. После чего, на основе проанализированных структур, добавляются дополнительные объёмы словарного запаса. Но основное отличие от большинства переводчиков заключается в том, что Watson разрабатывается с целью понимать структуру языка, уметь оценить и выбрать наиболее подходящий вариант ответа, а не механически повторять типичные схемы.

То, как работает Watson, больше похоже на работу человеческого мозга, чем на работу привычных нам компьютерных систем. Это достигается путём сочетания процессов обработки естественного языка, с опорой на грамматику языка, культурный и смысловой контекст, и машинного обучения. Важным методом для понимания контекста речи является последовательно изучение системой различных областей, в которых язык может применяться — Watson отдельно изучает сферу страхования, патентования, написания новостей и так далее.

Применяется Watson в различных областях. При погружении в финансовую сферу проводилось сотрудничество с банками CaixaBank в Испании, Softbank в Японии и Bradesco в Бразилии, Watson усваивал различные финансовые термины и учился искать ответы на вопросы заданные, например, на испанском среди информации, размещённой на других языках. В будущем система сможет сама «разговаривать» с клиентами без посредничества сотрудников банков.

Также Watson уже применяется в сфере медицины. Его программное обеспечение используется в нью-йоркском Memorial Sloan Kettering Cancer Center для принятие решений в сфере лечения рака лёгких.

Подобное взаимодействие с клиентами, покупателями, потребителями услуг планируется развивать не только в сфере финансов и медицинских и здравоохранительных организациях, но и при любом общении продавцов и клиентов, в колл-центрах, при обучении языкам и другим знаниям детей и взрослых. То есть во всех сферах, где требуется поиск, анализ и извлечение информации для получения ответов на конкретные вопросы.

В конечной точке развития Watson сможет свободно оперировать всей доступной информацией на всех языках мира в любой области общения, отвечая на вопросы в любой даже сложной отрасли, не просто отыскивая информацию по ключевым словам, а понимая, что именно хочет узнать пользователь и находя такие данные. А кроме того суперкомпьютер сможет анализировать информацию и находить в данных закономерности и решения для задач, которые невозможно было решить ранее.


Читай также:

8 причин изучать иностранные языки
Интересные факты о языках
В каком языке больше всего звуков

20.02.2013

Суперкомпьютер IBM Watson: революция в диагностике и терапии рака

Суперкомпьютер IBM Watson: революция в диагностике и терапии рака

Суперкомпьютер компании IBM Watson является достаточно известной системой искусственного интеллекта, которую без преувеличения можно назвать самым совершенным искусственным интеллектом в мире на сегодняшний день. Как сообщает DailyTechInfo, сейчас медики-онкологи из двух независимых групп обращаются к возможностям этого искусственного интеллекта в надежде на помощь в деле диагностики и лечения рака.
В качестве исходных данных в память суперкомпьютера загружено более 600 тысяч медицинских заключений и диагнозов, 2 миллиона страниц текстов, взятых из 42 медицинских журналов и результатов клинических испытаний в области онкологии. Благодаря высокой мощности Watson может «проанализировать» 1,5 миллиона записей из историй болезни различных пациентов и, основываясь на данных из историй успешной борьбы с подобными заболеваниями, выявить наиболее подходящие методы лечения в каждом конкретном случае.
Согласно информации от компании IBM (IBM Watson Hard At Work: New Breakthroughs Transform Quality Care for Patients), с суперкомпьютером Watson начали работать медики из Центра раковых заболеваний штата Мэн (Maine Center for Cancer Medicine) и группы Westmed Medical Group. В деле борьбы с онкологическими заболеваниями так же используются данные, подготовленные медиками-клиницистами и экспертами страховой медицинской компании WellPoint и онкологического центра Memorial Sloan-Kettering Cancer Center, которые провели тысячи человеко-часов, обучая Watson’а тонкостям обработки, анализа и интерпретации сложной клинической медицинской информации.

IBM Watson закончил медицинскую академию и пошёл на работу

Представители компаний IBM и WellPoint провели совместную конференцию, на которой объявили о начале коммерческой эксплуатации медицинской системы IBM Watson. Шесть машин IBM Watson уже «трудоустроены» в больницы США в качестве врачей-диагностов. За два года «медицинской подготовки» Watson изучил 605 тыс. медицинских документов, в общей сложности 2 миллиона страниц текста. Перед началом врачебной практики компьютер проанализировал 25 тыс. историй болезни и проработал 14,7 тыс. для тонкой настройки алгоритмов. С целью пополнения базы знаний компания IBM заключила соглашение с Memorial Sloan Kettering — одним из ведущих центров изучения рака, где собран огромный архив медицинской информации. Watson способен не только ставить диагнозы, но и определять наиболее оптимальный курс лечения. Во многих случаях он показывает точность диагностики лучше, чем врачи-люди.
Представитель компании WellPoint на пресс-конференции привёл такой пример. Точность назначения оптимального лечения после диагностирования рака лёгких в больницах США составляет 50%. То есть в половине случаев врачи рекомендуют не самый идеальный курс лечения и препаратов. Так вот, у компьютера IBM Watson точность назначения оптимального лечения составляет 90%.

При расчёте он учитывает малейшие нюансы из медицинской карты больного и его генетическую информацию. Лечащий врач может со своего iPad вносить дополнительную информацию в компьютерную систему Watson в текстовом виде, например, написать «у пациента появилась кровь в мокроте при отхаркивании» — компьютер поймёт сказанное и через 30 секунд выдаст уточнённый диагноз и обновлённый курс лечения.
Конструкция компьютера тоже значительно усовершенствована. Раньше Watson занимал целую комнату (на фото вверху), 10 серверных шкафов с 90 серверами IBM Power 750. В первоначальных спецификациях было указано 2800 процессорных ядер и 15 терабайт памяти. Понятно, что в больницу такую систему никак не поставишь. Для установки в медучреждениях сделали клиентский модуль «размером с коробку от пиццы», который использует вычислительные ресурсы в облаке. Одновременно с этим, вычислительная мощность Watson увеличена на 240%, сказали на пресс-конференции.
Компания WellPoint является эксклюзивным реселлером IBM Watson для медицинских учреждений и занимается сопровождением системы.

Компьютер можно купить или взять в аренду, а в ближайшее время заработает веб-портал для доступа к справочной системе. Компания WellPoint планирует подписать на сервис компьютерной диагностики 1600 медицинских учреждений до конца текущего года.

IBM’s Watson Gets Its First Piece Of Business In Healthcare http://www.forbes.com/sites/bruceupbin/2013/02/08/ibms-watson-gets-its-first-piece-of-business-in-healthcare/

Возврат к списку

Версия для печати

Суперкомпьютер IBM Watson: элементарно, Ватсон

АрхивПлатформа

автор : Олег Нечай   23.06.2010

Казалось бы, нет никаких проблем в том, чтобы заставить компьютер находить в памяти ответы на поставленные вопросы. Однако не всё так просто.

У хорошо известного нашим читателям Анатолия Вассермана, многократного победителя интеллектуальной телевикторины "Своя игра", появился опасный конкурент – суперкомпьютер IBM Watson, специально разработанный для участия в этой игре, которая в оригинальном американском варианте носит название Jeopardy.

Казалось бы, нет никаких проблем в том, чтобы заставить компьютер находить в памяти ответы на поставленные вопросы. Однако не всё так просто. Во-первых, особенность игры Jeopardy – "обратные вопросы", как в кроссвордах: игрок должен ответить, какое слово соответствует хитроумному определению или заданным условиям. При этом придумывается далеко не словарное определение, в котором нередко переплетаются прямые и переносные значения понятий, а ответ требует развитого ассоциативного мышления и широкого кругозора. Во-вторых, вопросы задаются обычным человеческим языком, поэтому машина должна уметь трансформировать его в понятный для себя. В-третьих, как и у игроков, возможности машины ограничены тем, что уже заложено в её памяти, поиск в интернете невозможен. И, наконец, в четвёртых, ответы принимаются в течение нескольких секунд, так что правильное решение должно быть найдено максимально быстро.

История Watson началась в 2006 году, когда Дэвид Феруччи, старший менеджер отделения IBM по семантическому анализу, занялся тестированием одного из самых мощных суперкомпьютеров компании, занимавшего одну из верхних строчек 500 самых производительных машин мира. Феруччи решил попробовать, насколько эффективно машина будет справляться с задачами, поставленными "естественным языком", и предложил ей ответить на 500 вопросов, заданных в уже состоявшихся программах Jeopardy!

Результаты оказались катастрофическими: по сравнению с живыми игроками, машина недостаточно быстро "нажимала на кнопку" (то есть была готова к ответу), а в случае, когда она всё-таки могла конкурировать с людьми, количество правильных ответов не превышало 15%.

Феруччи заинтересовался причинами такого поведения суперкомпьютера и в итоге в 2007 году смог убедить руководство IBM дать ему команду из 15 человек и от 3 до 5 лет на создание эффективной автоматической системы, способной отвечать на неформализованные вопросы. Такая система пригодилась бы всевозможным колл-центрам, справочным и любым другим службам, обслуживающим клиентов. У IBM уже был успешный опыт создания машины, способной поспорить с интеллектом человека – речь идёт о суперкомпьютере Deep Blue, который в 1997 году победил чемпиона мира по шахматам Гарри Каспарова. Эта победа сделала большую рекламу IBM, но коммерческого применения подобной установке найти так и не удалось. В случае же с системой автоматических ответов на вопросы коммерческий потенциал вполне очевиден.

Принципиальное отличие Watson от Deep Blue заключается в том, что если шахматный автомат имеет дело со строго логическими правилами игры, то машина, распознающая "естественную речь", сталкивается в куда более сложными правилами языка и многочисленными искажениями и отклонениями от них. Но самая большая сложность заключается в том, что люди, сами того не осознавая, общаются в рамках своего культурного и социального контекста. В разговорной речи полно намёков, аллюзий и коннотаций, отсылок к неким общим для конкретной общественной среды фактам, понятиям и явлениям. В их числе и религиозные представления, и политические убеждения, и всевозможные произведения искусства – от книг и картин до кинофильмов и компьютерных игр.

Для эффективной обработки подобной информации используются статистические алгоритмы, позволяющие путём анализа самых разнообразных документов устанавливать связь разных понятий друг с другом. Проще говоря, она определяет, какие слова чаще всего употребляются вместе. К примеру, "Кремль" чаще связан со словами "Россия", "Москва", чуть реже с "Казань", "Нижний Новгород", ещё реже – с "собор", "икона"" и т.п. Хотя эти алгоритмы известны давным-давно, полноценно применять их стало возможно лишь в последнее десятилетие – после кардинального роста производительности вычислительной техники и снижения стоимости накопителей для хранения огромных массивов данных.

Команда Феруччи загружает в память IBM Watson миллионы всевозможных документов – учебники, энциклопедии, справочники, художественную и религиозную литературу. Для анализа вопросов одновременно используется более сотни алгоритмов, предлагающих сотни возможных решений. Затем другие алгоритмы оценивают достоверность потенциальных ответов, отсеивая невозможные в силу объективных причин (например, несоответствия даты события и лет жизни действующих лиц) и маловероятные. Чем больше будет получено одинаковых ответов, тем выше вероятность, что они правильны – в процессе игры, на табло выводится рейтинг из нескольких самых вероятных ответов, помимо чаще всего встречающегося.

К 2008 году IBM Watson переместился из разряда "неудачников" на верхние строчки так называемого "облака победителей", состоящего из людей, в 50% случаев успевающих первыми нажать кнопку, сигнализирующую о готовности к ответу и затем в 85-95% случаев дающих правильный ответ. В IBM даже договорились с продюсерами Jeopardy о проведении осенью 2010 года специальной серии игр с участием Watson и победителей прошлых лет. Для подготовки к этим играм (то есть фактически для совершенствования алгоритмов) был воссоздан примерный интерьер студии викторины и стали проводиться испытания с участием живых игроков и ведущего. При этом, как и полагается, "Ватсон" даёт свои ответы вслух синтезированным компьютерным голосом, чем немало веселит присутствующих.

В ходе "тренировок" выяснился занятный факт: несмотря не весь потенциал Watson, он может не только выигрывать большинство игр, но и проигрывать более половины из них.

Причин несколько: от "его величества случая" (возможны ситуации, когда соперник может выиграть, просто повышая ставки, оставив машину банкротом) до специфики правил. Как ни странно, но человек способен быстрее нажать на кнопку, чем машина, и это связано с правилами игры, которые менять нельзя.

Дело в том, что каждый вопрос выводится на экран и зачитывается ведущим, причём нажать на кнопку можно только после окончания чтения вопроса. Watson получает текст вопроса в электронном виде одновременно с его выводом на экран, но даже при этом он не успевает прийти к готовому решению быстрее человека. Пока ведущий читает вопрос, на что уходит шесть-семь секунд, опытный игрок уже может оценить свои шансы дать правильный ответ и готов нажать на кнопку за какие-то десятки миллисекунд. На последующий ответ правила отводят ещё пять секунд.

Нажимая на кнопку, человек рискует: если он не даст правильный ответ на вопрос за 100 единиц, его виртуальный счёт опустеет на ту же сумму. Компьютер не склонен рисковать и выдаёт ответы только после проведения всех расчётов и только в том случае, если у него достаточно сведений для оценки достоверности и вероятности того, что этот ответ правильный. Как это выглядит в процессе игры, можно увидеть на видеролике. Рискуя, живой игрок может выиграть благодаря тому, что вспомнит нужный ответ за имеющиеся в его распоряжении 11-12 секунд.

В чуть более формализованной ситуации, чем телевикторина, алгоритмы Watson способны дать куда более предсказуемые и точные ответы. В частности, глава исследовательского подразделения IBM Джон Келли намерен создать медицинскую версию этого устройства под неофициальным названием Watson M.D. Такая система помогла бы врачам быстро принимать правильные решения с учётом огромного множества данных о пациенте, которые физически невозможно всегда удерживать в памяти. "Ватсон" вполне может заменить живых операционистов в компьютерных и телефонных службах в розничной торговле, в банковской сфере и на транспорте.

Стоимость системы класса IBM Watson на сегодняшний день может составить несколько миллионов долларов, поскольку для её работы требуется по крайней мере один суперкомпьютер IBM за миллион долларов. Келли считает, что в ближайшие десять лет подобная технология может быть реализована на гораздо более дешёвом сервере, а в перспективе такая программа будет работать на компьютере не дороже современного ноутбука.

PS. Знающие английский язык могут сразиться с IBM Watson онлайн на сайте The New York Times. Вы, конечно, проиграете.

Добавить комментарий

Закрыть меню