Чт, 03.05.2018 20:20

Машинное обучение: Максим Федоров: «В шахматах уже появилось понятие «кентавры» ― так называют команду из человека и машины» ^{Избранное}

Специалист по суперкомпьютерным вычислениям Максим Федоров об искусственном интеллекте, профессиях будущего и приложениях наук о данных

Вместе со Сколковским институтом науки и технологий мы сняли курс «Машинное обучение», посвященный математическому моделированию и методам машинного обучения. В этом материале руководитель магистерских программ «Вычислительные системы в науке и технике» и «Наука о данных» Сколтеха Максим Федоров рассказывает об университетах нового поколения и понятии «искусственный интеллект».

Сколтех ― это университет нового поколения, это новая модель, которая совмещает в себе инновации, науку и образование. Он изначально закладывался как университет нового типа. Поэтому и наш центр ― центр науки, образований и инноваций ― это тоже новая модель.

Это не классический факультет математики или компьютерных наук, а именно междисциплинарный центр науки, образований и инноваций, и мне довольно сложно представить себе прямые его аналоги. В некотором плане это «сплав» лучшего из того, что мы почерпнули из российского классического фундаментального подхода к образованию в естественных науках и мирового опыта создания инновационных и образовательных центров.

Об актуальных задачах науки о данных

В науке о данных есть несколько основных направлений. Одно из них ― это продолжающийся поиск новых методов и технологий анализа и обработки данных. Основные успехи в этом направлении сейчас связаны с новыми технологиями машинного обучения (такими как deep learning ― глубокое (или глубинное) обучение). Сейчас у нас есть достаточно большое количество инструментов, которые позволяют для ряда конкретных задач показать очень хорошие результаты, например в распознавании человеческих лиц. Это задача, которая до недавнего времени считалась сложной, сейчас уже в принципе решена; в данной сфере компьютерные программы стали распознавать лица даже лучше человека, особенно на больших выборках, и к тому же у них не возникает усталости.

Но если смотреть с общей точки зрения, то это программы, которые решают одну задачу, хотя и очень сложную. То же самое можно говорить про недавние победы машин над людьми в таких сложных играх, как го и покер. Надо понимать, что в каждом случае это, как правило, программы, решающие одну задачу ― победить в той или иной игре. И основная цель сейчас в фундаментальных исследованиях по машинному обучению — это многозадачность. Пока нет такой универсальной программы, которая могла бы, как человек, решать много принципиально различных задач, ведь человек и в игры играет, и распознает лица, и разговаривает и так далее. И это один из основных вызовов в науке об искусственном интеллекте ― сделать программы многозадачными.

Другое актуальное направление ― это поиск новых областей применения тех инструментов, которые уже есть сейчас. В этом смысле существует не мной придуманная аналогия с электричеством. В свое время, когда оно появилось и стало массово доступным (то есть была создана инфраструктура, которая передает электричество в большое количество точек), очень много новых вещей родилось просто из идеи, что раз у нас есть какой-то инструмент, то давайте его сделаем электрическим: из обычной мясорубки — электрическую, из обычной дрели — электрическую дрель и так далее. В чем-то это приводило к курьезам, в том числе из-за несовершенства технологий, однако в целом это способствовало созданию более эффективных инструментов.

То же самое сейчас происходит в плане приложений и бизнеса. Имеется довольно большое количество полезных инструментов, основанных на последних достижениях науки о данных, которые можно затачивать под какую-то очень узкую задачу, но которые могут решать эту задачу на уровне человека, а может, даже и лучше. Особенно эффективны такого рода приложения, когда приходится иметь дело с очень большими массивами данных, которые человек чисто физически не может обработать. Очень актуальны методы, позволяющие анализировать большие и супербольшие массивы данных и быстро предлагать решения в критических ситуациях. Так, недавно появились очень интересные разработки по быстрому анализу больших массивов метеорологических данных в режиме реального времени с целью предсказания на очень ранней стадии опасных климатических явлении: ураганов, тайфунов, наводнений и так далее.

Также бурно развиваются приложения машинного обучения в медицине для ранней диагностики различных опасных заболеваний. Это помогает уменьшить количество врачебных ошибок (вспомним, что компьютеры не подвержены усталости, стрессам и прочим факторам) и поднять качество жизни пациентов.

В продолжение биомедицинской темы стоит отметить еще одну перспективную область приложений — поиск новых лекарств с помощью машинного обучения и суперкомпьютерных технологий. По различным оценкам, количество различных молекул, которые могут быть лекарствами (drug-like molecules), может достигать по порядку величины от 10²³ до 10⁶⁰ , что на десятки порядков превосходит количество известных молекул на сегодняшний день (10⁸). Понятно, что синтезировать все возможные соединения и проверить их свойства не представляется возможным, даже если бы в нашем распоряжении были миллиарды лет. И тут на помощь приходят технологии, которые находятся на стыке суперкомпьютерного моделирования и машинного обучения.

Основная идея в том, что на суперкомпьютере моделируется большое количество ранее неизвестных соединений, из которых затем программы, предварительно «обученные» на реальных соединениях, выбирают только те, которые с большой вероятностью могут обладать требуемыми лекарственными свойствами. Таким образом, количество трудозатрат на поиск новых лекарств можно снизить на порядки и, более того, найти принципиально новые лекарства с улучшенными свойствами: низким количеством побочных эффектов, высокой действующей способностью и так далее.

О будущем искусственного интеллекта

Делается много апокалиптических предсказаний, что машины полностью заменят людей, не будет работы и так далее. Лично я считаю, что это не совсем так, потому что, как я уже сказал, пока искусственный интеллект находится на уровне замены человека только в каких-то очень узких задачах. И это не так плохо, ведь машины не устают, они быстрее реагируют, не подвержены болезням и прочим факторам. И замена человека во всех его областях деятельности, я думаю, произойдет еще очень нескоро. Однако то, что может произойти в ближайшее время, ― это своеобразное «тесное сотрудничество» (по функциям) человека и машины. Например, в шахматах уже есть такое понятие, как «кентавры» ― так называют команды «компьютер + человек». Они оказываются наиболее эффективными и чаще побеждают в шахматных поединках как против компьютеров, так и против людей, играющих по отдельности.

Также, чтобы развеять опасения, хочу отметить, что в свое время, в эпоху Тьюринга, в эпоху основания компьютерной области, считалось, что, когда машина будет выигрывать у человека в шахматы, наступит эпоха искусственного интеллекта. И что? Это событие произошло в 1990-х годах, когда компьютер обыграл гроссмейстера, мирового чемпиона, но пока никто не говорит, что пришла эпоха искусственного интеллекта.

В каких-то профессиях компьютеры, я думаю, действительно смогут скоро заменить людей, что, в общем-то, происходит уже на протяжении ряда лет (тут стоит отметить, что само слово «компьютер» (англ. computer) в англоязычном обществе когда-то означало профессию человека, который проводит математические вычисления). Понятно, что какие-то профессии исчезнут, но, с другой стороны, появятся другие профессии (название которым еще даже не придумали), как это происходило в истории человечества огромное количество раз.

О человеческом и машинном разуме

Перед нами, учеными в области искусственного интеллекта, стоят две основные задачи. Первая — это приложение уже существующих инструментов во многих областях. Это огромная область, и она требует соответствующей квалификации, требует понимания, что нужно бизнесу, что мы можем предложить ему сейчас, что мы сможем предложить ему через несколько лет. И во многих областях важно прикладывать те инструменты, которые уже есть. Это огромная работа, и нельзя говорить, что это рутина, потому что необходимо понимать предметную область. А вторая задача — это как раз многозадачность и обучение без учителя. Сейчас те приложения искусственного интеллекта, которые на слуху, например распознавание образов, требуют огромного количества размеченных данных. То есть машине нужно «скормить» миллионы, а лучше миллиарды снимков и сказать, что вот это человек такой-то, это человек такой-то, нужна обучающая выборка: надо сказать машине, что есть что.

Но люди развиваются по-другому. Мы получаем очень много информации путем простого обучения на основе познания реального мира и зачастую с минимальным количеством данных. И как раз это машины делать пока не могут. Они не могут приходить к каким-то логическим заключениям, правильным, согласованным выводам без большого количества обучающих данных. Эта задача пока не решена, хотя отдельные успехи в некоторых направлениях есть.

Много вызовов существует в области неструктурированных данных. Это перекликается с многозадачностью, потому что мы люди, мы можем большое количество данных из разных областей соединять, делать некий синтез, и в этом наше преимущество. Мы можем синтезировать данные, мы можем создавать новые абстракции. Палеонтологи XVIII–XIX веков могли по зубу восстановить облик ископаемого существа. По сути, вся наука развивалась при наличии очень небольшого количества информации об окружающем мире. И даже по тем крупицам, которые были доступны, люди создавали концепции мира, которые в итоге оказывались верными, ― например, теория Коперника, развитая Кеплером. Иоганн Кеплер, полуслепой, находясь на Земле, просто изучая бумаги ― результаты астрономических наблюдений Тихо Браге, великого астронома тех лет, и смотря на цифры, полученные другими людьми, пришел к абсолютно верному описанию движения планет и общей концепции устройства Солнечной системы. А дальше это развилось в концепцию устройства всей нашей Вселенной. Одним словом, это пример колоссальной мощи человеческого разума в плане как анализа, так и синтеза идей. И именно в этом плане машины сильно отстают. И пока что это, так сказать, сильно специализированные «насекомые» — в лучшем случае.

Но тут мы переходим к другой интересной теме: а вообще, что такое интеллект? Тут есть некая проблема, связанная с переводом терминов на русский язык (проблема эта неоднократно обсуждается в «узких кругах»). Так, регулярно возникают дебаты по поводу смысла термина «искусственный интеллект». Дело в том, что этот термин довольно часто используют как дословный перевод с английского artificial intelligence. Однако английское слово intelligence по смыслу вовсе не обязательно равно нашему слову «интеллект». В английском intelligence имеет два основных значения. Первое значение — это «возможность получать и применять знания и умения». А вот второе значение, более часто используемое в технической литературе, — «сбор и обработка информации», и поэтому, когда в англоязычной технической литературе используется artificial intelligence, по смыслу речь идет, как правило, об искусственном сервисе по сбору и обработке информации. А переводить в данном контексте intelligence как интеллект — значит приближать этот термин к «искусственному разуму», что ведет к сильному искажению смысла.

Так и получается, что когда в русской терминологии мы говорим «искусственный интеллект», то часто подразумеваем интеллект в полном смысле этого слова, попытку воссоздания разума. Но это, наверное, произойдет еще не скоро. А вот системы по сбору информации, ее обработке и принятия решений, то есть то, что artificial intelligence подразумевает в английском варианте, — это уже давно есть и будет развиваться. И поэтому надо различать human-like intelligence и просто intelligent systems. Попытка создания копии или модели разумного существа — это совсем другая задача, в которой очень много этических, научных и даже философских проблем. Пресловутый тест Тьюринга, о котором многие сейчас говорят, — это тест не на разум, а на то, сможет ли машина мимикрировать под человеческие ответы, то есть данные на выходе, а не смоделировать человека со всей его сложностью, со всем его внутренним миром. И этот тест Тьюринга — это именно тест на intelligence, это больше про сбор и обработку информации.

Искусственные интеллектуальные системы можно создавать не по человеческому подобию, а, например, по подобию термитника и пчелиного роя, ведь они тоже выполняют задачу сбора, обработки информации и принятия решений. И вполне возможно, что появятся системы, которые не будут моделировать мышление человека, но будут дополнять выполняемые им задачи и смогут заменить его на опасных производствах или в рутинных задачах. Это тоже очень интересная тема. Вообще говоря, она больше философская: какие типы интеллекта возможны? Является ли человеческий разум единственно возможным? Скорее всего, нет. А дальше возникает проблема терминологическая. На протяжении всей истории искусственного интеллекта ведутся дискуссии о том, что понимать под этим термином. Это такая философско-концептуальная проблема: что считать человекоподобным интеллектом, а что интеллектом, но вовсе не человекоподобным?

О мировых центрах изучения данных

Вычислениями и наукой о данных занимается огромное количество людей по всему миру, это очень популярная тема. Среди учреждений, схожих с нашим, можно назвать британские Data Science Institute в Imperial College London, Национальный вычислительный центр в Эдинбурге — там очень интенсивная образовательная программа по разным направлениям, магистерская, аспирантская подготовка, включающая и анализ данных, и вычисления. Есть еще большой вычислительный центр в Юлихе (Juelich), Германии ― там тоже сочетаются и вычисления, и Big Data, и наука о данных, а кроме того, идет подготовка аспирантов из близлежащих университетов по этим направлениям.

В мире, конечно, большую роль играют MIT, Стэнфорд, университет Беркли, а также исследовательские институты Google и Facebook. Но если мы берем организации, направленные только на исследования, то там очень не хватает образовательной составляющей. Можно взять для примера Общество Макса Планка, которое является одной из лучших мировых научных организаций. Оно включает в себя более 70 институтов, и некоторые из них, например институт информатики, похожи по организации и поставленным задачам на наш центр, но там нет образовательных элементов (скажем, там формально нельзя получить PhD). А у нас некий сплав образовательных и научных компонентов плюс инновации. Нечто подобное сейчас пытаются создать в Сингапуре, Южной Корее и других странах.

В модели Сколтеха также привлекательным является то, что это попытка готовить именно лидеров инновационного технологического сектора, которые, с одной стороны, понимают научную и техническую составляющую, а с другой стороны, обладают качествами инноватора и лидерскими качествами. Безусловным преимуществом, конечно, является наличие колоссального технологического фундамента российской науки. Когда мы в своих программах показываем, на кого равняемся, то мы выделяем две категории. С одной стороны, old establishment ― это MIT, Стэнфорд, Беркли, МГУ, МФТИ, то есть вузы с долгой и славной историей, со сложившимися традициями, и на какие-то показатели их деятельности мы равняемся — в плане публикаций, фундаментальных разработок и так далее. Но с другой стороны, мы также сравниваем себя и с new establishment — новыми университетами в Европе (например, Jacobs University в Бремене), новыми университетами в Юго-Восточной Азии, Китае,

Сингапуре и на Аравийском полуострове (например, King Abdullah’s University в Саудовской Аравии). Но, как я уже сказал, уникальность Сколтеха в том, что мы все-таки создаем новый университет не в пустыне, а на прочном научном фундаменте, заложенном нашими коллегами, нашими предками.

О студентах Сколтеха

Мы готовим чемпионов. Задача Сколтеха ― готовить элиту в области науки и инноваций. Наш успешный выпускник — это квалифицированный с точки зрения науки и технологии человек, но при этом у него еще есть четко выраженные лидерские, управленческие и инновационные качества. Мы также готовим визионеров — это люди, которые пытаются предугадать, в каком направлении будут развиваться наука и промышленность через 10 лет, через 20 лет и так далее. По любым меркам мы небольшой вуз, и не планируется, что когда-то Сколтех станет очень большим, поэтому наша задача ― готовить небольшое количество, но очень квалифицированных специалистов с широким набором различных навыков. Мы готовим, грубо говоря, как минимум начальников отделов, которые через несколько лет станут, например, советниками президентов компаний по науке и технологии. Это наш основной контингент и направление подготовки. Таким образом, мы нацелены на подготовку будущих лидеров для российской и мировой индустрии. Ну и, конечно, не забываем о науке. Большая часть наших выпускников собираются оставаться в науке и остаются достаточно успешно как у нас в стране, так и за рубежом.

Что касается приоритетов научной подготовки, то наш центр готовит специалистов все-таки для прикладной науки. Хотя мы очень много времени уделяем разработке фундаментальных основ будущих технологий, но всегда это идет с каким-то прицелом на приложения. В нашей области время между разработкой и применением разработки сведено к минимуму. Например, в какой-либо экспериментальной деятельности проходит обычно довольно большое время между идеей и созданием прототипа, а потом между созданием прототипа и его внедрением. А в нашей области это очень часто происходит за считаные месяцы, а то и дни. Поэтому мы готовим людей, которые понимают приложения, понимают, куда движется соответствующая отрасль промышленности. И мы активно сотрудничаем с другими образовательными программами, с другими центрами в Сколтехе, например с нефтегазовым центром и центром новых производственных технологий, да и практически со всеми другими центрами. Потому что одна из задач центра состоит в том, чтобы наши выпускники разбирались в различных предметных областях и понимали, какие смежные задачи им предстоит решать.

Хочу отметить, что многие ребята создают свои собственные стартапы как во время обучения, так и сразу после него, и таких примеров очень много, мы это поощряем. В Сколково уникальные условия для этого, потому что это очень динамичный инновационный центр. Здесь ты ходишь на занятия к ведущим специалистам и здесь же одновременно знакомишься с бизнесменами, с людьми, которые помогают тебе создать свой собственный бизнес, с потенциальными клиентами, с потенциальными исполнителями. Ограничение тут ― это только интеллект и воображение человека. Поэтому всем талантливым молодым людям, которые хотят проявить себя в различных областях новых технологий, которые могут изменить наш мир (надеюсь, к лучшему), настоятельно рекомендую поступать в Сколтех.

Максим Федоров

доктор химических наук, кандидат физико-математических наук, профессор, директор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколтеха