Пн, 07.05.2018 11:04

Машинное обучение: Тезаурус ^{Избранное}

Базовые понятия, объясняющие задачи машинного обучения и принципы работы искусственных нейронных сетей

Вместе со Сколковским институтом науки и технологий мы сняли курс «Машинное обучение», посвященный математическому моделированию и методам машинного обучения. В этом материале преподаватель магистерской программы «Наука о данных» Сколтеха Виктор Лемпицкий разъясняет базовые понятия, используемые в курсе.

Машинное обучение

Это математическая дисциплина, в рамках которой решается задача поиска закономерностей в эмпирических данных; на основе найденных закономерностей алгоритм может делать определенные прогнозы. Машинное обучение можно отнести к методам искусственного интеллекта, так как оно не решает задачу напрямую, а обучается применять решение для множества схожих задач. В машинном обучении используются средства теории вероятности, теории графов, математической статистики и других областей математики и Computer Science.

Big Data (большие данные)

У понятия «большие данные» нет однозначного определения, но наиболее устоявшимся является то, из которого следует, что это совокупность определенных технологий. Эти технологии призваны обрабатывать значительно большее по сравнению со стандартными сценариями объемы данных (под данными подразумевается множество объектов и множество соответствующих им ответов (откликов)). Кроме того, они должны работать с этими поступающими в большом количестве данными быстро, а также обрабатывать как структурированные, так и плохо структурированные данные.

Искусственные нейронные сети

Искусственные нейронные сети — это модели машинного обучения, использующие комбинации распределенных простых операций, зависящих от обучаемых параметров, для обработки входных данных. Некоторые элементы и принципы устройства искусственных нейросетей напоминают элементы и принципы устройства биологических нейросетей. Искусственные нейронные сети активно применяются в задачах прогнозирования, распознавания образов, генерации текстов и многих других. Современные искусственные нейронные сети зачастую зависят от большого количества параметров, обучаемых на больших выборках данных (см. глубинное обучение). Наиболее популярными и успешными видами ИНН являются сверточные сети и рекуррентные нейросети.

Сверточные сети

Сверточные сети — один из видов искусственных нейронных сетей, широко используемый в распознавании образов, компьютерном зрении, обработке аудиосигналов, анализе смысла текстов и играх, например Го. Характерной особенностью сверточных нейросетей является использование представления данных в виде набора изображений (карт) и применение локальных операций-сверток, модифицирующих и комбинирующих данные карты друг с другом.

ГО-02

Глубинное обучение

Глубинное обучение — это алгоритмы машинного обучения, связанные с искусственными нейронными сетями, вычисления в которых подразумевают применение множества обучаемых операций (слоев) к входным данным. Характерным для глубинного обучения является обучение на больших выборках при помощи единого оптимизационного алгоритма. Типичные алгоритмы оптимизации настраивают параметры всех операций одновременно и эффективно оценивают влияние каждого параметра нейросети на ошибку (с помощью так называемого метода обратного распространения).

Переобучение

Переобучение происходит, когда построенная модель дает хорошие результаты на обучающей выборке, но делает много ошибок на тестовой выборке. Иначе говоря, программа начинает находить несуществующие связи и закономерности.

Компьютерное зрение

Компьютерное зрение — область наук о данных, нацеленная на извлечение информации из изображений. Кроме того, компьютерное зрение занимается построением трехмерных моделей из изображений и распознаванием образов. Компьютерное зрение имеет большое значение для анализа биомедицинских изображений, робототехники и больших данных.

Обучение с учителем и без

Обучение с учителем предполагает наличие обучающей выборки, в которой задаются «правильные ответы», на примере которой программа должна научиться понимать связь между входными и выходными данными, а потом научиться применять свои «знания» на неразмеченных данных. Обучение без учителя, напротив, предлагает системе научиться выполнять поставленную задачу без какого-либо внешнего вмешательства.

Кластеризация

Кластеризация — одна из задач машинного обучения, которая относится к обучению без учителя. Программа должна сама распределить объекты на хорошо обособленные группы, то есть разбить множество объектов на кластеры.

Классификация

Классификация связана с обучением с учителем. В рамках этой операции программа должна распределить имеющиеся данные по заранее определенным и заданным группам — классам.

Регрессия

Так же как и классификация, задача регрессии связана с обучением с учителем. В рамках этой операции программа должна предсказать определенное значение той или иной величины для входных данных. В отличие от задачи классификации величины, предсказываемые в регрессиях, могут принимать значения из непрерывных интервалов.

Обучение с подкреплением

Обучение с подкреплением — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. Откликом среды на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или ее модель.

Промышленная инженерия

Промышленная инженерия — инженерная дисциплина, занимающаяся проектированием, улучшением и исследованием интегрированных систем, состоящих из людей, денежных средств, знаний, информации, оборудования, энергии, материалов и процессов. Управление производством основано на принципах и методах инженерного анализа. Приложения математики, физики и IT используются вместе с методами инженерного анализа и проектирования с целью прогнозирования, определения и оценки результатов деятельности систем. Основная цель — минимизировать затраты времени, денег, материалов, энергии и прочих ресурсов.

Суррогатные модели (метамодели)

Суррогатные модели (метамодели) обучаются с помощью методов машинного обучения по множеству прототипов входных и выходных данных, результатов натурных и/или вычислительных экспериментов, проведенных с различными объектами рассматриваемого класса. Они фактически имитируют (заменяют) как источники получения данных, основанные на некоторой исходной модели, так и сами модели, созданные на основе изучения физики процессов. Как правило, суррогатные модели имеют существенно более высокую вычислительную эффективность по сравнению с исходными моделями (иначе в них просто нет смысла), и по этой причине на их основе можно проводить масштабные вычислительные эксперименты, оптимизацию инженерных систем и их адаптивное управление.

Байесовская вероятность

Байесовская вероятность — это интерпретация понятия вероятности, используемая в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения. Для определения степени уверенности в истинности суждения при получении новой информации в байесовской теории используется теорема Байеса.

Бритва Оккама

Бритва Оккама (иногда лезвие Оккама) — методологический принцип, получивший название от имени английского монаха-францисканца, философа-номиналиста Уильяма Оккама (англ. Ockham, Occam; лат. Gulielmus Occamus; ок. 1285-1349). В кратком виде он гласит: «Не следует множить сущее без необходимости» (либо «Не следует привлекать новые сущности без крайней на то необходимости»).

Функция правдоподобия

Функция правдоподобия в математической статистике — это совместное распределение выборки из параметрического распределения, рассматриваемое как функция параметра. При этом используется совместная функция плотности (в случае выборки из непрерывного распределения) либо совместная вероятность (в случае выборки из дискретного распределения), вычисленные для данных выборочных значений.

Априорное распределение вероятностей

Априорное распределение вероятностей (англ. prior probability distribution, или просто prior) неопределенной величины p — распределение вероятностей, которое выражает предположения о p до учета экспериментальных данных. Например, если p — доля избирателей, готовых голосовать за определенного кандидата, то априорным распределением будет предположение о p до учета результатов опросов или выборов. Противопоставляется апостериорной вероятности, условной вероятности случайного события при условии того, что известны апостериорные данные, т.е. полученные после опыта.

Виктор Лемпицкий

кандидат физико-математических наук, доцент Сколковского института науки и технологий