К вопросу об измерении интеллекта – работа Франсуа Шолле

Франсуа Шолле, ведущий специалист Google по искусственному интеллекту (ИИ), в своей работе «Об измерении интеллекта», опубликованной в ноябре, анализирует самые важные проблемы и препятствия, мешающие исследованиям в области ИИ.

По его мнению, чтобы продвинуться в создании человекоподобного ИИ, необходимо, в первую очередь, дать определение ИИ и разработать критерии, позволяющие сравнивать две системы, а также ИИ и человека.

В настоящее время исследователи сравнивают не столько интеллект, сколько навыки в решении конкретных задач. Например, ИИ лучше человека научился играть в шахматы. Но измерение навыков, говорит Шолле, не есть определение уровня интеллекта. Исследователи просто прокачивают систему, скармливая ей огромное количество данных, но на что способна сама система — не всегда понятно.

Шолле с коллегами предлагают свое определение интеллекта, в котором важными критериями являются эффективность в приобретении навыков (skill-acquisition efficiency), масштаб (scope), сложность обобщения (generalization difficulty), предварительные данные (priors) и опыт.

«Интеллект системы – это мера её эффективности в приобретении навыков по целому кругу задач с точки зрения предварительных данных, опыта и сложности обобщения».

Еще в 2007 году исследователи, сведя воедино 70 определений ИИ, сформулировали своё: интеллект измеряется способностью достигать цели на широком наборе задач.

Критериями настоящего интеллекта должны быть способность адаптироваться к изменениям, приобретать нужные навыки, решать неочевидные проблемы.

Навык в решении задачи, которая заранее известна разработчикам, может вообще не требовать интеллекта. Достаточно иметь неограниченное знание или неограниченные данные для обучения системы.

Интеллектуальная система генерирует программу приобретения навыков для решения задачи.

Нельзя также забывать о том, что мы судим об интеллекте, исходя из тех критериев, которые приняты в нашей культуре. У нас мало информации о том, что считали интеллектом в каких-то других культурах, и вообще не знаем об интеллекте у животных. Поэтому игра в шахматы проходит по разряду интеллектуальных игр, а такое сложное адаптивное поведение, как маскировка осьминога, не относится к показателям интеллекта.

Потому бессмысленно пытаться создавать общий ИИ как нечто универсальное. Шолле предлагает идти от частного к общему, постепенно расширяя возможности систем ИИ.

Авторы текста предлагают новый «Корпус абстракций и рассуждений» (ARC) – набор задач для развития интеллектуальных систем.

Главное препятствие сегодня, по мнению Шолле, –одержимость разработчиков небольшими улучшениями в развитии узких навыков.

Вместо этого ARC предлагает оценивать системы по эффективности обретения навыков. Решением тут будет появление системы, которая обретет ключевые предварительные знания (core knowledge priors), широкую информацию о мире, но отличную от человеческого «здравого смысла». Это позволит системе преуспеть в решении скрытых, неочевидных задач, и такая система будет на шаг ближе к общему ИИ.

Из текста работы Шолле «Об измерении интеллекта»

Аннотация

Чтобы сознательно продвигаться к более интеллектуальным человекоподобным искусственным системам, нам необходимо следовать соответствующему сигналу обратной связи: определять интеллект и измерять его таким образом, чтобы можно было сравнивать любые две ИИ-системы между собой, а также сравнивать эти системы с интеллектом человека. За последние сто лет было предпринято множество попыток как в области психологии, так и в области ИИ дать определение интеллекту и измерить его. Мы обобщаем и критически оцениваем эти определения и подходы к оценке, делая очевидными две исторические концепции интеллекта, которые неявно направляли их. Мы отмечаем, что на практике современное сообщество искусственного интеллекта всё еще тяготеет к сравнительному анализу интеллекта, сравнивая умения, демонстрируемые искусственным интеллектом и людьми при выполнении определённых задач, таких, как настольные игры и видеоигры. Мы утверждаем, что измерения только умения в любой поставленной задаче недостаточно для измерения интеллекта, потому что умение в значительной степени модулируется предшествующими знаниями и опытом: неограниченные предварительные данные обучения позволяют экспериментаторам «покупать» произвольные уровни навыков для системы, таким образом, это маскирует собственную способность системы к обобщениям. Затем мы сформулируем новое формальное определение интеллекта, основанное на алгоритмической теории информации, описывающее интеллект как эффективность в приобретении навыков и выделяющее понятия масштаба, сложности обобщения, предварительных данных и опыта как критические важные составляющие, которые должны быть учтены при характеристике интеллектуальных систем. Используя это определение, мы предлагаем набор руководящих принципов для того, как должен выглядеть стандарт ИИ.

Наконец, мы представляем новый эталонный тест, внимательно следящий за этими принципами, новый корпус абстракций и рассуждений (ARC), построенный на наборе априорной информации, разработанный так, чтобы быть как можно ближе к врождённой человеческой априорной информации. Мы утверждаем, что ARC можно использовать для измерения человеческой формы общего подвижного интеллекта, и что он позволяет проводить объективное сравнения общего интеллекта между ИИ-системами и людьми. 

Оглавление

I Контекст и история
I.1. Потребность в практическом определении и измерении интеллекта
I.2. Определение интеллекта: два расходящихся видения
I.2.1. Интеллект как совокупность специфических для конкретной задачи навыков
I.2.2. Интеллект как общая способность к обучению
I.3. Оценка ИИ: от измерения навыков до измерения широких способностей
I.3.1. Узкая оценка ИИ на основе навыков
I.3.2. Спектр обобщения: устойчивость, гибкость, обобщенность
I.3.3.  Измерение широких способностей и общего интеллекта: психометрическая перспектива.
I.3.4. Интеграция оценки ИИ и психометрии
I.3.5. Современные тенденции в широкой оценке ИИ

II Новая перспектива
II.1. Критическая оценка
II.1.1. Измерение правильных вещей: только оценка мастерства не продвигает нас вперед
II.1.2. Смысл обобщения: заземление коэффициента g
II.1.3. Отделение врожденного от приобретенного: понимание психологии развития.
II.2. Определение интеллекта: формальный синтез
II.2.1. Интеллект как эффективность приобретения навыков
II.2. Эффективность вычислений, эффективность времени, эффективность использования энергии и эффективность риска
II.2.3. Практические последствия
II.3. Измерение интеллекта в свете сказанного
II.3.1. Справедливое сравнение между интеллектуальными системами
II.3.2. Чего ожидать от идеального эталона интеллекта

III Контрольное предложение: новый корпус абстракций и рассуждений ARC
III.1. Описание и цели
III.1.1. Что такое ARC?
III.1.2. Ключевые предварительные знания
III.1.3. Основные различия в тестах психометрического интеллекта
III.1.4. Как может выглядеть ARC и его значение для приложений ИИ
III.2. Слабые стороны и будущие усовершенствования
III.3. Возможные альтернативы
III.3.1. Перепрофилирование критериев квалификации для измерения широкого обобщения
III.3.2. Открытые состязательные или совместные подходы

Определение интеллекта

В настоящее время мы создали достаточный контекст и терминологию, чтобы формально выразить интуитивное определение интеллекта, заявленное ранее: «интеллект системы является мерой её эффективности в приобретении навыков решения ряда задач с точки зрения априорных показателей, опыта и обобщения».

Рассмотрим интеллектуальную систему IS, для чего введём ряд обозначений.

θmaxT,IS

Отметим, что CurθTT – это пространство программ обучения, в результате которого IS генерирует решение с достаточным навыком θT для задачи T, а CuroptT – это пространство программ обучения, в результате которого IS генерирует решение с наивысшим навыком (решение, достигающее потенциала системы θmaxT,IS). Обратите внимание, что потенциал системы может быть ниже необходимого для оптимального решения задачи, поскольку система может не научиться оптимально решать задачу.

Для упрощения обозначим θmaxT,IS как ϴ. Отметим также Avg – функцию усреднения (используется для усреднения по пространству задач). PC соответствует вероятности заданного плана обучения C.

Затем мы определяем интеллект I, привязанный к объёму задач, а именно:

Интеллект системы IS превышает масштаб задач (достаточный случай):

Интеллект системы IS превышает масштаб задач (оптимальный случай):

Отметим, что:

PIS,T+EIS,T,C (предварительные данные плюс опыт) представляет собой общую подверженность системы информации о проблеме, включая информацию, с которой начиналась работа в начале обучения.

Сумма по подпространству плана обучения, взвешенная по вероятности каждого плана обучения, представляет собой ожидаемый результат для системы после обучения. Обратите внимание, что сумма находится в подпространстве программ обучения (которые приводят, по крайней мере, к определённому уровню навыков), и, таким образом, вероятности будут в сумме в общей сложности ниже единицы: так, как мы иногда наказываем учеников, которые достигают только достаточного навыка или оптимального навыка лишь время от времени.

ѠT·ϴT представляет субъективное значение, которое мы придаём достижению достаточного навыка в T, а ѠT,ϴ·ϴ представляет субъективное значение, которое мы придаём достижению уровня навыка, соответствующего полному потенциалу системы θmaxT,IS в T.

Схематично вклад каждой задачи — это показатель Expectation[(skillgeneralization)/(priors+experience)], который дополнительно взвешивается по значению Ѡ, что позволяет нам однородно сравнивать навыки в различных задачах независимо от масштаба функций оценки.

Или, проще говоря: интеллект – это скорость, с которой обучаемый превращает свой опыт и навыки в новые навыки решения важных задач, которые включают неопределённость и адаптацию.

Обратите внимание, что наше определение не является первым формальным определением интеллекта, основанным на алгоритмической теории информации (AIT). Нам известны три других определения на основе AIT: C-Test, модель AIXI и модель «универсального интеллекта» (тесно связана с AIXI). Читатель, знакомый с этими определениями, должен сразу же понять, что наш собственный подход представляет собой совершенно иную точку зрения.

Мы обращаем внимание читателя на ряд ключевых замечаний о нашем формализме (см. также II.2.3):

Система с высоким интеллектом — это система, которая может генерировать высококвалифицированные программы для решения задач с высокой сложностью обобщения (то есть задач с высокой степенью неопределённости в отношении будущего) с использованием небольшого опыта и предварительных данных, т.е. это система, способная эффективно использовать всю информацию, которую она имеет в своем распоряжении, чтобы покрыть как можно больше территории в неизвестных частях ситуационного пространства. Интеллект, в некотором смысле, представляет собой коэффициент конверсии между информацией о части ситуационного пространства и способностью хорошо работать в максимальной области будущего ситуационного пространства, что будет включать в себя новизну и неопределенность.

Измерение интеллекта привязано к выбору масштаба (пространство задач и функции значения, ценности от задач). При желании оно также может быть дополнительно привязано к выбору достаточных уровней навыков для решения всех задач в данной области (достаточный случай).

Навыки (мастерство) не принадлежат интеллектуальной системе, это свойство артефакта, получаемого на выходе интеллектуального процесса (программа навыков). Высокое мастерство — это не высокий интеллект: это разные концепции.

Интеллект должен включать в себя обучение и адаптацию, т. е. использование информации, извлечённой из опыта, для обработки будущей неопределённости: система, которая вначале способна хорошо выполнять ситуационную оценку для задачи, будет иметь очень низкую сложность обобщения, ориентированного на разработчика, и, следовательно, будет плохо оценивать нашу метрику интеллекта.

Интеллект не соответствует кривой: система, которая просто производит простейшую из возможных программ умений, согласующихся с известными точками данных, может, по нашему определению, хорошо выполнять только те задачи, которые имеют нулевую сложность обобщения. Интеллектуальная система должна генерировать поведенческие программы, которые учитывают будущую неопределённость.

Мера интеллекта связана с оптимизацией плана обучения: лучшее пространство плана обучения приведёт к большему реализованному навыку (в среднем) и к большему выраженному интеллекту (большая эффективность приобретения навыка).

Высокий интеллект по сравнению с низким «покрывает большее пространство» будущих ситуаций, используя одну ту же исходную информацию.

II.2.2. Эффективность вычислений, эффективность времени, эффективность использования энергии и эффективность риска

Выше мы рассматривали только информационную эффективность (приоритетность и эффективность опыта в отношении сложности обобщения) интеллектуальных систем. Действительно, мы считаем, что сегодня это наиболее действенный и актуальный аспект для продвижения исследований ИИ (см. II.2.3). Но это не единственный аспект, который можно рассмотреть. На ум приходит несколько альтернатив, которые могут быть включены в наше определение различными способами (например, как термин регуляризации):

  • Эффективность вычислений программ навыков: для установок, в которых обучающие данные имеются в большом количестве, но вычисление времени вывода является дорогостоящим, можно поощрять создание программ навыков, которые имеют минимальное потребление вычислительных ресурсов.
  • Эффективность вычислений интеллектуальной системы: для установок, в которых вычисления во время обучения являются дорогостоящими, может потребоваться минимальное количество вычислительных ресурсов для создания программы навыков.
  • Эффективность времени: в условиях ограниченного времени можно минимизировать задержку, с которой интеллектуальная система генерирует программы навыков.
  • Энергоэффективность: в частности, в биологических системах можно минимизировать количество энергии, затрачиваемой на создание программы навыков, выполнение программы навыков или прохождение учебной программы.
  • Эффективность риска: для условий, в которых прохождение учебной программы (то есть сбор опыта) сопряжено с риском для интеллектуальной системы, можно поощрять безопасные учебные программы за счёт эффективности использования ресурсов или эффективности информации. Подобно энергоэффективности, это очень важно для биологических систем и естественной эволюции, в которой определённые модели поведения, ищущие новшества, которые могут привести к более быстрому обучению, также могут быть более опасными.

На самом деле, можно заметить, что информационная эффективность действует во многих ситуациях как показатель эффективности использования энергии и снижения рисков.

Мы ожидаем, что эти альтернативные способы количественной оценки эффективности станут актуальными в специализированных контекстах приложений ИИ в будущем, и мы предлагаем их вниманию читателя, чтобы побудить других разработать новые формальные определения интеллекта, включающие их в дополнение к информационной эффективности.

II.2.3. Практические последствия

Вышеприведенные определения обеспечивают формальную основу, а также количественные инструменты, чтобы рассуждать об интуитивных понятиях, которые мы вводили до сих пор, в частности, понятиях «сложность обобщения», «интеллект как эффективность приобретения навыков», что значит контролировать предварительные данные и опыт при оценке интеллекта, в отличие от взгляда исключительно на конкретные навыки.

Основная ценность этой основы заключается в том, чтобы обеспечить действенное изменение перспективы в том, как мы понимаем и оцениваем гибкий или общий искусственный интеллект. Мы утверждаем, что этот перспективный сдвиг имеет следующие практические последствия:

  1. Последствия для исследований в направлении гибкого или общего ИИ:

Очевидно, что к процессу создания интеллектуальной системы можно подойти как к задаче оптимизации, где целевая функция была бы вычислимой аппроксимацией нашей формулы количественного интеллекта. Как указывалось в II.2. 2, эта целевая функция может быть дополнительно уточнена путём включения терминов регуляризации, которые учитывали бы альтернативные формы эффективности.

Поощряется сосредоточение внимания на развитии широких или универсальных способностей, а не только на поиске навыков, с предложением целевой метрики, которая показывает чрезмерную зависимость от опыта или предварительных данных и отказом от задач, которые характеризуются низкой сложностью обобщения.

Поощряется интерес к синтезу программ, чтобы предложить нам перестать думать об «агентах» как о монолитных чёрных ящиках, которые принимают сенсорный ввод и производят поведение (видение, унаследованное от обучения с подкреплением): наш формализм чётко отделяет часть системы, которая обладает интеллектом («интеллектуальная система», механизм синтеза программ), от части, которая достигает навыка или реализует поведение («программа навыков», неинтеллектуальный выходной артефакт процесса интеллекта), и сосредотачивает внимание на первом. Как мы и указываем в этой статье, эта путаница между процессом и артефактом была постоянной фундаментальной проблемой в концептуализации ИИ.

Поощряется интерес к разработке программ обучения, использующих понятие «оптимальной программы обучения» и привлекающих внимание к тому факту, что лучшая программа обучения повышает интеллект, выявляемый системой обучения.

Поощряется интерес к построению систем, основанных на человекоподобных априорных знаниях (например, базовых знаниях), с привлечением внимания к важности априорных данных в оценке интеллекта.

2. Последствия для оценки гибких или общих систем искусственного интеллекта:

Определяя и количественно оценивая трудности обобщения, предлагается возможность формально обосновать, что значит выполнять «локальные обобщения», «широкие обобщения» и «крайние обобщения» (см. спектр обобщений, введенный в I.3.2), а также вычеркнуть тесты, которые характеризуются нулевой сложностью обобщения.

Предлагаются конкретные рекомендации для сравнения ИИ и человеческого интеллекта: такое сравнение должно начинаться с общего объёма задач и общих приоритетов, и далее стремиться к сравнению эффективности опыта в достижении определённых уровней квалификации. Мы детализируем эту идею в II.3.1.

Это показывает важность учёта трудности обобщения при разработке тестового набора для оценки задачи. Мы подробно излагаем эту идею во II.3. 2. Мы надеемся, что это приведёт нас к метрикам оценки, которые могут отбросить решения, основанные на ярлыках, которые не обобщают (например, зависимость от локальных текстур в отличие от глобальной семантики в компьютерном зрении).

Предлагается набор практических вопросов, которые можно задать о любой интеллектуальной системе, чтобы строго охарактеризовать её:

  • Какова её сфера применения?
  • Каков её «потенциал» по этому объёму (максимально достижимый навык)?
  • Какие у неё предварительные данные?
  • Каков её навык-эффективность приобретения (интеллект)?
  • Какие программы обучения будут максимизируют эффективность её навыков или приобретения навыков?
СЛЕДУЮЩИЙ МАТЕРИАЛ РАЗДЕЛА "IT"