Новият подход на OpenAI за обучение с имитация с един удар, надникване в бъдещето на AI

Имитация с едно изстрел Ян Дуан, Марцин Андрихович, Брадли С. Стади, Джонатан Хо, Йонас Шнайдер, Иля Суцкевер, Питер Абиел, Войцех Заремба

На 16 май изследователите на OpenAI споделиха видео на един от своите проекти, заедно с две важни доклади за проучване на решения за три ключови места в настоящото развитие на ИИ: мета-обучение, еднократно обучение и автоматизирано генериране на данни. В предишната си публикация обещах статия, посветена на завладяващия проблем на обучението с един удар, така че тук продължава. Можете да започнете, като разгледате видеото, което пуснаха, което обяснява тяхната невероятна работа:

В това видео виждате физически робот с една ръка, подреждащ кубчета един върху друг. Познавайки сложните задачи, които индустриалните роботи в момента са в състояние да изпълняват, ако изследователят не се опитваше да обясни какво се случва, в много сметки това би било много полезно. В контролирана среда задачата е с прости, процедурни (твърдо кодирани) подходи вече са решили този проблем, онова, което е обещаващо и революционно, е доколко общата рамка отдолу може да достигне до множество, по-сложни и адаптивни поведения в по-шумни среди.

Разликата в ума между човека и висшите животни, колкото и да е голяма, със сигурност е една степен и не е от рода.
- Чарлз Дарвин

По аналогия тази статия е категорично доказателство, че разликите в когнитивните системи между сегашния въплътен ИИ (изкуствен интелект на физическите системи) и роботите от 22-и век ще бъдат мащабни, а не от рода. От 2012 г. конкуренцията на ImageNet * процъфтява научните изследвания не толкова за промяна на характера на разпределените изчисления, извършени от невронна мрежа, а чрез намиране на нови начини за структуриране на мрежи, така че те да научат конкретна задача. За невронната мрежа функция е структура, тази структура не е кодирана твърдо (не е проектирана на ръка), но резултатите от атомните изчислителни единици, първоначално свързани между входовете и изходите, които са в състояние да променят своята структура и връзки. Именно чрез промяна на цялостната структура на мрежата се научава на конкретна функция.

В тази статия те изградиха обща рамка, способна да обучи агент да представя задачи по абстрактен начин и да се научи да прехвърля тези знания на нови невиждани задачи (трансферно обучение) след само една демонстрация на романната задача (едно обучение за имитация на кадър).

Задачите

Въпреки че точното архитектурно изпълнение се различава, те вземат две задачи като примери, за да покажат изпълнението на общия подход.

Достигане на частици

В първия пример системата получава входове от цветни целеви позиции в равнина и единична видеодемонстрация на симулирания агент, който отива към определената цел.

Фигура 2. Роботът е точкова маса, контролирана с двумерна сила. Семейството от задачи е да достигнат целева ориентир. Идентичността на ориентира се различава от задача към задача и моделът трябва да определи коя цел да преследва въз основа на демонстрацията. (вляво) илюстрация на робота; (в средата) задачата е да достигнете до оранжевото поле, (вдясно) задачата е да стигнете до зеления триъгълник.

По време на тренировката системата трябва да възпроизвежда същата задача (достигне оранжево), но от друга конфигурация, с различни изходни позиции за робота и целите. Не е ясно дали по време на тестване агентът е тестван по задача, на която е бил обучен (достигнете оранжево), или по задача, която никога не е виждал досега (достигнете например зелено) или и двете.

Обучената политика се оценява по нови сценарии и се обуславя от нови демонстрационни траектории, невиждани по време на обучението.

Сигурно е, че агентът трябва да изведе целта от уникална демонстрация и отново да започне от друга конфигурация. Това означава, че точната двигателна последователност не е могла да бъде научена преди тестването и трябва да се направи чрез абстракция (структурирано представяне на по-високо ниво) на задачата и планирането на двигателя.

Блок подреждане

Във втория пример агентът трябва да се научи да подрежда кубчета (идентифицирани с различни цветове) в същия ред като този, показан в една симулирана демонстрация. Тази симулирана демонстрация представлява серия от 2D изображения, генерирани от 3D физически двигател, в който се моделират свойствата на двигателния и сензорния апарат на роботите.

Политика с един удар. Единна политика, обучена за решаване на много задачи. Основна задача: {abc, def}, Долна задача: {ab, cd, ef}

И в двата примера началните позиции на кубчетата в демонстрацията и в реалния тест са различни, всяка задача започва от друга начална позиция. Роботът не се опитва да замени кубовете, за да съответства на първоначалната позиция на демонстрацията, той прехвърля задачата от по-високо ниво да натрупа куба, независимо от състоянието, в което започва.

Обучение с използване на рандомизация на домейна

И в двата случая всички изображения, използвани по време на обучение, се получават чрез симулация, като се използва рандомизация на домейна, при която те ще рандомизират следните аспекти на пробите:

Брой и форма на разсейващи обекти на масата Позиция и текстура на всички обекти на масата Текстури на масата, пода, небесната кутия и робота Позиция, ориентация и зрително поле на камерата Брой светлини в сцената Позиция, ориентация, и спектрални характеристики на светлините Вид и количество на случаен шум, добавен към изображенията

Учебен комплект за достигане на частици

Считаме за все по-труден набор от семейства от задачи, където броят на ориентирите се увеличава от 2 на 10. За всяко семейство задачи ние събираме 10000 траектории за обучение, където позициите на ориентири и началната позиция на точковия робот са рандомизирани. Използваме твърдо кодирана експертна политика за ефективно генериране на демонстрации. Ние добавяме шум към траекториите, като смущаваме изчислените действия, преди да ги приложим в околната среда, и използваме просто поведенческо клониране за обучение на политиката на невронната мрежа

Учебен комплект за подреждане на блокчета

Конкретно, ние събираме 140 тренировъчни задачи и 43 тестови задачи, всяка с различно желано оформление на блоковете. Броят на блоковете във всяка задача може да варира между 2 и 10. Ние събираме 1000 траектории на задача за обучение и поддържаме отделен набор от траектории и първоначални конфигурации, които да се използват за оценка. Подобно на задачата за достигане на частиците, ние вкарваме шум в процеса на събиране на траекторията. Траекториите се събират с помощта на твърдо кодирана политика.

Успешните демонстрации се събират с помощта на твърдо кодирана политика

Обърнете внимание, че по време на усвояването на правилните траектории се генерират от процедурна „твърдо кодирана” политика, която според мен разчита на класическите техники за идентификация и контрол на системата. Така че по време на обучение и тестване агентът има два входа: а) демонстрация в конфигурация A и б) начална конфигурация B. По време на само тренировъчния алгоритъм има достъп до идеален отговор: траектория, започваща от конфигурация B, която отговаря на проблема и с който отговорът на агента ще бъде сравняван по време на обучението - което го прави контролиран учебен проблем.

За всяка тренировъчна задача предполагаме наличието на набор от успешни демонстрации.

Ако не е ясно, ще преодолея разликите между различните видове парадигми за обучение в следващия раздел.

Алгоритъм за оптимизация и функция за загуба

Контролираното обучение се отнася до парадигми за обучение, при които при всяко решение мрежата има достъп до правилния избор, който би трябвало да направи, и следователно до понятието за грешка. Например в задача за класификация между кучета и котки, етикетът с изображения на кучета и котки по време на обучение е известен предварително и грешките се откриват веднага. В този смисъл е различно от неподдържаното учене, където по принцип агентът е помолен да намери неизвестна досега структура във входовете, които получава, и без етикети на котки и кучета би трябвало да открие, че има две групи от различни обекти само въз основа на информацията, съдържаща се в данните. Също така е различно от Reinforcement Learning, че честотите се прилагат към системата в реално време, в която точната последователност на решенията, водещи до цел, е неизвестна, но само окончателното „възнаграждение“ ще реши дали последователността е правилна или не. Използвайки имитиращо обучение, те превръщат класическия укрепващ учебен проблем в контролиран учебен проблем, при който грешката се изчислява от разстояние до наблюдавана траектория.

Както е в случая с всяка контролирана тренировъчна програма, задачата, която се работи, е напълно дефинирана от функцията за загуба, която има за цел да определи количествено колко далеч е бил агентът от предвиденото поведение. Дефинирането на тази функция често е критичната стъпка, тъй като тя определя как алгоритмите за оптимизация актуализират параметрите на модела. Тези алгоритми са важни за изчислителното време и често изискват някои настройки, за да могат да се сближат, ако изобщо. Всъщност решенията, които ще минимизират функцията в много високо измерение, се намират в много малка обвивка на пространството на параметрите, с малко разстояние между тях, веднага щом се измъкнете от този малък домейн, разстоянието между решенията расте бързо. Има много много интересна работа по тази тема, направена между другото от много невероятната Дженифър Чайс, тя чете темата в много интересно интервю за последния епизод на Talking Machines.

По време на обучението на политическите мрежи (цялата мрежа, в състояние да реши от каква информация да предприеме действие) те първо обработват успешната демонстрационна траектория. В тази част те ще сравняват два подхода, класическото поведенческо клониране (не е точно сигурно в прилагането, което са използвали) и алгоритмите DAGGER. Това ще позволи итеративното минимизиране на функцията на загуба или чрез l2, или от кръстосана ентропийна загуба въз основа на това дали действията са непрекъснати или дискретни (въз основа на разпределения на събития в последователността). При всички експерименти те използваха алгоритъма Adamax, за да извършат оптимизацията със скорост на обучение 0,001.

Размерът на стъпките започва малък и разпада експоненциално.

Алгоритъмът сам по себе си не позволява трансфер, това е начинът, по който изграждате своя тренировъчен комплект и вашата загубна функция, която ще позволи прехвърляне.

В задачите съществуват два вида прехвърляне. Първият вид се нарича „преодоляване на разликата в реалността“, това е обобщение в обучението, което позволява преминаване между обучение на симулирани входове към тестване на естествени стимули. Данните за симулация често са бедно сближаване на реалния свят, прекалено съвършено, липсващо в сложността на реалния обект. В реалния свят камерата може да е дефектна и по-шумна, моторното управление ще бъде по-малко прецизно, цветовете ще се променят, текстурите ще бъдат по-богати и т.н. За да позволят това първо прехвърляне, те използват метод, който наричат ​​„рандомизация на домейна“ : именно чрез добавяне на шум към входовете мрежата може да научи общата подходяща структура, която ще й позволи да генерализира по подходящ начин в реалния свят. Те например ще променят ъгъла на камерата между примери за обучение, ще променят текстурите или ще направят траекториите да бъдат по-малко перфектни. Чрез добавяне на шум по време на тренировка ние добавяме здравина.

Вторият трансфер, изпробван тук, е способността да се произвежда съответна двигателна последователност в невиждана досега конфигурация и цел, базирана на една демонстрация, започваща в друга първоначална конфигурация, но с подобна крайна цел. Отново тук трансферът ще стане възможен от това как изграждаме тренировъчния набор и моделираме функцията за загуба. Представяйки демонстрации по време на обучение, които не започват от едно и също първоначално условие за постигане на подобна цел, вие позволявате на мрежата да се научи да вгражда представяне на целта от по-високо ниво, без да използва абсолютни позиции, както и представяне на по-висок ред на двигателната последователност, която не е проста имитация. Наивната първоначална архитектура позволява обучението да променя структурата по подходящ начин, а тази обучена структура предполага финалната функция.

Цели

За парадигмата за подреждане на блокчейн те имаха няколко ограничения, с които искаха да се срещне техният учебен агент.

Трябва да е лесно да се прилага към екземпляри на задачи, които имат различен брой блокове.
Естествено би трябвало да се обобщи с различни престановки на една и съща задача. Например, политиката трябва да се представя добре на задача {dcba}, дори ако е обучена само за задача {abcd}.
Той трябва да съдържа демонстрации с различна дължина.

Те имаха няколко въпроса, на които искаха да отговорят за тази задача.

Как обучението с поведенческо клониране се сравнява с DAGGER, като се има предвид, че достатъчно данни могат да се събират офлайн?
Как кондиционирането на цялата демонстрация се сравнява с кондиционирането на крайната желана конфигурация, дори когато крайната конфигурация има достатъчно информация, за да уточни изцяло задачата?
Как кондиционирането на цялата демонстрация се сравнява с кондиционирането на „моментна снимка“ на траекторията, която е малко подмножество от кадри, които са най-информативни
Може ли нашата рамка да се генерализира успешно до типове задачи, които никога не е виждал по време на обучение? (++)
Какви са настоящите ограничения на метода?

архитектура

Достигане на частици

За този първи пример те сравниха три архитектури, всички базирани на невронни мрежи за дългосрочна памет (LSTM). Описание на тези мрежи ще бъде публикувано в бъдеща публикация за паметта и вниманието, които са абсолютно завладяващи теми както в когнитивните, така и в изчислителните науки. По същество LSTM захранва предишни мрежови изходи (във времето) като част от входа на мрежата във всяка нова времева точка, позволявайки на информация от минали състояния да информира настоящето (оттук и името им на краткосрочни мрежи от паметта). Те са в основата на много съвременни технологии, занимаващи се с времеви серии (Alexa, Siri и др.).

Тук те използват тези три специфични условия:

  1. Plain LSTM: научава се да вгражда траекторията и текущото състояние, за да я захранва към многослоен персептрон, който ще произведе двигателното действие
  2. LSTM с внимание: изгответе претеглено представяне върху ориентирите на траекторията
  3. Крайно състояние с внимание: използвайте за трениране само крайното състояние, за да създадете претегляне на ориентири, подобно на предишната архитектура

Блок подреждане

Докато по принцип една обща невронна мрежа може да научи картографирането от демонстрация и текущо наблюдение до подходящи действия, ние намерихме за важно да използваме подходяща архитектура. Нашата архитектура за подреждане на блокове за учене е един от основните приноси на този документ и смятаме, че е представителна за това как могат да изглеждат архитектурите за еднопосочно имитиращо обучение на по-сложни задачи.

Модули за внимание

Статията остава сравнително високо ниво при описание на структурата на мрежите, използвани за усвояване на задачата. Ключова съставка на архитектурата е техният модул за внимание, но вярвам, че тази тема се нуждае от конкретен пост, който да се задълбочи подробно в нейната основна роля. По аналогия с когнитивната научна концепция за постоянно внимание, модулите за внимание се използват за запазване и фокусиране върху съответната информация, съдържаща се в различни пространства и време. Той произвежда фиксиран размер на изхода, който съдържа вграждане на информационно съдържание, което беше разтеглено във времето и пространството. По аналогия с топологията, клон на математиката, който вярвам, че много ще информира как разбираме разпределените представи в бъдеще, мрежа за внимание изпълнява топологичен изоморфизъм на информация, същата кривина, различна форма. Обърнете внимание, че тези мрежи не играят роля на детектор за слюнчивост, способен да се съсредоточи върху неочаквани или редки събития, което е функция, свързана с представата за внимание в невронауката.

Тук те използват два типа мрежа за внимание: а) временна мрежа за внимание, която генерира претеглена сума над съдържание (заявки, контекст и вектори на паметта), съхранявани в паметта, и б) мрежа за внимание в близост, която е в състояние да възстанови информация по отношение на блока позиции в зависимост от текущата заявка на агента.

Временна мрежа за внимание, с c: вектор на контекста, m: вектор на паметта, q: вектор на запитване, v: тегло на научения вектор. Изходът е със същия размер като вектора на паметта. Това е линейна комбинация от онези вектори, които позволяват даден вектор на паметта да има по-голямо влияние върху изхода въз основа на контекста и векторите на заявките.Същата идея тук, конкуренцията между пространствената информация се поддържа динамично от системата за внимание.

Политическата мрежа

Цялостната мрежа се състои от три различни подмрежи: демонстрационна мрежа, контекстна мрежа и мрежа за манипулация.

Демонстрационната мрежа получава демонстрационна траектория като вход и произвежда вграждане на демонстрацията, която да се използва от политиката. Размерът на това вграждане нараства линейно като функция от дължината на демонстрацията, както и от броя на блоковете в околната среда.

Както е показано тук, демонстрационната мрежа е в състояние да вгради демонстрация с различна сложност и размер в общ формат, който ще бъде използван от контекстната мрежа за представяне на задачата. Вероятно на това ниво вече се случва генерализацията, демонстрационното вграждане трябва да пропуска информация за точната траектория и абсолютните позиции на куба, наблюдавани по време на демонстрациите.

Разглеждайки структурата на контекстната мрежа, макар и от много високо ниво, виждаме интерфейса с демонстрационната мрежа, захранващ вграждане на демонстрацията към централните модули за времево внимание. Виждаме също, че предишните действия (LSTM) и текущото състояние се подават като вход, свързан с вграждането на демонстрация, за да се получи вграждане в глобален контекст, изпратено до двигателната мрежа.

Описанието на функциите на мрежите според мен е най-важната част от статията:

Контекстната мрежа започва с изчисляване на вектор за запитване като функция на текущото състояние, който след това се използва за присъствие през различните времеви стъпки в демонстрационното вграждане. Теглата на вниманието върху различни блокове в рамките на една и съща стъпка се сумират заедно, за да се получи единично тегло на стъпка във времето. Резултатът от това времево внимание е вектор, чийто размер е пропорционален на броя на блоковете в околната среда. След това прилагаме вниманието на околността, за да разпространяваме информацията в вградените части на всеки блок. Този процес се повтаря многократно, при което състоянието се усъвършенства, като се използва LSTM клетка с необвързани тегла.
Предишната последователност от операции произвежда вграждане, чийто размер не зависи от дължината на демонстрацията, но все пак зависи от броя на блоковете. След това прилагаме стандартно меко внимание, за да произвеждаме фиксирани вектори, където съдържанието на паметта се състои само от позиции на всеки блок, който, заедно със състоянието на робота, формира входа, предаден на манипулационната мрежа.
Интуитивно, въпреки че броят на обектите в средата може да варира, на всеки етап от операцията на манипулиране броят на съответните обекти е малък и обикновено е фиксиран. Специфично за средата за подреждане на блока, роботът трябва само да обърне внимание на позицията на блока, който се опитва да избере (източника), както и позицията на блока, който се опитва да постави отгоре ( целевия блок). Следователно правилно обучена мрежа може да се научи да съответства на текущото състояние със съответния етап в демонстрацията и да извежда идентичността на източника и целевите блокове, изразени като меки тежести на вниманието върху различни блокове, които след това се използват за извличане на съответните позиции на да бъдат предадени на мрежата за манипулиране.

Начинът, по който завършват описанието си, е перфектен пример за сегашния дрейф на AI изследванията от експертен системен подход към подход към системата за учене, а също така намеква за дискусията около това как еволюира мозъкът отдолу.

Въпреки че не налагаме тази интерпретация в обучението, анализът на експериментите ни подкрепя тази интерпретация на начина, по който научената политика работи вътрешно.

Те не знаят как работи! Те изграждат структура, способна да извършва определени изчисления и да съхранява определена информация, която според нас е априори полезна, и я захранва с обучителен комплект с надеждата, че цялата структура ще се научи! Има един вид изследователски вуду на изкуствения интелект във възход, изкуство, начин да се насочи евристичното търсене в правилната посока. И изглежда цяла част от тези магьосници работят за openAI.

По собствени думи мрежата за манипулиране е най-простата структура, от контекстното вграждане, подадено към многослойния персептрон, се получава двигателно действие.

Резултати

Резултатите често са част, към която имам малък интерес, особено за тези невероятно блестящи технически документи. Ще продължа бързо, като дъното е, че този подход работи, той изпълнява с точност, подобна на твърдо кодираните експертни политики и противно на този специфичен процедурен подход е обобщаващ за голям набор от задачи.

Достигане на частици

Подреждане на блок

В тези експерименти те са тествали и различни условия. Използвайки DAGGER, те сравниха три различни състояния на входовете, като свалиха демонстрацията на демонстрираната траектория: пълни траектории, моментна снимка на траекторията или само използвайки крайното състояние. Те също сравниха алгоритъма на поведенческото клониране с пълната траектория на демонстрацията.

Силно доказателство за способността на системата да обобщава идентичността на куба

дискусия

Четейки напредъка на бързите темпове, постигнати от OpenAI през последните изминали месеци, усещам все по-голям стремеж да говоря за тяхната работа и да споделя своите мисли за това, което вярвам в тяхната работа, и за напредъка в областта на AI като цяло, информират нашето разбиране за това как биологичните мозъци работят. По-специално тази нарастваща идея, че на пръв поглед когнитивните функции между човешките същества не се дължат толкова на споделена структура, която вътрешно знае как да изпълнява задача, а вместо това е резултат от сравнително подобни наивни структури, които, изправени пред една и съща среда, научете се да изпълнявате подобни задачи. Функцията е резултат от безфункционална структура, която е в състояние да научи конкретна задача поради специфична среда, а не от структура, която е в състояние да изпълни задачата изначално, като просто настрои няколко параметъра, за да се адаптира към средата.

Задачи срещу конфигурации: привидно произволно определение

Трябва да призная, че не разбирам защо избраха да говорят за различни задачи по начина, по който са се справили. Задачата се дефинира в експеримента за подреждане на блокове като набор от низове, представляващи позицията на блокове един спрямо друг, броят на елементите в набора определя броя на стековете и броя на символите, броя на блока, който трябва да бъде подреден , Задача след това е подреждане на блокове в стекове, независимо от абсолютната позиция на стека.

Някои блокове може да са на масата, но не са част от задачата

Изборът им за определяне на относителна позиция и брой стекове като критерии за отделна задача изглежда произволен. Всъщност би могло да има смисъл да се говори за различни задачи въз основа на абсолютните изходни позиции на блоковете (това, което те наричат ​​конфигурация). Вярвам, че общият характер на проблема им е очевиден, но за по-голяма яснота те предпочитат да не навлизат в подробности. Има по-смисъл да изучавате политическото обучение като два вида обобщения, както правят по-късно:

Обърнете внимание, че обобщаването се оценява на множество нива: научената политика не само трябва да обобщава до нови конфигурации и нови демонстрации на вече видяни задачи, но и трябва да се обобщи с нови задачи.

Просто заменете „задачите“ с „подреждане на стекове“. Правилното усвояване на задачата означава, че агентът научава вграждане, способно да абстрахира позицията на кубовете (конфигурация), но също така тяхната идентичност (задача), броя на стековете (задача) и траекторията на демонстрацията (въведена накратко в цитата) за създаване на съответна двигателна реакция.

Тези обобщения изглеждат противоречиви, как една и съща мрежа може да абстрахира първоначалната конфигурация на куба или тяхната идентичност и все пак да възстанови абсолютната си позиция за двигателния отговор?

Това обяснява необходимостта от различни съвместни подмрежи по време на учене, получаване на различни входове и обяснява, че в контекстната мрежа абстрактно представяне на задачата се подава информация от по-нисък ред, като кубични абсолютни позиции, преди командата за низходящ ред.

Може да мислите, че коментирането на това разграничение на задача и конфигурация е глупаво, но е важно да се разбере, че по същество това е един и същ процес на абстракция при игра на различни обекти (и това се отваря за следващия раздел).

Няма учене без инвариантност

Трансферното обучение е може би най-завладяващото понятие за познание, независимо дали е in-silico или in vivo, то е много гореща тема както за изследователи на ИИ, така и за невролозите и това се случва да бъде предмет на моята докторска дисертация. Обърнете внимание, че тясно свързани понятия са проучени в много области преди машинно обучение и тази абстрактна и винаги частично дефинирана концепция има много имена. Философи, антрополози и социолози могат да го определят като (пост-) структурализъм (Клод Леви-Строс, Мишел Фуко), лингвистът ще говори за синтагмата и структурите на вложените дървета (Ноам Хомски), математиците вероятно ще мислят за хомеоморфизма или инвариантите и образованието изследователи или невролози могат да го определят като структурно обучение. Можете също така да видите свързана концепция в областта на машинното обучение като представително обучение и метаучене, което в зависимост от автора може да се отнася до трансферно обучение или парадигма за обучение, използвана за извършване на трансферно обучение. Когато говорим за дълбоките невронни мрежи, тези различия са замъглени, тъй като по същество невронната мрежа се учи да вгражда определен проблем (представително обучение), като променя структурата си (мета-обучение) обикновено в шумна среда, която предполага форма на трансферно обучение.

Изследователите на ИИ и когнитивния учен често имат много конкретно определение за трансферно обучение. Това е процесът, който позволява на системата да използва придобитите знания в определена задача, за да изпълни друга задача, споделяща обща композиционна структура (както е описано в статията). Когнитивната наука има тази представа за пренос на далеч и далеч, в зависимост от това как изглежда двете задачи да се различават. Но от по-абстрактна гледна точка, в шумна и сложна среда, цялото учене е форма на трансферно обучение и разликата между много близък и много далечен трансфер е само въпрос на споделена информация - отново въпрос на мащаб не на природата.

В контролирана среда предварително се полагат усилия за изграждане на твърдо кодирана дискретизация на реалността, но всъщност тази дискретизация процедурно възпроизвежда това, което прави трансферното обучение, обединява безкраен набор от състояния, открити в реалността, под обща ограждаща структура. По същество трансферното обучение се отнася директно или чрез разширение до процеса, чрез който обучаващите агенти използват инварианти за изграждане на модели на света. Това е процес, който използва сходства, повторения и вариации на едно и също, за да формира все по-абстрактно и съставено представяне, което ще структурира ансамбли през обхвата на дисперсията от входа. В общ смисъл тя позволява да се създадат основните операции, чрез които ние манипулираме информационни групи, подобно на математиката, позволява обединяване и пресичане. Позволява идентичности, обяснява способността ни да категоризираме обекти. Джош Тенембаум дава пример, който наистина ми говореше: представете си, че учите двегодишно дете да разпознава кон за първи път, показвате му няколко снимки на различни коне и след това му показвате снимката на друг кон и снимката на къща и го помолете да ви каже кой е конят. Дете ще се справи с тази задача доста лесно, но все пак това е нещо, което компютърът не може да се справи добре с толкова малко входове (еднократно обучение).

Как детето го направи?

Разпознаването на животни е проучено при деца и е свързано с нашата способност да деконструираме предмети на съответните части, цветовата гама на козината, размера на шията, общата форма и др. Тази способност е и това, което ви позволява да отворите вратата никога не сте виждали досега, научихте двигателна последователност, която се обобщава към всяка ситуация (генерализиране на домейни). Това е и това, което използвате за изграждането на обяснителни модели, които опростяват света, може наистина първоначално да се изненадате от внезапното виждане на кукувица в известен швейцарски часовник, но след втората поява ще го очаквате. Намирането на инвариантност е как се научава невронната мрежа и тези модели се изграждат несъзнателно. Пример е как научаваме интуитивно за физиката, дори преди да сме чували за математика и числа.

Човек може да попита например колко бързо дете, родено в микрогравитация, ще се приспособи към земната гравитация и ще научи интуитивно, че предметите ще паднат на земята, когато бъдат изпуснати?

Можем да предположим, че бебетата и повечето животни ще преразгледат модела си несъзнателно, подобно на това, когато поставяте чорапи на лапите на куче и отнема известно време, за да се адаптира към новата информация.

Но за малкото дете ще се осъществи съзнателен разпит и преразглеждане на интуитивния му модел, от любопитство, чрез език, символи и вярвания. Способността ни да разпитваме съзнателно и да променяме моделите си е завладяваща и като страничен знак, хората може да са единственият вид, способен да вербализира процеса, но други видове могат да извършат подобни съзнателни ревизии.

Инвариантността е задължително свойство на времето, ако винаги всичко беше ново и по никакъв начин не може да се предвиди, все пак щеше да остане този уникален инвариант, че всичко винаги е ново и непредсказуемо. Невъзможно е да си представим свят без инвариантност, тъй като не би могъл да има свят, към който да се отнасяме, без инвариантността животът би бил невъзможен, а мозъкът ни безполезен. Животът е машина, която работи само чрез предсказуемото повторение на събитията, повторение на причини и последици, на циклично повторно въвеждане на енергия в организма. И в стремежа на Живота да подобри използването на тези необходими цикли, мозъкът ни е най-добрият инструмент. Това е машина за прогнозиране, адаптивен орган, способен да намира повторение динамично и да го използва за по-добро взаимодействие със света.

Този метод, който животът избра, е изключително здрав към леки промени в структурата. Същото остава светът, статистическите свойства на околната среда, но невронната структура, която се среща с нея, може да варира, стига да може да вгради съответната информация, която е еволюирала. Това обяснява защо мозъкът ни може да бъде толкова различен от отделен човек до отделен, дори първичен кортикс, и въпреки това споделят едни и същи функции.

Нервните системи са адаптивни, не се нуждаят от еволюция и бавни генетични мутации, за да променят поведението по подходящи начини. Една проста нервна система, като тези, открити в C. Elegans, служи като вроден вътрешен координатор и външен сензор: усещайте храната и се придвижвайте към нея, бягайте от болка, възпроизвеждайте. Тези прости системи първоначално бяха твърди и изпълняваха крайно сближаване на нашия много шумен свят, за да го дискретизират в малък набор от възможни състояния (храна отляво, топлина отдолу и т.н.). Нашите двигателни и сетивни способности се развиват ръка за ръка с нашите прогнозни възможности на нервната система. Тъй като нашите сензори станаха по-прецизни, нервната система бавно стана в състояние да променя структурата си, за да съхранява информация и да се учи от опит. Първоначално той успя да се научи да разпознава определени категории входове, като видове миризми или светлинни модели, а също така стана способен да се научи чрез опит и грешки да контролира все по-сложната си двигателна система. Обърнете внимание, че светът е толкова сложен, че мозъкът ни естествено се развива към учебна парадигма, а не към вроден процедурен подход. Изчислено това има перфектен смисъл, проста игра на Go има състояние на състоянието далеч по-голямо (2.10¹⁷⁰) от броя на атомите във Вселената (10⁸⁰) и тъй като организмите стават по-сложни, опитвайки се да кодират приблизително всички възможни заявява, че би могло бързо да стане неразрешим поради комбинаторни експлозии.

Някои хора могат да повярват, че мозъкът ни е изграден по такъв начин, че вътрешно представлява пространството, в което ще се развива, че в ДНК някъде има ген за това, което представлява лице, или временната организация на звуковите вълни, които правят нагоре думи. Те могат да повярват, че това вродено знание е закодирано някъде при раждането. Други може би вярват, като моя учител по философия, когато бях в гимназията, че съществуването предхожда същността и че мозъкът ни е напълно и единствено определен от срещата на организма и света. Реалността е, разбира се, по-сложна и за повечето изследвания на теленцефални системи мозъкът не кодира вътрешно функцията, която ще изпълнява, но ще я научи в зависимост от информацията, съдържаща се в нейните входове. Ако входът е твърде слаб в съответната информация, възможностите за обучение в тази структура може да имат срок на годност (напр. Амблиопия). Но ако вродената структура не кодира крайната функция, мозъкът има специфична структура. Тази структура е запазена при индивидите, а индивидите от един и същи вид споделят общи функции и задвижвания. ДНК създава определена структура на място, структура, която не може да изпълни окончателната си функция вътрешно, но структура, способна да научи сложността на конкретни задачи въз основа на индивидуалния опит. Не е изненадващо, че еволюцията доведе до появата на високоефективна кръвно-мозъчна бариера, изолираща мозъка от останалата част от тялото, както и менингите и твърдата костна обвивка, защитаващи го от външния свят, защото за разлика от други органи, в които структурата е кодирана в генома, структурата на обучен мозък не може да бъде регенерирана от вътрешно съхранен модел. Впечатляващото е, че виждаме същите механизми на обучение, породени от аналогия чрез разработването на все по-сложни дълбоки мрежи, изпълняващи все по-сложни задачи.

Композиционните структури трудно се виждат, но навсякъде

Като страничен знак е странно, че дори авторите не признават, че първата им задача за достигане на целта има композиционна структура.

Постигането на частици със задачи добре демонстрира предизвикателствата при обобщаването в опростен сценарий. Задачите обаче не споделят композиционна структура, което прави оценяването на обобщаването на новите задачи предизвикателство.

Въпреки че структурата наистина е по-ниско от подреждането на блока и не е лесно достъпна за експериментално манипулиране, задачата наистина е съставена от споделена структура. Приближавайки света към равнина, една композиционна структура е, че идентичността на куба (цвят) се запазва с превод и преминава от блок A - или произволна изходна позиция - в позиция (Xa1, Ya1), за да блокира B в позиция (Xb1, Yb2 ) е част от същата композиционна структура от по-висок ред от преминаването от блок А в позиция (Xa2, Ya2) до блок B в позиция (Xb2, Yb2).

Интерфейси между мрежите

Агенцията на невронните мрежи, които могат да обработват входни данни на различни нива на абстракция, ще се нуждае от интерфейси, домейн, който според мен е много останал за откриване. Тези интерфейси могат да бъдат от много естество. Те могат например да се разглеждат като общ език между две мрежи, както е показано в статията, мрежа от по-ниско ниво, въоръжена със система за внимание (демонстрационна мрежа), може да преведе демонстрация в представителство, която друга мрежа (контекстната мрежа) може да използва да насочва действието независимо от дължината или първоначалната конфигурация на демонстрацията.

Повърхността на този език тук е равнина, фиксирана по размер, но може да си представим възможни промени, които биха могли да подобрят комуникацията между мрежата. Например размерът на повърхността може да бъде настроен да нараства или да се свива динамично, докато мрежите си взаимодействат по време на обучение, следователно компресиране или разширяване на сложността на езика. Бихме могли да си представим и по-динамични взаимодействия, например чрез обратна връзка. Можем да си представим съществуването на мрежи за фасилитатори, които биха се научили да плавно общуват между мрежи, съществуващи като паралелна мрежа, които се учат да модулират входа на първата мрежа въз основа на входа и изхода на втората мрежа. Можем да си представим сложни контекстни мрежи, които действат като тонизиращ (бавно променящ се) приток към множество повече специализирани мрежи ... Очарователно бъдеща област на изследване!

Случаите за неуспехи намекват за възможните роли, които биха могли да имат нови модули

Струва си да се отбележи, че често грешките се дължат на двигателни грешки и че броят на грешките се увеличава със сложността на задачата.

Двигателната функция не трябва да се влошава само чрез увеличаване на броя на целите, това е силно доказателство, че начинът, по който репродуктивната мрежа се научава да говори с двигателната мрежа, е твърде абстрактен. Странно е, защото казват, че техният тест показва, че интерфейсът между контекстната мрежа и моторната мрежа е сравнително конкретен (положение на робота, позиция на целта).

Възможно решение би могло да бъде, тъй като това е модулна архитектура, да се използват различни функции на загуба или модулни функции на загуба, представляващи всеки специфичен аспект на задачата. Ще бъде подпомогнато и от еквивалент на предмоторните области на мозъка, за да се гарантира, че демонстрацията и контекстната мрежа могат да останат абстрактни, без да се влошава моторната команда. Предмоторните региони са необходими за по-доброто локализиране на обекти въз основа на целта (от абстрактни мрежи) и сензорни входове, за да се избере най-добрата моторна команда. Изглежда, че контекстната мрежа едновременно се опитва да пренесе демонстрацията на вграждане на по-високо ниво и да подготви едновременно двигателни действия в текущ контекст. Ролята на предмоторната мрежа би била да се научи да общува с двигателната система по ориентиран към целта и адаптивен начин, комбинирайки както функциите на премотора, така и на малкия мозък за двигателно обучение и бърза адаптация.

Има една интересна теория, парадоксът на Моравец, която предсказва, че няма да бъде изчислено данъчното познание, а обработката на сензорни входове и изходи на двигателни системи. Това наистина би могло да обясни голямото количество неврони, присъстващи в нашия мозъчен мозък (повече, отколкото в останалата част от мозъка ни) за адаптивен контрол на двигателните действия. Този парадокс беше формулиран във време (80-те), когато все още вярвахме, че можем да вградим собствените си знания в машина за изпълнение на сложна задача в неконтролирана шумна среда. Разбира се, този парадокс има смисъл, ако по някакъв начин машината е в състояние да представи света в дискретен набор от състояния, изграждането на функция на по-високо ниво при това би било по-лесно. Но вярвам, че и двете ще се окажат изключително данъчни и вътрешното представителство, използвано в интерфейса между мрежите, ще бъде далеч от нещо, което прилича на нашите собствени съзнателни представи.

заключение

Чрез комбиниране на различни невронни мрежи, всяка от които отговаря за специфичното третиране на проблема, тази статия показва, че чрез създаване на задача, която по своята същност се нуждае от генерализиране, и изграждане на подходяща учебна среда чрез рандомизация на домейна, невронна мрежа с достъп до памет и системата за внимание може да се научи да обобщава извън простото възпроизвеждане. Тя може да се научи да открива цел от по-висок ред, която е демонстрирана само веднъж във визуален поток на информация, и извършва изчисления в обобщено пространство, за да възстанови подходящите действия, способни да възпроизведат тази цел в различен контекст.

В бъдеще ще видим нарастваща сложност на структури, изградени върху онези атомни градивни елементи, способни да се научат да обобщават сложни задачи, но по-важното е да изпълняват няколко такива задачи в нови среди, с по-малко разчитане на твърди кодирани методи като преработка на входове или памет за съхранение. Съхраняването на паметта ще бъде заменено от разпределени представителства в мрежата от памет, а внимателните системи ще бъдат заменени с циклична активност в мрежи на вниманието в реално време. Остава въпросът как ще успеем да адаптираме силна серийна технология (машини на Тюринг) към нашата по-голяма зависимост от разпределените изчисления във въплътена система.