Създаване на изкуствен интелект: AlphaZero на DeepMind

11 май 1997 г., специален ден за изкуствен интелект. Именно в този ден за първи път компютърна програма на име Deep Blue успя да победи управляващия шахматен световен шампион при турнирни условия.

Много неща са се променили за AI оттогава по добър начин. Последните няколко години се радват на огромни крачки и пробив в изследванията на ИИ. Машините стават все по-интелигентни и по-важното е, че чрез всички тези изследвания започваме да придобиваме по-ясно разбиране за това какво всъщност представлява човешкият разум. Само с конкретно разбиране на интелигентността всъщност можем да изградим интелигентни машини.

DeepMind е начело на революцията в ИИ.

DeepMind

DeepMind Technologies е британска компания за изкуствен интелект. През 2014 г. те бяха закупени от Google за водещите им световни познания в областта на AI. Откакто за пръв път започнаха, те взеха най-амбициозните пукнатини в решаването на ИИ.

Последното им творение е и най-впечатляващото им: AlphaZero

AlphaZero е AI система, която сама се научи от нулата как да овладееш игрите на шах, шоги (японски шах) и Go. За да докаже върховите постижения на AlphaZero, той бе съпоставен със световен шампион във всяка игра. AlphaZero излезе победоносно.

Игри и интелигентност

В стремежа си да създадат интелигентни машини, изследователите бяха предизвикани първо да отговорят какво всъщност представлява разузнаването. Не е толкова прав въпрос, на който трябва да се отговори!

За какво мислите, когато някой ви помоли да определите интелигентността? Човек може да си представи някой, когото смята за умен. Те знаят неща, които другите не знаят. Но дори повече от това, те са в състояние да използват тези знания под формата на някакъв вид умения, за да постигнат дадена цел.

Целта обикновено е нещо, което е донякъде предизвикателно за постигане. Тя трябва да изисква някои специални знания, умения или по-дълбоко разбиране: интелигентност.

Възможността за игра и спечелване на игра е форма на интелигентност. Игрите имат правила и цели. Всички играчи играят по еднакви правила и се опитват да постигнат едно и също нещо: спечелете играта. Печеленето изисква знания за това как да играете играта и как да използвате тези знания по такъв начин, че да победите противника си.

Това изискване за високоспециализирани и усъвършенствани знания, за да се спечели е именно причината, поради която настолните игри отдавна се използват като тестово легло за AI системи. Ако искаме нашата система да може да спечели шахмат не само срещу любител, но и срещу най-добрите в света, гросмайстор, тогава тази система по-добре знае много за шаха! Необходимо е да гледате много ходове напред, да разбирате позициите на дъската, предимствата на всеки играч и да имате по-дълбоко разбиране и интуиция на самата игра от нейния противник. Трябва да е интелигентен.

Каспаров срещу Deep Blue (вляво) и Sedol срещу AlphaGo (вдясно)Шах и отидете

Шахът беше основната игра за изучаване на AI, докато малко след като Deep Blue победи Гари Каспаров. Шахматните двигатели, компютърните програми, които са проектирани да бъдат наистина добри в шаха, станаха популярни няколко години по-късно и вече могат да бъдат намерени в почти всяка игра на шах за компютър и телефон, която можете да намерите! И така, докато AI системите все още са ориентирани към играта на шах в името на задълбоченост, изследователите преминаха към създаването на системи, които могат да спечелят в по-предизвикателни игри: Go.

Go е друга стратегическа игра, при която целта е да се обгради повече територия от противника. Звучи просто, но дълбочината на мисленето може би е много повече от тази на шаха. Само за просто сравнение, за да видите разликата в сложността, Шахът се играе на дъска 8x8 = 64 квадрата, докато Go се играе на решетка 19x19 с 361 пресечки (точки, където можете да играете)! Броят на възможните ходове в Go е много по-голям от този на шахмата.

Тази огромна сложност е причината изследователите да избират да продължат след играта Go да се движат напред. Ако AI система може да бъде изградена, за да победи световен шампион в игра, толкова сложна като Go, тогава тя трябва да има някаква форма на интелигентност. Най-малкото може да ни даде улики в откриването откъде могат да дойдат разсъжденията и интуицията, от които се нуждае интелигентността.

AlphaZero: Интелигентна машина

В миналото AI системите са били проектирани за една конкретна игра, така че не можете да използвате същата AI система, която сте направили за шах за играта Go. Но AlphaZero не е нито едно триково пони! AlphaZero е обща AI система, която на теория може да се научи да играе и да печели на професионално ниво в множество игри. Досега тя се е доказала в игрите на Chess, Shogi и Go, като всички използват един и същ алгоритъм.

Изобразяване на AlphaZero AI, любезно предоставено от DeepMind

Най-вълнуващият пробив, който AlphaZero направи е невероятното му учене чрез самостоятелна игра. Разбирате, за да практикувате игрите в шах, шоги и Go, AlphaZero не е играл срещу никакви действителни човешки противници. Той научи всичките си умения, като играе срещу себе си, без да е дадено знание, но основните правила на играта.

За да може AlphaZero да научи всяка игра, невронната мрежа ще играе милиони игри срещу себе си. Тъй като той започва без знания за това какво е добра игра и стратегия, той ще премине през голяма част от пробна и грешка фаза, за да започне, играейки съвсем произволно. Но докато играта продължава, процесът на обучение за подсилване тласка системата да играе повече „положителни“ ходове и да избягва „отрицателните“.

Обучението за подсилване на AI се основава на система за възнаграждения. AI ще получи някакъв положителен резултат за награда за спечелването на играта и отрицателен за загуба. С течение на времето системата ще се научи да максимизира резултата си.

Наблюдавайки игрите, които Alpha Zero изигра веднъж напълно обучени, световни шампиони от всички игри откриха, че AlphaZero успешно научи конвенционалните стратегии на игрите, които обикновено се играят от гросмайсторите. Например, AlphaZero често играе най-често срещаните стратегии за отваряне на шах и демонстрира опитни умения в защита на своя крал като професионалист.

Но наистина специалното нещо за Alpha Zero не беше, че тя научи какво знаят другите шампиони, а че научи това, което те не знаят. Чрез своята самостоятелна игра Alpha Zero не се ограничаваше да играе само срещу онова, което човек може да мисли. Той разполагаше с гъвкавостта да играе всеки един възможен ход, отваряйки се да се научи на нетрадиционни игри и стратегии, които никога не са виждали.

„Някои от нейните ходове, като например преместване на краля в центъра на дъската, противоречат на теорията на шоги и - от човешка гледна точка - изглежда поставят AlphaZero в опасна позиция. Но невероятно остава да контролира борда. Неговият уникален стил на игра ни показва, че има нови възможности за играта. "
- Йошихару Хабу, 9-дан професионалист, единствен играч в историята, който притежава всичките седем основни шоги титли

Подобно умение се разглежда от експертите като креативно, нещо, което би изисквало свръхчовешко ниво на знания и умения: интелигентност. За да създадат интелигентни системи, способни да решават широк спектър от проблеми в реалния свят, те трябва да бъдат проектирани по такъв начин, че да имат добро разбиране на правилата, но също така да са достатъчно гъвкави, за да направят собствено проучване. Те също трябва да могат да станат квалифицирани в много различни неща и да не бъдат заключени в една игра.

AlphaZero показва някои ранни признаци на това. Той демонстрира, че един алгоритъм може да се научи как да разбере текущите знания и след това да излезе отвъд това. Това е стъпка в правилната посока за създаване на интелигентност.

Ако искате да научите повече за AlphaZero, можете да прочетете публикацията в блога на DeepMind или тяхната изследователска книга, публикувана в Science Journal.

Искате ли да се научите?

Следвайте ме в Twitter, където публикувам всичко за най-новата и най-добрата ИИ, технологиите и науката!