Леко въведение в трансформатора-XL

Обобщение на нова техника за внимателно моделиране на езика, която поддържа дългосрочната зависимост.

Заден план

Езиковото моделиране наскоро беше разгледано, като се използват методи за обучение без надзор като ELMo и BERT. Въпреки това, все още остава предизвикателство за правилното оборудване на невронните мрежи с дългосрочна зависимост.

Последните модели бяха проектирани с механизъм за внимание, за да се улесни оптимизацията - като се справят с изчезващ градиент - и да се даде възможност за изучаване на дългосрочната зависимост. Контекстът обаче е с фиксирана дължина в тези случаи, така че моделът не може да обхване дългосрочната зависимост и страда от проблем, известен като фрагментация на контекста.

Фрагментацията на контекста се отнася до случаите, когато на модела липсва необходимата контекстуална информация, която да предвиди първите няколко символа поради начина, по който е избран контекста - обикновено без зачитане на изречение или семантични граници.

Нещо повече, предишните модели не поддържат информационния поток по сегменти по време на обучение и използват фиксирана дължина на контекста, което означава, че няма място за модела за улавяне на по-дългосрочна зависимост.

В контекста на езиковото моделиране скритите състояния могат да бъдат използвани повторно, за да позволят потока на информация през сегменти (вид памет). Това би могло да помогне за подкрепа на по-дългосрочната зависимост и да се справи с фрагментацията на контекста. Въпреки това, за да поддържа архитектурата повторно използване на състоянието, трябва да се управлява временната съгласуваност, както обсъждаме по-нататък.

Трансформатор-XL

По време на обучението моделите на ванилов език не използват ефективно контекстната информация и сегментите се третират индивидуално. В допълнение, семантичните граници по време на сегментирането обикновено не се спазват, тъй като повечето методи използват стандартни секции с фиксирана дължина. По време на оценката се използват контексти с фиксирана дължина и сегментите се обработват от нулата, което става скъпо, въпреки че фрагментацията на контекста е донякъде адресирана. Този документ има за цел да фокусира върху проблема за ефективността чрез по-добро моделиране на зависимостта в дългосрочен план.

При езиковото моделиране трансформаторните мрежи са ограничени от контекст с фиксирана дължина и по този начин могат да бъдат подобрени чрез учене на по-дългосрочна зависимост. Документът предлага нов метод, наречен Transformer-XL (означава изключително дълъг) за моделиране на езика, който позволява на архитектурата на Трансформатора да научи по-дългосрочна зависимост - чрез механизъм на рецидивиране - извън фиксирана дължина, без да нарушава временната кохерентност.

Методът е различен от други предишни подходи, които се фокусират върху други стратегии за поддържане на дългосрочна зависимост, като допълнителни сигнали за загуба и разширена структура на паметта.

Въвежда се повтарящ се механизъм на ниво сегмент, който дава възможност на модела да използва повторно предишни скрити състояния по време на обучение, като адресира както въпросите на контекста с фиксирана дължина, така и фрагментацията на контекста. С други думи, историческата информация може да бъде използвана повторно и тя може да бъде разширена до колкото позволява GPU паметта. Вижте фазите на обучение и оценяване на фигурата по-долу.

Transformer-XL - етап на обучение и оценка (източник на цифри)

За правилното използване на скритите състояния авторите предлагат механизъм, наречен относителни позиционни кодировки, който помага да се избегне временното объркване. Сегашните модели не могат да различават позиционната разлика между входовете в различни сегменти на различни слоеве. Кодирането на относителна позиция адресира този проблем чрез кодиране на отклонение от позиционна информация в скритите състояния, което се различава от другите подходи, които изпълняват това като входно ниво.

Тъй като е включена архитектура на Трансформатора, процесът по-горе се постига чрез изчисляване на относителното разстояние между всеки ключов вектор и запитващ вектор и инжектирането му в оценката на вниманието. С някои нови трикове за параметризация на термините, използвани за извличане на оценката на вниманието между заявка и вектор, информацията за относителната позиция може да бъде включена. Рецидивиращият компонент вече е оборудван с предложеното относително позиционно вграждане и цялата тази процедура представлява предложената Transformer-XL архитектура.

Резултати

Transformer-XL получава силни резултати както за моделиране на езиково ниво, така и за ниво на знаците, прилагани към различни набори от данни, като WikiText-103, text8 и One Billion Word.

Предложеният модел се сравнява с ванилов модел, който наскоро се използва за моделиране на езиково ниво на характера (Al-Rfou et al., 2018), който също привлича по-дълбоко самочувствие. Обърнете внимание, че ваниловият модел не може да поддържа дължини на зависимостта, по-големи от дължината на горния граничен сегмент.

Transformer-XL намалява предишния резултат на SoTA за недоумение в няколко набора от данни, като text8, enwiki8, One Billion Word и WikiText-103. Освен изпълненията на SoTA, авторите твърдят, че методът е по-гъвкав, по-бърз по време на оценка (1874 пъти ускорение), генерализира добре на малки набори от данни и е ефективен при моделиране на кратки и дълги последователности. Вижте обобщение на някои от резултатите, получени в различните набори от данни в таблиците по-долу.

Можете да проверите останалите резултати в пълната хартия, свързана по-долу.

Други облаги

Изследване за аблация, за да се проучат ефектите както на механизма на рецидивиране, така и на предложената схема за позиционно кодиране, е представено и в документа.

Авторите предлагат и нов показател, наречен Относителна ефективна дължина на контекста, който предоставя справедлив начин за сравняване на модели, които са тествани с увеличена дължина на контекста.

Допълнителни четения

  • Transformer-XL: Модели на внимателен език отвъд контекста с фиксирана дължина
  • Анотираният трансформатор от Harvard NLP Group
  • Ръководство за внимание от Лилиан Венг
  • Вниманието е всичко, от което се нуждаете
  • Кодово хранилище, свързано с хартията (TensorFlow и PyTorch)
  • Моделиране на езика на ниво характер с по-дълбоко самочувствие

Ако се прояви достатъчно интерес, може да се почувствам изкушен да подготвя подробна информация за тази работа. Той съдържа много различни компоненти, които могат да бъдат интересни и полезни за практикуващите НЛП и изследователите.