AI за пространствена метаболомия I: Наборите от данни на живота

Източник на изображението

Тук, в Neuromation, започваме вълнуващо - и доста сложно! - съвместен проект с групата за пространствена метаболомия на д-р Теодор Александров от Европейската лаборатория по молекулярна биология. В тази мини-поредица от публикации ще обясня как планираме да използваме най-новите постижения в задълбоченото учене и да измислим нови модели за обработка на образната спектрометрия на изображения, извличайки метаболитни профили на отделни клетки за анализ на молекулните траектории, които следват клетки с различни фенотипове ...

Чакай, със сигурност вече съм те изгубил три пъти. Нека започна отначало.

Omics: наборите от данни, които ви правят

Източник на изображението

Картината по-горе показва централната догма на молекулярната биология, ключовият поглед на биологията на XX век за това как работи животът на Земята. Тя показва как генетичната информация преминава от ДНК към протеините, които действително вършат работата в клетките:

  • ДНК съхранява генетична информация и може да я възпроизведе;
  • в процеса, известен като транскрипция, ДНК копира части от своя генетичен код в пратеника РНК (m-RNA), също нуклеинова киселина;
  • и накрая, преводът е процесът на създаване на протеини, „четене“ на генетичния код за тях от RNA низовете и прилагане на чертежа на практика.

Рисувах много опростена картина, но това наистина е централният, най-важният информационен поток от живота. Централната догма, заявена за първи път от Франсис Крик през 1958 г., казва, че генетичната информация протича само от нуклеинови киселини (ДНК и РНК) към протеини и никога не се връща назад - вашите протеини не могат да се върнат обратно и да модифицират вашата ДНК или РНК, или дори да модифицират други протеини, те се контролират само от нуклеиновите киселини.

Всички знаят, че генетичният код, въплътен в ДНК, е много важен. Малко по-малко известно е, че всяка стъпка по пътя на централната догма (пътят по същество е последователност от общи реакции, които трансформират молекулите една в друга например, ДНК -> РНК -> протеинът е път и много важен! ) съответства на своя „набор от данни“, собствена характеристика на организъм, всеки важен и интересен по свой начин.

Вашият набор от гени, кодиран във вашата ДНК, е известен като геном. Това е основният „набор от данни“, вашият основен план, геномът е нещата, които казват как работите по най-абстрактния начин. Както вероятно знаете, геномът е много дълъг низ от "букви" A, C, G и T, които означават четирите нуклеотида ... не се притеснявайте, няма да изпадаме в прекалено големи подробности за тези неща. Проектът за човешкия геном успешно секвенира („прочетете” буква по буква) чернова на човешкия геном през 2000 г. и пълен човешки геном през 2003 г., и трите милиарда писма. Оттогава методите на секвениране са се подобрили много; освен това всички човешки геноми са, разбира се, много сходни, така че след като ги имате, е много по-лесно да вземете останалите. Вашият геном определя на какви заболявания сте податливи и определя много от вашите характерни черти.

Изследването на човешкия геном далеч не е приключило, но това е само първата част от историята. Както видяхме по-горе, генетичният код от ДНК трябва да бъде прочетен в РНК. Това е известно като транскрипция, сложен процес, който е напълно без значение за нашата дискусия в момента: въпросът е, парчета от генома се копират в РНК дословно (формално казано, T се променя на U, различен нуклеотид, но все пак е точно същата информация):

Източник на изображението

Тук клетките се диференцират, в кои части от генома се преписват.

Наборът от РНК последователности (и двете кодиращи РНК, които по-късно ще бъдат използвани за получаване на протеини и некодираща РНК, тоест останалата част от нея) в клетка се нарича транскриптом. Транскриптомът предоставя много по-конкретна информация за отделните клетки и тъкани: например клетка в черния ви дроб има точно същия геном като неврона в мозъка ви - но много различни транскриптоми! Изучавайки транскрипта, биолозите могат да „увеличат разделителната способност“ и да видят кои гени се експресират в различни тъкани и как. Например, съвременната персонализирана медицина екранизира стенограми за диагностициране на рак.

Но това все още се отнася до генетичния код. Третият набор от данни е още по-подробен: протеома се състои от всички протеини, произведени в клетка, в процеса, известен като превод, където РНК служи като шаблон, с три букви, кодиращи всеки протеин:

Източник на изображението

Това вече е много по-близо до действителната цел: протеините, които клетката прави, определят взаимодействията й с други клетки, а протеома говори много за това какво прави клетката, каква е нейната функция в организма, какъв ефект има върху други клетки и т.н. А протеома, за разлика от генома, е ковък: много лекарства действат точно чрез потискане или ускоряване на превода на специфични протеини. Антибиотиците, например, обикновено се борят с бактериите, като атакуват тяхната РНК, потискайки напълно синтеза на протеини и по този начин убивайки клетката.

Геномиката, транскриптомиката и протеомиката са подполета на молекулярната биология, които изучават генома, транскриптома и протеомата. Те са общо известни като „омиците“. Централната догма е известна отдавна, но едва наскоро биолозите са разработили нови инструменти, които всъщност ни позволяват да надникнем в транскрипта и протеома.

И това доведе до „революцията на омиците“ на големи данни в молекулярната биология: с тези инструменти, вместо да теоретизираме, сега можем всъщност да надникнем във вашия протеом и да разберем какво се случва в клетките ви - и може би ще ви помогнем лично, а не просто да развиете лекарство, което трябва да действа върху повечето хора, но по някакъв начин се проваля за вас.

Метаболомия: извън догмата

Източник на изображението

Молекулярните биолози започнаха да говорят за „революцията на омиците“ в контекста на геномиката, транскриптомиката и протеомиката, но централната догма все още не е пълната картина. Превеждането на протеини е само началото на процесите, които протичат в клетка; след това тези протеини действително взаимодействат помежду си и с други молекули в клетката. Тези реакции обхващат метаболизма на клетката и в крайна сметка именно метаболизмът ни интересува и може би искаме да поправим.

Съвременната биология е силно заинтересована от процеси, които надхвърлят централната догма и включват така наречените малки молекули: ензими, липиди, гликоза, АТФ и т.н. Тези малки молекули или се синтезират вътре в клетките - в този случай се наричат ​​метаболити, тоест продукти от метаболизма на клетката - или идват отвън. Например, витамините са типични малки молекули, от които клетките се нуждаят, но не могат да се синтезират сами, а лекарствата са екзогенни малки молекули, които проектираме да опират с метаболизма на клетката.

Тези процеси на синтез се контролират от протеини и следват така наречените метаболитни пътища, вериги от реакции с обща биологична функция. Централната догма е един много важен път, но в действителност има хиляди. Наскоро разработен модел на човешкия метаболизъм изброява 5324 метаболити, 7785 реакции и 1675 свързани гени и това определено не е последната версия - съвременните оценки достигат до 19000 метаболити, така че пътеките все още не са очертани.

Метаболитният профил на организма не се определя напълно от неговия геном, транскриптом или дори протеом: метаболомът (набор от метаболити) се образува, по-специално, под въздействието на среда, която осигурява например витамини. Метаболомиката, която изучава състава и взаимодействието между метаболитите в живите организми, се намира в пресечната точка на биологията, аналитичната химия и биоинформатиката с нарастващи приложения към медицината (и това не е последното от омиците, но метаболомиката ще ни е достатъчна сега) ,

Познавайки метаболома, можем по-добре да характеризираме и диагностицираме различни заболявания: всички те трябва да оставят следа в метаболома, защото ако метаболизмът не се е променил защо изобщо има проблем? .. Проучвайки метаболитните профили на клетките, биолозите могат да открият нови биомаркери както за диагностика, така и за терапия, намерете нови цели за лекарствата. Метаболомиката е основата за наистина персонализирана медицина.

Крайният набор от данни

Източник на изображението

Досега обяснявам основно скорошния напредък в молекулярната биология и медицина. Но какво планираме да направим в този проект? Ние не сме биолози, ние сме учени по данни, изследователи на ИИ; каква е нашата роля в това?

Е, метаболома всъщност е огромен набор от данни: всяка клетка има свой метаболитен профил (набор от молекули, които се появяват в клетката). Разликите в метаболитните профили определят различните клетъчни популации, как метаболитните профили се променят във времето, съответства на моделите на развитие на клетките и т.н., и така нататък. Нещо повече, в пространствената метаболомия, която планираме да сътрудничим върху нея, идва под формата на специални изображения: резултати от образна мас-спектрометрия, приложени при много висока разделителна способност. Това отново изисква известно обяснение.

Мас-спектрометрията е инструмент, който ни позволява да открием масите на всичко, съдържащо се в една проба. Освен редки сблъсъци, това в общи линии е същото като откриването на кои конкретни молекули се появяват в пробата. Например, ако поставите диамант в мас-спектрометъра, ще видите ... не, не само един въглероден атом, вероятно ще видите и 12С и 13С изотопи, а съставът им ще каже много за свойствата на диаманта.

Образната мас-спектрометрия е основно картина, при която всеки пиксел е спектър. Вземате част от някаква тъкан, слагате я в мас-спектрометър и получавате триизмерна „куба за данни“: всеки пиксел съдържа списък на молекули (метаболити), открити в тази част на тъканта. Този процес е показан на снимката по-горе. Тук бих показал няколко снимки, но би било подвеждащо: въпросът е, че това не е единична картина, а много паралелни снимки, по една за всеки метаболит. Нещо подобно (снимка направена от тук):

Стремежът да се направят по-добри образни средства за мас-спектрометрия най-вече има за цел да увеличи разделителната способност, т.е. да направи пикселите по-малки и да увеличи чувствителността, т.е. да открие по-малки количества метаболити. Към момента, мас-спектрометрията на образната картина е изминала много далеч: разделителната способност е толкова висока, че отделните пиксели в тази картина могат да се картографират към отделни клетки! Тази високоспектрална мас-спектрометрия, която става известна като едноклетъчна мас-спектрометрия, отваря вратата за метаболомиката: вече можете да получите метаболичния профил на много клетки наведнъж, заедно с тяхното пространствено разположение в тъканта ,

Това е върховният набор от данни на живота, най-задълбоченият акаунт на действителните тъкани, който съществува в момента. В проекта планираме да проучим този краен набор от данни. В следващата вноска на тази мини серия ще видим как.

Сергей Николенко, главен изследователски отдел, Neuromation