EST: получение из мРНК


В конце 90-х г. резко повысилась интенсивность секвенирования библиотек кДНК . Представление о масштабах этих работ дает Табл. 1 [ Sikela J.M. e. a., 1993 ]. Такое предпочтение может быть объяснено как определенной инерцией подхода к идентификации транскрибируемых последовательностей и оценке удобства использования полученных EST , так и тем, что до настоящего времени не разработано быстрых и надежных методов обнаружения мРНК , связанных с полученными последовательностями гякДНК .

Таблица 1.

Сводная таблица проектов секвенирования кДНК

[ Sikela J.M. e. a., 1993 ]. ----------------------------------------------------------------

ТКАНЬ Секвени- Уникаль- Новых Руководитель

ровано ных ----------------------------------------------------------------

Источник - Человек ---------------------------------------------------------------- Эмбриональный мозг 4200 3550 Детский мозг 8000 1800 1250 M.Adams Гиппокамп 1380 1150 ---------------------------------------------------------------- Детский и эмбрио- нальный мозг 1024 964 900 J.Sikela Детских мозг 1355 н/д н/д ---------------------------------------------------------------- Семенники взрослого мужчины 550 400 285 N.Affara ---------------------------------------------------------------- Фибробласты клеточной линии WI38 200 119 113 G.Arnold ---------------------------------------------------------------- Клеточная линия СЕМ-Т 5884 2987 2356 Скелетные мышцы 1167 835 549 C.Auffray ---------------------------------------------------------------- Лимфоциты периферической крови 1500 1200 600 D.Capat ---------------------------------------------------------------- Клеточная линия Hep 62 982 641 550 HL 60 2767 1708 н/д K.Matsubara ---------------------------------------------------------------- Клеточная линия KGI 400 400 312 N.Nomura ---------------------------------------------------------------- Сердце 756 488 408 H.Domdey ---------------------------------------------------------------- Различные ткани человека 2090 н/о н/д R.Sibson ----------------------------------------------------------------

Источник - другие организмы ---------------------------------------------------------------- Семенники мыши 80 н/о 55 H.Cooke ---------------------------------------------------------------- Семенники мыши 500 350 280 C.Hoog ---------------------------------------------------------------- Мозг Drosophyla 1000 н/д н/д M.Palazzolo ---------------------------------------------------------------- C. elegans 1517 1200 720 M.Craxton ---------------------------------------------------------------- C. elegans 720 422 317 M.Adams ---------------------------------------------------------------- Arabidopsis 2000 1400 1 080 B.Lescure ----------------------------------------------------------------

Примечание: Уникальные - те, которые не повторялись при секвенировании данной библиотеки, Новые - те_ которые не были ранее депонированы в базе данных EMBL/GenBank/DDJB, н/д - нет данных.

Столь массированный анализ библиотек кДНК стал возможен благодаря некоторому снижению требований к качеству секвенирования: оно осуществляется за один проход и обычно только с одной цепи. Тем не менее, качество определения первичной структуры оказывается вполне удовлетворительным для решения поставленных задач.

Косвенным свидетельством допустимости такого подхода может служить работа O. White с соавт. [ White O. e. a., 1993 ], которые разработали программу "контроля качества проектов секвенирования ДНК" . Проблема выявления загрязнения библиотек ДНК гетерологичными последовательностями особенно важна для проектов, связанных с массированным и быстрым секвенированием большого числа клонов. Гибридизационный анализ может определить загрязнение только из подозреваемых источников и достаточно сложен технически для анализа больших библиотек. Сравнение с последовательностями, содержащимися в базах данных, позволяет идентифицировать только известные последовательности. Поэтому авторы разработали тест, основанный на анализе распределения гексамеров в ДНК. Это распределение различно для разных организмов. Таким образом, возможна оценка степени загрязнения полученных библиотек фрагментами ДНК даже неизвестных организмов.

Анализ банков последовательностей EST показал, что несмотря на определенную гетерогенность большинства опубликованных наборов EST человека и Caenorabditis elegans, нет прямых свидетельств их загрязнения ДНК других организмов. Это говорит о высоком качестве используемых библиотек и допустимости упомянутых технических упрощений процесса секвенирования.

Ярким примером такого рода работы может служить работа M.D. Adams с соавт., которые одними из первых выдвинули концепцию EST [ Adams M.D. e. a., 1993 ]. В этой работе сообщается о секвенировании 3400 новых последовательностей из мозга человека, что доводит общее число различных генов, экспрессирующихся в мозге и охарактеризованных с помощью EST, до 6000. Для секвенирования использовались коммерчески доступные библиотеки из гиппокампуса двухлетнего ребенка и мозга 17-18 недельного эмбриона человека. Эти библиотеки не подвергались никакой нормализации или предварительному отбору клонов для секвенирования. По мнению авторов, это должно дать возможность получить картину распределения транскрипционной активности мозга на разных стадиях развития и в различных отделах мозга.

Результаты анализа полученных последовательностей приведены в Табл. 2 [ Adams M.D. e. a., 1993 ].

Таблица 2. Сравнение первичной структуры фрагментов кДНК последовательностей из гиппокампуса и эмбрионального мозга человека [ Adams M.D. e. a., 1993 ] с последовательностями, депонированными в банке данных EMBL/GenBank/DDJB. ________________________________________________________________

Категория сходства | Гиппо-| % от | Эмбрио- | % от |

| камп | общего| нальный | общего |

| | числа | мозг | числа | _______________________________________________________________| Число фрагментов,для которых 819 55,6 3099 67,2 | в банке данных не найдено | совпадающих с ними | последовательностей. | ---------------------------------------------------------------| Число фрагментов, первичная 211 14,3 385 8,3 | структура которых полностью | совпадает с ранее определен- | ной человеческой | последовательностью | ---------------------------------------------------------------| Число фрагментов, первичная 24 1,6 98 2,1 | структура которых не полностью | совпадает с ранее определен- | ной человеческой | последовательностью | ---------------------------------------------------------------| Число фрагментов, первичная 60 4,1 140 3,0 | структура которых гомологична | ранее определенной последова- | тельностью, происходящей не | из человека. | ---------------------------------------------------------------| Повтор Alu 143 9,7 550 11,9 | ---------------------------------------------------------------| Повтор L 21 1,4 186 4,0 | ---------------------------------------------------------------| Последовательность | The-LTR 0 0 26 0,6 | ---------------------------------------------------------------| Другие повторы 7 0,5 4 0,1 | ---------------------------------------------------------------| Митохондриальные | последовательности 152 10,3 78 1,7 | ---------------------------------------------------------------| рРНК 35 2,4 47 1,0 | ---------------------------------------------------------------| ВСЕГО 1472 4613 | ---------------------------------------------------------------|

Анализ профиля транскрипции в мозге показало, что разные образцы мозговой ткани существенно более сходны друг с другом, чем с линией клеток печени HepG2.

Авторы отмечают, что использование библиотек кДНК, при синтезе которых использовались как oligo-dT, так и случайные праймеры, позволяет получать последовательности не только вариабельных 3'-концевых фрагментов мРНК, но и более консервативных внутренних областей, что облегчает сравнение с последовательностями кДНК других организмов.