База знаний по молекулярной и общей биологии человека (HUMBIO)


Руководитель коллектива создателей Базы Знаний - профессор А.А. Александров (aaa@img.ras.ru)

Современные базы данных молекулярно-биологической и медико-биологической информаций стали важнейшим инструментом исследователей биологов. Быстро растет как количество информации включенной в базы данных, так и их число ( Wallace, 1992 ; Bairoch, 1994 ; Holm & Sander, 1994 ). Однако, можно с уверенностью сказать, что в базы данных включается ничтожная часть опубликованной в литературе информации. Это обусловлено трудностями, связанными с формализацией данных. В базы данных вводится легко формализуемая информация, т.е. информация, которую можно представить в виде таблиц. Это связано с тем, что современные базы данных создаются на основе реляционных СУБД, приспособленных к работе с табличными данными. Полная формализация информации о сложных биологических системах практически является неосуществимой. Это связано с тем, что наши знания в области молекулярной биологии динамично развиваются и поэтому их очень трудно описать в какой либо заранее спроектированной жесткой системе, удобной для компьютерной обработки. В отделе биоинформатики ИМГ РАН была разработана концепция глобальной интеграции биологических знаний и баз данных на основе гипертекстовой технологии ( Голованов, 1992 ) . Она была представлена на Мировом конгрессе по численным данным ( KODATA) в 1990 г. ( Alexandrov, 1992 ). В соответствии с этой концепцией в течение 1995-1999 гг создана база знаний по биологии человека. Базы знаний по биологии человека ( HUMBIO), интегрирующие знания по биологии человека от физиологического до молекулярного уровня с данными, представленными в компьютерных сетях и множестве международных баз данных по молекулярной биологии.  Несмотря на то, что в системе наиболее детально представлена информация, касающаяся человека, энциклопедия дает широкий обзор по различным аспектам современной молекулярной и клеточной биологии, генетике, биохими и медицине и может служить в качестве образовательной системы широкого профиля, связывающей медицину и современную молекулярную биологию. Наш сервер включен на постоянный режим работы в начале 2001 г . В настоящее время посещаемость БД HUMBIO около 15 тысяч пользователей в день, что является хорошим показателем. По числу посетителей БД HUMBIO находится в первой тройке среди сайтов из каталога "Наука" Mail.RU и 300 российских сайтов по биологии (рейтинг SpyLog) . Всего, с момента открытия БД HUMBIO до 2011 г. посетило около 20 млн. пользователей.  С 2011 г. права на использование БД HUMBIO переданы Институтом молекулярной генетики РАН ее основателю - Доктору биологических наук, профессору А.А. Александрову.  Главным достоинством БД HUMBIO является понятность ее организации для биологов. Это достигается благодаря тому, что структура БД имитирует привычную структуру книги, но дополняется развитым аппаратом гипертекстовых ссылок и мощными поисковыми средствами. Наш опыт показывает, что биологи, не имеющие никакой компьютерной подготовки, осваивают нашу систему подготовки данных (гипертекстовую СУБД) в течение нескольких часов и могут самостоятельно готовить гипертекстовые обзоры для пополнения БД, что позволяет привлечь большое количество специалистов-биологов и решить вопрос пополнения баз данных.

Функциональные свойства системы, интегрирующей разнообразную фактографическую информацию по биологии человека от физиологического до молекулярного уровня, должно удовлетворять следующим требованиям:

- Объем системы должен быть практически неограничен (те ограничен только параметрами аппаратных средств).

- Система должна быть достаточно гибкой для обеспечения перестройки по мере заполнения, так как заранее спроектировать детальную структуру динамически пополняемой системы невозможно.

- Так как в системе должна быть интегрирована информация представленная в различных международных базах данных в специальных форматах, система должна создаваться в среде гипермедиа, поддерживающей не только стандартные мультимедиа форматы, но и ряд специальных форматов (пространственные структуры молекул, химические структурные формулы и др.)

- Эксплуатация и пополнение системы должны быть легко доступны через компьютерные сети пользователям, не имеющим компьютерной подготовки (биологи, медики).

В течение 1990-1998 нами была организована подготовка большого количества локальных баз данных, по различным аспектам биологии человека. Для осуществления интеграции этих БД в1995 году мы приступили к разработке гипертекстовой СУБД на платформе WINDOWS NT/95. Совместно с Р.В. Сницарем и П.В. Ковалевым в нашей лаборатории были разработаны программы, отвечающие перечисленным функциональным требованиям, позволяющие поддерживать и публиковать в Интернете создаваемую БД. Был разработан набор программ, позволяющий интегрировать отдельные БД в единую систему. Для этого был и разработан комплекс программ, осуществляющих слияние, выделение, различные виды сортировок, автоматическое открывание всех записей при переносе в другой каталог, программы построения общего каталога всей БД . Были разработаны и адаптированы программы работы с записями, обеспечивающие возможность слияния и редактирования, установления гипертекстовых ссылок. Разработан ряд программ, добавляемых к вьюеру, позволяющие обрабатывать объекты в специальных форматах - пространственные структуры белков, структурные формулы и др. Текущее состояние БД периодически контролируется программой, выявляющей несвязанные и испорченные записи, разорванные и неправильные связи. Окна всех программ системы связаны drag & drop технологией, что существенно облегчает создание и эксплуатацию БД. Все эти программы сопряжены с программами NT сервера, осуществляющего представление БД в Интернете. С технической точки зрения, "Энциклопедия человека" представляет собой систему гипермедиа, погруженную в среду World Wide Web. 

Система состоит из двух главных частей: компьютерной энциклопедии (гипертекстовой базы данных), включающей фактографическую информацию по различным разделам биологии человека и информации из международных баз данных, подключенной к компьютерной энциклопедии через контекстные ссылки с помощью специальных программ-драйверов. Международные базы данных (БД последовательностей нуклеиновых кислот и белков, БД трехмерных структур белков, и др. гут подсоединяются к Компьютерной энциклопедии  через Интернет.

Компьютерная энциклопедия состоит из отдельных записей, с выделенными в тексте ключевыми словами или маркерами. Переход из записи в запись происходит при входе в ключевое слово (гипертекст). Входами в компьютерную энциклопедию является разветвленная система оглавлений и система каталогов (см. далее поисковая система). Независимые друг от друга записи из международных баз данных объединяются в группы и классифицируются посредством установления связей с определенными разделами компьютерной энциклопедии. Таким образом гипертекст используется для интеграции и структурирования огромного количества разнообразной информации по биологии человека, представленной в литературе и компьютерных базах данных и сетях.

Для облегчения работы пользователей дизайн компьютерной энциклопедии построен по аналогии со структурой печатных источников. Основным входом в систему являются подробные оглавления - по физиологии, клеточной биологии, биохимии, молекулярной биологии, иммунологии, патологии и др. Войдя в нужный раздел по оглавлению, пользователь осуществляет навигацию по сети взаимосвязанных записей (гипертекстовой сети), выбирая необходимую информацию. Возможен также прямой поиск записей по имени или включению слов в имя записи в каталогах. Независимые друг от друга записи из международных баз данных объединяются в группы и классифицируются посредством установления связей с определенными разделами компьютерной энциклопедии. Таким образом гипертекст используется для интеграции и структурирования огромного количества разнообразной информации по биологии человека, представленной в литературе и компьютерных базах данных и сетях. Организован доступ к базам данных последовательностей нуклеиновых кислот (БД EMBL, и Genbank), базе данных последовательностей белков([SWISSPROT), базе данных трехмерных структур белков (PDB Брукхевенская БД) и др Существует возможность вводить в базу данных и соединять с другими не только текстовые, и стандартные мультимедиа, но и различные специфические объекты. Для их изображения разрабатываются специальные программы, используемые как встраиваемые компоненты браузера. Компьютерная энциклопедия состоит из разделов, соответствующих основным направлениям науки о человеке - физиология, клеточная биология, генетика, биохимия, молекулярная биология, патология. Источниками информации являлись наиболее популярные книги по соответствующим направлениям и авторские обзоры. Созданная база знаний по биологии человека является сегодня единственной системой, где дано связное описание функционирования биологических систем человека от физиологического до молекулярного уровня организации.

Смотрите также:

  • БАЗЫ ДАННЫХ ПО МОЛЕКУЛЯРНОЙ БИОЛОГИИ
  • HUMBIO