Биоинформатика

В биоинформатике уже более 40 лет существует широкий класс задач, связанных с обработкой данных сотен тысяч пространственных структур белков, миллионов аминокислотных последовательностей, миллиардов нуклеотидных последовательностей. Известные в западной биоинформатике методы основаны на многочисленных постулатах, подавляющее большинство из которых произвольны и не имеют четкого обоснования даже в самой проблемной области. В результате, повсеместно используемые в биоинформатике методы не обладают высокой специфичностью и селективностью распознавания и, с точки зрения практического биолога или врача, не представляют существенной практической ценности.

Например, повсеместно использующиеся методы установления функций генов и белков (т.н. «аннотация генома») основаны исключительно на анализе «схожести» нуклеотидных и аминокислотных последовательностей, причем используемые определения «схожести» основаны на произвольных предположениях вроде «общей подпоследовательности», произвольных отношениях эквивалентности символов алфавита (аминокислот), пренебрежением контекстом символьных последовательностей и т. п. Как показал проведенный анализ литературы по данному вопросу, практическое применение сотен этих методов, например, к геному человека позволяет установить самую общую биологическую функцию не более чем 50% генов и белков: в настоящее время, аннотированно около 15,000 генов из 29,000. Комбинаторная теория разрешимости позволяет взглянуть на проблему аннотации генома совершенно с новой точки зрения.

Применение современных методов анализа сверхбольших данных является приоритетным и, пожалуй, наиболее перспективным направлением исследований в области биоинформатики, математической и вычислительной биологии. Разрабатываемые в рамках алгебраического подхода методы анализа сверхбольших метрических конфигураций основаны на фундаментальных свойствах компактности и плотности метрических пространств, возникающих при формализации задач распознавания и классификации. Понятийный аппарат, вводимый в рамках разрабатываемого математического формализма, позволяет разрабатывать шкалируемые параллельные вычислительные алгоритмы для анализа «сгущений» точек в метрических конфигурациях большой размерности (миллионы, десятки миллионов точек).