Взаимосвязь между различными уровнями структурами белка (символьной последовательностью аминокислот, вторичной структурой, пространственной (третичной) структурой) – одна из важных областей применения методов анализа “сверхбольших данных”. Более 140,000 пространственных структур в PDB, которым соответствует более 1 млн. аминокислотных последовательностей, суммарно включающие десятки миллионов аминокислотных остатков, каждый из которых уникальным образов влияет на стабильность всей молекулы белка: анализ комплексных взаимосвязей между этими уровнями лежит вне пределов “общепризнанных” подходов к биоинформатике.
Методы анализа сверхбольших данных позволяют анализировать полные массивы данных, без каких либо исключений. Например, с использованием современных субквадратичных методов анализа сверхбольших метрических конфигураций проведены построение и исчерпывающий анализ карты Рамачандрана. Сверхбольшие карты, включающие более 50 млн. точек, опираются на данных о глобулярных белках из последних релизов PDB . Установлены области карты A, B, B′, C и D, соответствующие строго запрещенным конформациям, суммарная площадь которых составляет 25% площади всей карты. Область неканонических конформаций определяется путем вычитания строго запрещенных и разрешенных областей изо всей площади карты. Тем самым получены аргументы в пользу новой классификации конформаций остова полипептидной цепи белка, которые были неочевидны без использования методов анализа больших данных.