Главная / Биоинформатические разработки

Биоинформатические разработки

База данных нуклеотидных последовательностей RiboGrove

RiboGrove — это база данных последовательностей генов 16S рРНК бактерий и архей. Особенность БД RiboGrove заключается в том, что она содержит только полноразмерные последовательности генов 16S рРНК, т.к. источником последовательностей генов для её создания являются только полностью собранные прокариотические геномы, депонированные в базу данных RefSeq.

Программы для обработки нуклеотидных данных

preprocess16S

Програма preprocess16S служит для предобработки прочтений, полученных в ходе секвенирования ампликонов участков генов 16S рРНК.

Основная задача пргораммы — обнаружение и удаление (пар) прочтений, относящихся к не-16S образцам и попавших в обрабатываемый набор прочтений в результате ошибок в прочитывании индексов. Прочтения, подлежащие удалению, обнаруживаются путём поиска на их 5′-концах последоватульностей ПЦР-праймеров, которые использовались для амплификации секвенируемого участка гена. После обнаружения последовательности праймеров удаляются из прочтений. Кроме того, preprocess16S способен объединять парно-концевые прочтения по перекрытию с помощью программы NGmerge.

Barapost

Barapost — набор инструментов для автоматической сортировки (разделения на несколько файлов) многомерных fasta, fastq и fast5 файлов согласно таксономической аннотации. Таксономическая аннотация реализована как поиск наилучшего совпадения в нуклеотидной базе данных с помощью алгоритмы BLAST. Аннотация может проводиться как удалённо (с помощью веб-сервиса NCBI BLAST). так и на локальной машине с помощью набора программ BLAST+.

Barapost описан подробнее в нашей статье.

combinator-FQ

combinator-FQ — вспомогательный инструмент для облегчения сборки геномов. Он обнаруживает соседние контиги путём сопоставления их концов. Кроме того, он рассчитывает LQ-коэффициент, а также ожидаемый размер собираемого генома. Подробности описаны в публикации в сборнике материалов конференции CTDA’2020.

kromsatel

kromsatel — программа для предобработки „длинных“ прочтений, полученых путём секвенирования ампликонов (например, по протоколу ARTIC). „Предобработка“ в данном случае означает разделение химерных прочтений на не-химерные фрагменты в соответствии со схемой праймеров, описанной в протоколе (либо в соответствии с пользовательской схемой праймеров).

con-hi

con-hi — программа для аннотации участков генома, которые имеют аномально низкое либо высокое покрытие прочтениями. Это полезно при поиске ошибок при сборке генома.

CAGER-misc

CAGER-misc — набор разнообразных инструментов для обработки нуклеотидных данных (конвертирование форматов данных, автоматический подбор индексов для секвенирования и т.п.).

  • pub: скрипт для автоматического подбора индексов для параллельного секвенирования;
  • dedupl-fastq: скрипт для дедупликации fastq-файлов;
  • sum-up-snv: скрипт подсчитывает варианты для однонуклеотидной замены в SAM/BAM файле;
  • mean-qual: скрипт для расчёт среднего качества прочтений в fastq файле (файлах);
  • most-freq-subseq: скрипт для поиска N наиболее часто встречающихся подпоследовательностей заданной длины в последовательности(тях) в формате fasta;
  • NOS: скрипт для подсчёта неперекрывающихся вхождений последовательности-запроса (а также последовательности, обратно-комплементарной ей) в последовательности в формате fasta;
  • fasta-GC-content: скрипт для расчёта ГЦ-состава последовательностей в формате fasta;
  • fastq2fasta: скрипт для конвертирования fastq-файлов в fasta-файлы;
  • fastq-read-count: скрипт для подсчёта количества прочтений в файлах формата fastq;
  • find-seq: скрипт для поиска записи в fasta-файле по заголовку последовательности;
  • dna-summary: скрипт для расчёта различных характеристик (длина, покрытие, ГЦ-состав) последовательностей в формате .dna и составления соответствующей таблицы;
  • packer-dna-to-fasta: скрипт складывает файлы .dna в папку contigs/, конвертируя их в формат fasta и объдиняя в единый fasta-файл;
  • seqator: скрипт перемещает файлы .dna, для которых значение покрытия не превосходит заданное, в отдельную папку cov_below_x/;

Последнее обновление:
02.04.2026 10:08:06