Сколько гига(тера)байт весит геном человека?

человек наука биология генетика генетический код

Вопрос, сколько байт потребуется для однозначного (с избыточностью) цифрового описания генетического кода гомосапиенса? То есть 46 хромосом и, если верить вике, 20 000 - 25 000 генов.

Примечание:
Черт, точно. В этом и интерес, существуют ли примерные оценки кол-ва такой инфы в гене, чтобы определённой ^ двойки возможно было его описать?

Примечание:
Mad Astronomer, Вы правы, исключительно для записи генома этого будет достаточно. Но выглядеть это будет единым массивом, с последовательно закодированными 3-мя млрд азотистых оснований. Если же попытаться воссоздать геном индивидуума из такой последовательности, то ничего не получится, т.к не будет ясно, где заканчивается одна хромосома и начинается другая (22 пары аутосом, 1 пара половых). Тут я вижу минимум 2 пути решения:

1. Т.к. одна хромосома состоит из 45-279 миллионов оснований (http://www.creationism.org/crimea/pdf/94.pdf), то и кодировка с избыточностью (с фиксированным похромосомным разделением внутри кода) будет более затратна, на вскидку: 279млн * 46 = 12,834 млрд. Плюс, двух бит под основания тоже будет недостаточно. При условии, что далеко не в каждой хромосоме 279 млн оснований, нужно предусмотреть "ноль" - то есть факт, что в данном месте последовательность нуклеотидов (азотистых оснований) отсутствует. 12,834 млрд (оснований) * 3 (бита на основание) = (примерно) 4590 МБ.

2. Выделить в коде байты ("размер хромосомы"), куда банально вписываем кол-во оснований (2 бита), отсчитываем 2 * "размер хромосомы" бит - вот она граница. Проблема - для каждой хромосомы нужно знать точное кол-во сочетаний оснований. Насколько это возможно, вопрос к генетикам, я хз, хотя всё очень интересно.
Ответы:
важно не кол-во генов (это всего-то 2^15), а сколько информации содержит один ген.
Геном человека состоит примерно из 3 млрд азотистых оснований. Всего таких оснований четыре типа, значит весь геном можно представить в четвертичном формате. Каждое из четырех оснований будет зашифровано так: 00,01,10,11. То есть одно основание будет занимать всего 2 бита в "гено-коде".
Далее у нас получается 3 млрд (оснований) * 2 (бита на основание) = 6 млрд бит информации.
Выражаем в байтах: 6 млрд бит / 8 = 750 млн байт > или 732 421 кБ > или 715 МБ > или один CD диск.
Учитывая, что для каждого основания есть только одна пара из другой спирали, с которой оно может связаться, геном можно восстановить полностью, зная состав одной спирали. Следовательно, потребуется закодировать только 360 МБ информации. И геном можно будет носить с собой на небольшой флешке или лазерном диске.


12 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.