Что такое геномные оценки: история и развитие

Источник: The DairyNews
В предыдущей статье я рассказывал про селекционные индексы: что это такое, как они развивались и какие бывают в разных странах. Теперь давайте углубимся в вопрос и поговорим о ключевой составляющей селекционных индексов — о геномных оценках, об их сущности, истории и характерных особенностях.

Что такое племенная ценность

Для начала нужно разобраться с тем, что, собственно говоря, измеряют с помощью геномных оценок, а именно с племенной ценностью.

Главная задача целенаправленного селекционного разведения — отбирать лучших животных в качестве родителей для следующего поколения. Причём в разных странах, разных стадах и даже на разных временных промежутках модельными (образцовыми) животными будут считаться совершенно разные животные. Так вот, племенная ценность — это ценность животного для целей разведения по какому-либо селекционному признаку.

При этом племенная ценность бывает двух типов. Истинная племенная ценность (True Breeding Value, TBV) — это генетический потенциал животного, его реальная ценность. Измерить этот показатель мы не можем, но с определённой степенью достоверности (или точности, этим термином мы и будем пользоваться дальше) можем рассчитать оценку племенной ценности (Estimated Breeding Value, EBV).

EBV — это оценка генетического потенциала животного с определённой точностью. Формула расчёта оценки племенной ценности выводится следующим образом:

P = G + E,

где P — это фенотипическое проявление признака, G — генотип, E — воздействие окружающей среды. G — это и есть племенная (генетическая) ценность животного. Отсюда следует, что упрощённо племенная ценность G = P − E.

Точность оценки зависит от того, какой признак мы исследуем, каков размер референтной базы для наших исследований, насколько качественные нам доступны данные, на основе которых мы рассчитываем оценку.

EBV показывает, насколько животное по конкретному признаку отличается от среднего (базисного) животного популяции. Для расчёта базиса берут всех животных одного года рождения, высчитывают среднее значение каждого оцениваемого признака, и это значение используется для ориентира.

Например, в США на данный момент это животные 2015 года рождения, а базис они меняют раз в 5 лет. Следующий пересчëт базиса произойдёт в 2025 году, он будет проводиться по животным 2020 года рождения. А в Новой Зеландии базис берут для животных смежных годов (2013, 2014, 2015) и пересчитывают его раз в год. Такую же рекомендацию для учëта базиса дают и в Канаде.

Как развивались племенные оценки

Чтобы улучшить своё стадо, мы можем воспользоваться одним из трёх методов отбора, которые существуют в мировой селекции. Они различаются по способу расчёта племенных оценок и в целом отражают эволюцию методов селекции. Это массовый отбор, отбор по модели животного и самый современный на данный момент метод — геномная селекция.

I. Массовый отбор (Mass Selection)

Самый простой метод, который можно использовать для оценки животных, — это массовый отбор по собственному фенотипу животного. Общий принцип отбора по продуктивности (фенотипу) очень прост: если у животного больше удой — значит, оно лучше, и наоборот. Точность этого метода низкая — 10–20 %.

Плюсы. Массовый отбор можно провести у себя на ферме самостоятельно, без помощи компьютерных программ и биоинформатиков. Кроме того, это относительно быстрый и дешёвый способ отбора, потому что он не требует большого количества времени на расчёты. Но этим и исчерпываются все его преимущества.

Минусы. А вот недостатков у массового отбора много, и они существенные.

1. Животные отбираются по фенотипу, поэтому не учитывается генетическая наследуемость признака. А если наследуемость признака низкая, то мы не можем быть уверены, что разница между двумя животными обусловлена именно генетикой, а не влиянием окружающей среды (Е в формуле выше), которое включает в себя очень много факторов. В результате признаки отобранных животных не будут передаваться потомкам или будут передаваться очень плохо.

По сути, наследуемость показывает, какой вклад в фенотип признака вносит генетическая компонента. Наследуемость в теории селекционно-племенной работы оценивается с помощью показателя «коэффициент наследуемости», который представляет собой отношение генетической изменчивости к общей (фенотипической).

Допустим, у нас есть стадо со средней продуктивностью 9 000 кг за 305 дней, наследуемость удоя в этом стаде составляет 20 %, и мы хотим оценить животное с продуктивностью 12 000 кг за 305 дней. Чтобы получить оценку для этого животного, достаточно произвести такие расчёты: 12 000 − 9 000 = 3 000 × 20 % = +600 кг.

При этом нужно помнить, что при таком методе расчёта мы никак не учитываем ни факторы среды, ни саму генетическую ценность конкретного животного. Получить оценку +600 кг мы можем как при вкладе внешней среды +1 000 и вкладе генетики −400, так и при вкладе генетики +1 000 и вкладе внешней среды −400. Оба животных принесут нам одинаковый фактический результат, но, конечно, мы хотели бы оставить себе второе животное, а первое выбраковать.

То есть главная проблема метода — невозможность получить ответ на вопрос: действительно ли отобранные по фенотипу животные обладают наилучшим генетическим потенциалом? Случается также, что сравнивают лактации разных лет, и по факту отбираются не генетически лучшие животные, а просто животные, например, которым повезло родиться в удачный год.

Как итог — низкая точность оценки потенциала животного. Успешность массового отбора целиком и полностью зависит от степени наследуемости признака и внешних факторов, которые мы не можем учесть даже приблизительно. Соответственно, этот метод совершенно не работает на признаках, которые имеют низкую наследуемость. К сожалению, к таковым относятся почти все продуктивные признаки.

2. Чтобы мы могли отранжировать животных по фенотипу, у них должен быть собственный фенотип. Если животное ещё не имеет собственного фенотипа, оно не сможет участвовать в таком виде отбора, так как мы не знаем, сколько молока оно даёт. Получается, что метод массовой селекции нельзя применить к молодым животным, у которых ещё не было лактаций (к нетелям и первотёлкам), а также к быкам, потому что у них нет собственной продуктивности по большей части селекционных признаков.

3. Дополнение к методу массового отбора по фенотипу — отбор по продуктивности матери. Если у животного нет собственной продуктивности (например, когда нужно принимать решение об осеменении первотёлки или когда первая лактация ещё не закончилась), его либо вообще не выбраковывают и оставляют до второй лактации, либо смотрят на удой матери (или оценку, пример которой мы разобрали выше) и по нему определяют, что делать с животным: продавать или оставить. Так же поступают и с молодыми животными — тёлками и нетелями.

Чтобы оценить таким образом ценность животного, нам нужно будет взять сумму ценностей отца и матери и разделить пополам. Если воспользоваться примером выше, то оценку +600 кг мы должны будем разделить на 2 — это и будет вклад матери в ценность этого потомка. Здесь, помимо погрешностей самого метода, мы добавляем ещё одну погрешность: мы знаем, что потомок возьмёт половину генов от матери, но никогда не знаем, какую именно.

Если же пойти совсем простым путём и не давать оценок, а просто ранжировать животных по продуктивности матерей, то надёжность такого метода в российских условиях составляет порядка 15 %. О том, что это значит, расскажем ниже.

Корреляция.png

Наиболее распространённая корреляция между удоем матери и дочери по российской базе KSITEST составляет 15 %. Обратите внимание, что от животного с удоем 10 000 мы можем получить дочь как с удоем 4 000, так и с удоем 18 000. И разницу между этими животными при методе массового отбора мы узнаем только после окончания лактации.

II. Модель животного (Animal Model)

Эта статистическая модель появилась, когда на помощь оценке животных пришли математические методы (в первую очередь метод Best Linear Unbiased Prediction, BLUP). В этой модели для получения более точной оценки племенной ценности используется информация о фенотипах родственных животных. Подробнее об истории становления BLUP я рассказывал в предыдущей статье.

Здесь животные оцениваются по математической модели на основе их родословных (а если у них уже есть собственный фенотип, то он может быть откорректирован — уточнён). У животного, которое мы оцениваем, есть большое количество родственников. Это как прямые родственники — отец, мать и другие предки, так и косвенные — братья и сёстры (siblings). Отсюда происходит разговорное «сибсы» — родные братья и сёстры, то есть животные с одинаковыми родителями, и «полусибсы», когда общий только один из родителей. Мы учитываем данные всех этих животных и с помощью статистических методов рассчитываем примерную продуктивность и собственно племенную оценку.

Плюсы. Этот метод позволяет оценивать животных, у которых нет собственного фенотипа, — нетелей, первотëлок, быков. Причём оценка тем точнее, чем ближе к оцениваемому животному родство животных, о которых собрана информация. Кроме того, BLUP позволяет учитывать внешние факторы и очистить оценку от эффектов окружающей среды, которые влияют на фенотип.

Может показаться, что это не важно, но на самом деле не бывает двух одинаковых годов и двух одинаковых ферм. Так что даже если у вас на ферме такие же технологии, как в США, в вашем случае всё равно некорректно использовать американские оценки, поскольку они не учитывают эффекты окружающей среды: корм, погоду, стадо, сезон отёла, технологию получения молока, условия содержания животного. А если бы животные действительно находились в США, тогда CDCB — организация, которая рассчитывает оценки для США, — при расчёте оценки учитывала бы в качестве фиксированного эффекта как минимум год, сезон и стадо. (Фиксированным называется эффект окружающей среды, который однозначно фиксируется, то есть записывается, при зоотехническом учёте.) Но поскольку животные находятся в России, а не в США, то никаких корректирующих коэффициентов CDCB не сможет применить, даже если захочет. Вот почему у всех развитых животноводческих стран есть собственные системы оценки племенной ценности, содержащие в том числе референтную базу животных.

Даже если у животного есть фенотип — оценку BLUP всё равно применяют, так как она позволяет повысить точность оценки. Потому что, если мы знаем продуктивность всех родственников животного и его собственную продуктивность, мы можем более точно спрогнозировать потенциал животного, чем если мы знаем только его собственную продуктивность. Точность метода средняя — от 30 % до 50 % в зависимости от стада, качества записей в родословных и всех продуктивностей в этих записях.

Минусы. Главная опасность методов BLUP и Animal Model заключается в том, что если неправильно определено родство, неизвестен или неверно указан хотя бы один из прямых родителей, тогда наша оценка совершенно не отражает действительность, и мы не сможем прогнозировать потомство — потомок может получиться какой угодно, а не тот, которого мы прогнозировали.

Критически важна достоверная запись родословных связей и всех продуктивностей в родословных, у животных нужно постоянно подтверждать родство. А процент ошибок в родословных в мировой практике записи данных о животных доходит до 20 %, в среднем он составляет около 8 %. По данным российской базы KSITEST, в родословных в среднем тоже около 8 % ошибок. То есть в стаде из 1 000 голов у 80 коров неверно определены мать или отец.


Интересный факт: ошибки в определении отца встречаются на 10–15 % чаще, чем ошибки в определении матери (по данным российской базы KSITEST).


Как это работает в теории. BLUP — это математическая модель, которая учитывает фиксированные эффекты. Она рассчитывается по формуле:

Y = Xb + Zu + e,

где Y — это фенотипическая информация, Xb — фиксированные эффекты (ферма, год, сезон, возраст коровы и др.), Zu — искомая величина, связь фенотипа и аддитивного генетического эффекта (связи в родословных), e — остаточная дисперсия.

Допустим, у нас есть определённый фактический удой, и с помощью метода BLUP мы рассчитываем все фиксированные эффекты, которые действуют на конкретное животное (их набор будет различаться для каждого региона):

Blup.png

Упрощённый вариант расчёта BLUP-оценки удоя по первой лактации.

Как это работает на практике. Мы берём две группы близкородственных животных, которых объединяет общий отец. Одна группа животных родилась в марте 2018 года, а вторая группа животных родилась на той же ферме от того же быка в августе 2018 года. Получается, у нас есть две группы животных, которые должны быть очень похожи, потому что у них схожие родословные, и живут они на одной ферме. Но их разделяет то, что они родились в разные сезоны.

Математическая модель рассчитывает средние показатели этих животных, и выясняется, что продуктивность у животных первой группы составляет 8 000 кг, а у животных второй группы — 9 000 кг. Это означает, что все прочие факторы у них были равные (происхождение, ферма, лактация — они родились в один год, и мы оцениваем всех по первой лактации), различается только сезон, когда они родились.

Мы видим, что разница между этими группами животных составляет 1 000 кг, то есть вклад сезона в данном случае составляет 1 000 кг. Это не значит, что первые животные генетически хуже, просто они родились в сезон, когда фиксированный эффект повлиял на них таким образом. При этом мы должны ещё учесть или как минимум оценить разницу в качестве матерей, так как наш упрощённый расчёт будет актуален только при всех прочих равных. Точно так же оцениваются все фиксированные эффекты, которые действуют на животных, — несколько десятков или даже сотен пунктов.

Суть в том, что для каждой генетической группы животных на уровне страны или даже региона эти фиксированные эффекты будут различаться, то есть вклад и набор фиксированных эффектов будет другой. Например, часть эффектов, которые актуальны для Израиля, будет неактуальна для Канады. Это одна из основных причин, почему все страны собирают свои собственные референтные базы — чтобы рассчитывать фиксированные эффекты. По этой же причине оценки из других стран не столь эффективны, как оценки внутри страны или региона. Так что даже если фермер работает по датской технологии, он не может просто взять и использовать датские оценки, ведь, что бы он ни делал, фиксированные эффекты в его стране будут другими.

III. Геномная селекция (Genomic Selection)

Геномная селекция позволяет оценивать животных на основе связей большого числа геномных данных (Single Nucleotide Polymorphism, SNP, или «снипов») с фенотипом в референтной популяции. Для этого изначально собирается референтная популяция (референтная база), по которой устанавливается, что определённый генотип соответствует определённому фенотипу. На основе этих данных мы сможем определить потенциал животного, не зная ни его фенотип, ни родословную.

Это ещё одна причина, почему каждая развитая страна имеет свою собственную референтную базу. Фенотипы у всех разные, на животных влияют разные фиксированные эффекты, и экспрессия генов под влиянием всех внешних факторов тоже происходит по-разному. Фермеры Германии действуют примерно по той же технологии, что и фермеры Франции, но при этом селекционные индексы и геномные оценки признаков у них разные, в том числе потому, что в разных условиях животные проявляют себя по-своему.

Итак, мы собираем референтную базу и определяем связи между генотипом и фенотипом, а в дальнейшем можем определить потенциал животного, не имея ни его родословной, ни вообще какой бы то ни было информации о нём. Просто берём его генотип, сравниваем его с референтной базой и с определённой долей вероятности говорим, какая у этого животного будет оценка племенной ценности.

Плюсы. Этот метод даëт наиболее точную оценку и при наличии референтной базы не требует наличия фенотипа. При этом критически важно, чтобы референтная база была той же генетической группы, что и оцениваемое животное. Например, животные должны принадлежать к той же породе и родственной группе внутри породы, а также находиться в одном регионе. Кроме того, животные должны содержаться в схожих условиях и обладать частично общими родословными. Метод не чувствителен к ошибкам в родословной, потому что здесь мы ориентируемся не на родословную животного, а непосредственно на его генотип.

Впрочем, это не значит, что животных можно оценивать только по генотипу, а больше никакой другой информации не нужно. На самом деле для получения более точной оценки важно использовать максимум имеющихся данных: и собственный фенотип животного, и данные о его родственниках. Кроме того, нужно пополнять и регулярно обновлять референтную базу, которая используется для расчёта оценок. Генетические связи постоянно меняются в ходе селекционного процесса, так что через 3–4 поколения изменённые связи будут давать меньшую точность оценки. Соответственно, если оценивать коров, родившихся в 2022 году, по базе, собранной в 2008 году и с тех пор не обновлявшейся, их оценка будет совершенно неактуальна.

Точность метода — 60–90 % при условии, что мы используем всю доступную информацию: геном, родословные и фенотипы. При этом точность для коров и быков отличается во всех трёх методах. Даже с геномной селекцией точность оценки в 80 % — это очень хороший результат и, скорее всего, будет встречаться у матерей быков, так как для коров доступно ограниченное количество информации, которое мы можем использовать для оценки (у них меньше собственных потомков). Для быков же оценка с точностью выше 80 % может быть получена только после добавления генотипов и фенотипов нескольких десятков потомков, не говоря уже о том, что часто практически вся родословная условного быка-производителя будет с генотипами.

Особенности метода. Для формирования качественной референтной базы важно собрать достоверную информацию о родственных связях животных. Но это решается средствами самой геномной селекции, потому что, когда животное генотипируется, его родство можно сразу же подтвердить по генотипу, если родители животного тоже были прогенотипированы. А если родство не подтверждено или даже опровергнуто, то в референтной базе можно найти животное, которое генетически соответствует оцениваемому животному. Так можно исправлять ошибки или заполнять пробелы в родословных.

Референтная база. Для метода геномной селекции важен размер референтной популяции — эталонной популяции, для которой существуют связи фенотипа и генотипа (набора генетических маркёров SNP). Нужно довольно много животных, чтобы собрать наиболее полную базу с разными вариантами аллелей каждого гена (у каждого SNP есть два аллеля, и всего может быть три варианта каждого генотипа — гомозиготный по первому аллелю, гомозиготный по второму аллелю и гетерозиготный).

Чем ниже наследуемость признака, тем больше животных нужно для референтной базы. Чтобы была возможность получить оценку в 90 % для признаков со сравнительно высокой наследуемостью (удой, жир и белок), необходимо больше 8 000 животных со связями генотипов с фенотипами. Для признаков с очень низкой наследуемостью (например, различные признаки здоровья) достичь точности в 90 % не представляется возможным, так как на проявление признака влияет слишком много внешних факторов.

Референтная популяция.png

Влияние размера популяции и наследуемости признаков на точность оценки: чем ниже наследуемость признака, тем большая нам нужна популяция для более точной оценки.

Как это работает. После того как были собраны связи генотипов с фенотипами, строится модель — уравнение предсказания (prediction equation), которое помогает понять, как оценивать признак. Дальше мы берём животных с уже известным фенотипом, удаляем его, сообщаем программе, что мы не знаем фенотип этих животных, и даём программе команду его оценить. Соответственно, животные оцениваются по уравнению, которое мы построили на предыдущем шаге, и получают свою оценку генетического потенциала по признакам.

Дальше мы сообщаем программе, что теперь у нас есть фенотип, и программа начинает высчитывать точность этой оценки — насколько она соответствует действительности (конечно, с учётом фиксированных эффектов). То есть насколько мы оказались правы в том, что такая-то корова с учётом фиксированных эффектов и получившегося фенотипа должна иметь оценку +1000 или −1000. Если точность оценки недостаточная — необходимо понять, какие факторы внешней среды не учтены или учтены неправильно.

Когда мы поняли, что нас устраивает определённая точность оценки, и утвердили соответствующую модель, в дальнейшем мы уже можем брать животных без фенотипов и определять их оценку с помощью геномной селекции, сравнивая генотип животного с генотипами животных в референтной базе.

Нюанс в том, что животное должно обладать большим количеством генетических связей с референтной популяцией. Если это животное той же самой породы, но генетические связи абсолютно другие, то ценность оценки будет очень низкой, потому что может не оказаться животных с таким же набором «снипов» (с такими же вариантами аллелей) — например, из-за того, что у местных животных было много примесей других пород. Таким образом, референтная база должна соответствовать локальной популяции, а ещë она должна быть живой и постоянно пополняться новыми данными — генотипами и фенотипами.

***

На этом давайте пока остановимся. В следующей статье я расскажу про нюансы использования геномных оценок, которые остались не затронутыми здесь. Но уже сейчас можно сказать, что геномная селекция — это самый современный и эффективный способ оценить племенную ценность КРС.

А 2 ноября, вместе с зарубежными коллегами, я буду разбирать ньюансы геномных оценок и как геномная селекция способствует импортозамещению в животноводстве на 2-й практической конференции KSIDAY 2022. Регистрируйтесь по ссылке ksiday.ru, чтобы прокачать свои знания в геномной селекции.



Мнение редакции может не совпадать с мнением автора
14.06.2024
Минфин внес в правительство РФ законопроект о введении прогрессивной шкалы НДФЛ. The DairyNews спросил у представителей отрасли и аналитиков, как введение новой системы НДФЛ может отразиться на работе бизнеса молочных предприятий. Эксперты считают, что значительных изменений для молочников ждать не стоит. При этом динамика роста зарплат в стране может снизиться, отмечают аналитики.
Читать полностью