Məlumat

Mutasiyanın itirilməsi/sabit olması ehtimalını necə müəyyən etmək olar?

Mutasiyanın itirilməsi/sabit olması ehtimalını necə müəyyən etmək olar?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mənim sualım var populyasiya genetikasında mutasiyanın 1 və ya 2 nəsildən sonra itməsi və ya sabitləşməsi ehtimalını necə təyin etmək olar.

Tutaq ki, bizdə N diploid fərd (N=5) olan təsadüfi qarışıq populyasiyamız var və bir mutasiya var. Bilirəm ki, bu, binomial paylanmaya əməl etməlidir, amma mən də eşitdim ki, bu, Puasson paylanmasına əməl edə bilər... və demək istəyirəm ki, sabitləşmə ehtimalı 0 anındakı tezliklə eynidir, 1/2N və ya burada 1/10.

Bundan əlavə, onun 2 nüsxədə olması ehtimalını necə hesablamaq olar?


Mutasiyanın itirilməsi/sabit olması ehtimalını necə müəyyən etmək olar?

Neytral mutasiyanın sonsuz müddətdən sonra sabitləşmə ehtimalı, dediyiniz kimi $p$ tezliyinə bərabərdir. Buna görə də itirilmə ehtimalı $1-p$-dır. Bu yazı bir izahat təklif edir, lakin nümayiş etdirməyin bir çox yolu var. Bu demo üçün populyasiya genetikası üzrə hər hansı yaxşı kitaba nəzər salmaq istəyə bilərsiniz. Budur kitab tövsiyələri.

onun 2 nüsxədə olması ehtimalını necə hesablamaq olar?

Ehtimal həmişə aprioridən asılıdır. Apriorunuz nədir? Fərz edək ki, əvvəlki zaman addımında allel tezliyinin $frac{4}{10}$ olduğunu bilirik.

Wright-Fisher modelinə əsasən, növbəti nəsildə 2 nüsxənin olma ehtimalı binomial paylanma ilə verilir. $N=5$ və buna görə də $2N=10$ olsun və maraq doğuran allelin tezliyi $frac{4}{10}$ olsun, növbəti nəsildə iki allelin olma ehtimalı ${10 seçmək olsun. 2} left(frac{4}{10} ight)^2 left(frac{6}{10} ight)^8 ≈ 0,12$.

Moran modelində bu ehtimal sıfırdır. Moranın modeli doğum-ölüm modelidir (Markov modeli) və buna görə də zaman addımları arasında keçid yalnız bir alleli əlavə edə və ya çıxara (və ya heç bir dəyişiklik edə bilməz). Siz qeyd edəcəksiniz ki, vaxt addımı iki model üçün eyni məna daşımır. Wright-Fisher modelində heterozigotluq itkisi iki dəfə sürətlidir, lakin bu müzakirə mütləq sizin istədiyiniz kimi deyil!


Genetik sürüşmə

Genetik sürüşmə (allelik sürüşmə və ya Sewall Wright effekti) [1] orqanizmlərin təsadüfi seçilməsi nəticəsində populyasiyada mövcud gen variantının (allel) tezliyinin dəyişməsidir. [2] Nəsildəki allellər valideynlərdə olanların nümunəsidir və müəyyən bir fərdin sağ qalıb çoxalmadığını müəyyən etməkdə şansın rolu var. Populyasiyanın allel tezliyi müəyyən bir formanı paylaşan bir genin nüsxələrinin bir hissəsidir. [3]

Genetik sürüşmə gen variantlarının tamamilə yox olmasına və bununla da genetik dəyişkənliyin azalmasına səbəb ola bilər. [4] O, həmçinin ilkin olaraq nadir allellərin daha tez-tez və hətta sabitləşməsinə səbəb ola bilər.

Allelin nüsxəsi az olduqda, genetik sürüşmənin təsiri daha böyük olur, çoxlu nüsxə olduqda isə təsir daha az olur. 20-ci əsrin ortalarında təbii seçmənin neytral proseslərə qarşı nisbi əhəmiyyəti, o cümlədən genetik sürüşmə üzərində qızğın mübahisələr baş verdi. Mendel genetikasından istifadə edərək təbii seleksiyanı izah edən Ronald Fişer [5], genetik sürüşmənin təkamüldə ən kiçik rol oynadığı fikrini irəli sürdü və bu, bir neçə onilliklər ərzində dominant fikir olaraq qaldı. 1968-ci ildə populyasiya genetiki Motoo Kimura öz neytral molekulyar təkamül nəzəriyyəsi ilə mübahisəni yenidən alovlandırdı, bu nəzəriyyəyə görə, genetik dəyişikliyin populyasiyaya yayıldığı halların çoxu (fenotiplərdə mütləq dəyişikliklər olmasa da) neytral mutasiyalara təsir edən genetik sürüşmə nəticəsində yaranır. [6] [7]


Mutasiyanın itirilməsi/sabit olması ehtimalını necə müəyyən etmək olar? - Biologiya

Girişdə müzakirə edildiyi kimi, mutasiyalar genetik kodda müxtəlif əlamətlərin yaranmasına səbəb olan dəyişikliklərdir. Bu mutasiyalar genetik olaraq ötürülə bilər və ya itir, ya da sabitləşə bilər. Mutasiya adətən populyasiyada tək bir fərdə təsir etdiyi üçün ilkin fraksiya kiçikdir və fiksasiya ehtimalı da kiçikdir (itki ehtimalı yüksəkdir). Bununla belə, böyük populyasiyalarda hətta kiçik ilkin fraksiyaya malik olsa da, mutasiya itkisinin tam olması uzun müddət çəkə bilər. Məsələn, 10.000 insandan ibarət bir populyasiyada bir fərddən mutasiyaların fiksasiyası və ya itirilməsi üçün orta vaxt təxminən 20 nəsil və ya 500 ildir!

Bitkilərdə, heyvanlarda və insanlarda mutasiyaların bəzi nümunələri bunlardır:

Bu bağ mamır güllərindəki mutasiya (solda göstərilmişdir) bəzi çiçəklərin sarı deyil, narıncı rəngdə böyüməsinə səbəb olmuşdur. Foto krediti: http://en.wikipedia.org/wiki/Mutation . Sağda, siçanlarda olduqca yaygın bir mutasiya bədənin ətrafındakı paltoda lentlərə səbəb olur. Foto krediti: http://www.thefunmouse.com/varieties/marked.cfm

Nəhayət, insanlarda ümumi bir mutasiya qırmızı qan hüceyrələrinin yuxarı solda yuxarıda göstərildiyi kimi oraq şəklində formalaşmasına səbəb olur. Bu mutasiya oraq hüceyrə anemiyası kimi tanınır. Foto krediti: http://www.emedicinehealth.com/sickle_cell_crisis/article_em.htm

Mutasyonlar fikrini DNT və zülallar haqqındakı müzakirəmizə bağlamaq üçün burada DNT-dəki mutasiyaların zülal dəyişikliyinə səbəb ola biləcəyinə dair bəzi nümunələr verilmişdir:

1) Üçə bölünməyən bir sıra nukleotidlər ya DNT-yə daxil edilir, ya da ondan çıxarılır. Bu, amin turşuları yaratmaq üçün oxunan kodonların mövqeyini dəyişdirir və çərçivə dəyişikliyi mutasiyası kimi tanınır. Məsələn, orijinal ardıcıllıq CCC CAG AGA (prolin, qlutamin və arginin amin turşularına uyğundur) və CC GA CC AGA GA ardıcıllığına aparan əlavə (qırmızı rənglə) varsa, müvafiq amin turşuları proline dəyişəcək, treonin və arginin və bu ardıcıllıqdan sonra oxunan RNT-nin qalan hissəsindəki kodonlarda hansı əsasların olduğunu dəyişəcək.

2) Cəfəngiyat mutasiya DNT-nin bir nöqtəsində baza dəyişikliyidir ki, bu da olmamalı olduğu yerdə dayanma siqnalına səbəb olur və ortada zülalın yaradılmasını dayandırır.

3) Yanlış mənalı mutasiya DNT-nin bir nöqtəsində əsas dəyişikliyidir ki, bu da zülalın hansısa nöqtəsində nəzərdə tutulduğundan fərqli bir amin turşusunun əvəzlənməsi ilə nəticələnir. Bu, zülalın funksiyasını dəyişdirə və ya maneə törədə bilər.

4) Neytral mutasiya, zülalın funksiyasını dəyişdirən deyil, ilkin nəzərdə tutulduğundan fərqli bir amin turşusunun əvəzlənməsinə səbəb olan mutasiyadır.

5) Səssiz mutasiya zülalın amin turşusu ardıcıllığının dəyişməsinə səbəb olmayan mutasiyadır.


Giriş

Əksər mutasiyalar zərərli olduğundan, mutasiya dərəcəsi əslində çox yüksək ola bilməz, sonsuz böyük bir populyasiyada, geniş fitnes funksiyaları sinfi üçün bir səhv həddi göstərilmişdir ki, ondan yuxarı mutasiyanın zərərli təsirləri kompensasiya edilə bilməz. seçim (Eigen 1971 Jain and Krug 2007). Mutasiya dərəcəsi də sıfır deyil (Baer et al. 2007) və iddia edilmişdir ki, sonlu populyasiyada stoxastik tərəddüdlər mutasiya dərəcələrinin təkamülünü müəyyən səviyyədən aşağı məhdudlaşdırır, çünki kifayət qədər kiçik populyasiyalarda üstünlüyü aşağı salmaqla əldə edilir. mutasiya dərəcəsi təsadüfi genetik sürüşmənin təsirini kompensasiya edə bilməz (Lynch 2010). Geniş fərqli effektiv populyasiya ölçüsünə malik orqanizmlər üçün empirik məlumatlar zərərli mutasiya dərəcəsi ilə populyasiyanın ölçüsü arasında mənfi korrelyasiya olduğunu göstərir (Sung et al. 2012) və bütün zərərli mutasiyaları öldürücü hesab etməklə bu əlaqəyə dair bəzi kəmiyyət məlumatı əldə edilmişdir ( Linç 2011). Ancaq bu, açıq şəkildə ifrat bir ssenaridir və mutasiyalar yalnız zəif zərərli olduqda, zərərli mutasiya nisbətinin necə inkişaf etdiyini soruşmaq vacibdir.

Bir çox nəzəri və eksperimental araşdırmalar da göstərdi ki, uyğunlaşan aseksual populyasiyada mutasiya olmayandan daha yüksək mutasiya sürətinə səbəb olan mutator allel sabitləşə bilər [Raynes və Sniegowski (2014) tərəfindən son araşdırmaya baxın]. Mutatorlar qeyri-mutatorlara nisbətən daha yüksək sürətlə nəinki zərərli, həm də faydalı mutasiyalar əmələ gətirdiyinə görə, mutator alleli əlverişli mutasiyalarla fiksasiya oluna bilər (Smith and Haigh 1974 Taddei et al. 1997). Lakin, populyasiya yüksək fitness səviyyəsinə çatdıqdan sonra, yüksək mutasiya nisbətləri zərərlidir, çünki əksər mutasiyalar indi zərərli olacaq və belə bir vəziyyətdə mutasiya nisbətinin azalacağı gözlənilir (Liberman və Feldman 1986). Həqiqətən də, bəzi təcrübələrdə (Tröbner və Piechocki 1984 Notley-McRobb et al. 2002 McDonald et al. 2012 Turrientes et al. 2013 Wielgoss et al. 2013), mutator alleli daşıyan uyğunlaşdırılmış populyasiyanın mutasiya dərəcəsinin azalması müşahidə edilmişdir. və fiksasiya vaxtı ölçüldü, lakin bu zaman miqyasının nəzəri anlayışı yoxdur.

Yuxarıda müzakirə olunan məsələləri həll etmək üçün çoxtipli budaqlanma prosesindən istifadə edərək mutatorların böyük bir aseksual populyasiyasında nadir bir qeyri-mutatorun taleyini öyrənirik (Patwa və Wahl 2008). Mutator avtostopla bağlı əvvəlki işlər (Taddei et al. 1997 Andre and Godelle 2006 Wylie et al. 2009 Desai and Fisher 2011) ilə bizim araşdırmamız arasında mühüm fərq ondan ibarətdir ki, burada mutator populyasiyası mutasiya-seleksiya tarazlığında olduğu qəbul edilir və buna görə də müsbət seçim altında deyil. Bununla belə, modelimizə zərərli mutasiyaların təsirini yüngülləşdirən kompensasiya edici mutasiyalar daxildir. Biz tapırıq ki, yalnız zərərli mutasiyalar mövcud olduqda, qeyri-mutator mutatorun zərərli mutasiya dərəcəsi ilə artan bir ehtimalla sabitləşə bilər. Mutator populyasiyasındakı kompensasiya mutasiyalarının qeyri-mutatorun fiksasiya ehtimalını azaltması gözlənilir və biz mutatordakı zərərli mutasiyalar effektiv şəkildə öldürücü olduqda bu intuisiyanın həqiqətən düzgün olduğunu görürük. Ancaq təəccüblüdür ki, zərərli mutasiyalar bir qədər zərərli olduqda, fiksasiya ehtimalının əvvəlcə artdığı, sonra isə kompensasiya edici mutasiyaların sürəti artdıqca azaldığı aşkar edilir. Beləliklə, tədqiqatımız müsbət seçim olmadıqda mutator olmayanların yayılmasının basdırıldığı şərtləri müəyyən edir və mutatorun fiksasiya üçün faydalı mutasiyalarla avtostopla getdiyi əvvəlki işləri tamamlayır (Taddei et al. 1997 Andre and Godelle 2006 Wylie et al. 2009). Desai və Fisher 2011).

Zərərli mutasiya nisbətinin azalmasının təklif etdiyi üstünlüyün sonlu populyasiyada təsadüfi genetik sürüşmə ilə məhdudlaşdığını bildirən fiksasiya ehtimalı və sürüşmə maneə arqumentindən istifadə edərək, zərərli mutasiya dərəcəsinin azaldığını aşkar edirik. eksperimental məlumatlara uyğun olaraq artan əhali ölçüsü ilə (Sung et al. 2012). Bununla belə, zərərli mutasiyaları effektiv şəkildə öldürücü hesab edən əvvəlki nəzəri işlərdən fərqli olaraq (Lynch 2011), burada biz həm güclü, həm də zəif zərərli mutasiyaları nəzərdən keçiririk və nəticəni yalnız Lynch (2011)-də təkrar etmirik, həm də yeni miqyas qanunu tapırıq. sonuncu hal. Biz həmçinin mutatorların uyğunlaşdırılmış populyasiyasında mutasiya dərəcəsini azaltmaq üçün vaxt tapmaq və nəzəri nəticələrimizi son təcrübələrlə müqayisə etmək üçün fiksasiya ehtimalı üçün nəticələrdən istifadə edirik (McDonald et al. 2012 Wielgoss et al. 2013).


Müzakirə

NGS-də ardıcıllıq xətası

NGS-nin inkişafı genetik variasiyanın kəşfini xeyli sürətləndirdi, eyni zamanda vaxtı və xərcləri əhəmiyyətli dərəcədə azaldıb. Bununla belə, NGS-nin daha yüksək ardıcıllıq xətası dərəcəsi bioloqlar üçün hesablama problemi də yaradır [23]. Ümumiyyətlə, ardıcıllıq xətası iki növə bölünə bilər: qarışıq klasterlər, siqnal intensivliyinin pozulması və ya mərhələ problemi (Illumina Genome Analyzer (GA) üçün) səbəb olduğu maşın xətası və buna görə də hədəf ardıcıllıqla təsadüfi paylanmalıdır və sistematik xəta, qeyri-kamil kimyəvi/sensor/texnologiyadan qaynaqlanır ki, bu da müəyyən genomik yerlərdə xəta dərəcəsinin qaynar nöqtələri ilə nəticələnir [7, 10, 24].

Maşın xətalarının çoxu keyfiyyət balları və/yaxud uyğunsuzluq nömrələri üçün bir sıra filtrlər vasitəsilə aradan qaldırıla bilər [24]. Bunun əksinə olaraq, sistematik xətanı ayırd etmək daha çətindir, çünki keyfiyyət balı xəta qaynar nöqtələrində həqiqi səhv dərəcəsini əks etdirmir [7, 9]. Bu yaxınlarda sistematik səhvlərin müəyyən edilməsinə kömək edə biləcək bəzi xüsusiyyətləri təklif edilmişdir. Məsələn, G-səhv-G və G-səhv-A mövqeləri ən yüksək xəta dərəcəsinə malikdir [8], ardıcıllıq xətası qaynar nöqtələri isə ters çevrilmiş təkrarlardan və GGC və ya GGT ardıcıllığından sonra yerləşdirilməyə meyllidir [7, 9, 10]. Baxmayaraq ki, bu xüsusiyyətlərin statistik olaraq sistematik xətalarla əlaqələndirilməsinə baxmayaraq, onlar səhv dərəcəsi fərqinin yalnız məhdud bir hissəsini izah edə bilər, çünki bu motivlərdən sonrakı mövqe on dəfəyə qədər variasiya ilə səhv dərəcəsini göstərdi (Əlavə faylda Şəkil S3 1), bu yaxınlarda başqa yerdə də qeyd edildiyi kimi [10].

Tədqiqatımızda, ardıcıllıqla səhvlərin tez-tez müxtəlif fərdlərdə eyni mövqedə baş verdiyini, xüsusən də ən yüksək səhv nisbətinə malik mövqelər üçün aşkar etdik (Şəkil 3). Bu tendensiyanın konkret ardıcıllıq maşını ilə bağlı olması ehtimalı azdır, çünki korrelyasiya fərq maşınları tərəfindən yaradılan məlumatlar arasında da müşahidə oluna bilər. Bu müşahidə göstərir ki, maraq ardıcıllığı üçün xəta dərəcəsi eyni ardıcıllığa malik olan istinad panelindən təxmin edilə bilər. Üstəlik, oxunmanın müxtəlif hissələri və müxtəlif tellərdən oxunmalar üçün səhv dərəcəsini araşdıraraq, keyfiyyət filtrimizdən sonra biz aşkar etdik ki: 1) ardıcıllıq xətası oxunun müxtəlif hissələri və müxtəlif mövqelərdə dəyişir (Şəkil 2 Cədvəllər S5 və S6 Əlavə faylda 3) və 2) xəta dərəcəsi zəncirlərə xasdır (Şəkil 2), çünki iki tel üzrə ardıcıllıq kontekstləri çox vaxt fərqli olur. Buna görə də, ardıcıllıqla səhv nisbətini qiymətləndirərkən sorğulanan mövqeyə uyğunlaşdırılmış oxuların mövqeyi və istiqaməti nəzərə alınmalıdır.

Başqa bir məsələ, dublikat oxunuşları silmək və ya silməməkdir, çünki bunlar eyni başlanğıc şablon molekulunu əks etdirə bilər. Bir tərəfdən, dublikat oxunuşlar daxil olmaqla, PCR səhvlərindən yaranan xəta siqnalını gücləndirə bilər, lakin digər tərəfdən, yalnız genomdakı başlanğıc koordinata əsaslanan dublikat oxunuşların silinməsi əhatə dairəsinin əhəmiyyətli dərəcədə azalmasına səbəb olur (birtərəfli oxunuşlar üçün) . Ekvivalent ardıcıllıq dərinliklərinə malik iki mtDNA ardıcıllığı kitabxanasından əldə edilən qoşalaşmış son məlumatları təhlil edərək, kitabxanadakı hər bir seqmentin orta hesabla 1,19 dəfə təkrarlandığını, 454 seqmentin (0,01%) 10 dəfədən çox təkrarlandığını və ən çox təkrarlanan seqmentin olduğunu gördük. 247 nüsxədə mövcuddur. Süni şəkildə qarışdırılmış nümunələr üçün, dublikat oxunuşları silməklə, biz oxunuşların 90%-dən çoxunu itirdik və metodumuzla 4 LLM mövqeyi əldən verildi. Buna görə də, LLM-i müəyyən edərkən dublikat oxunuşları nəzərə alaraq təhlildə bütün oxunuşları saxlamaq məqsədəuyğun olardı.

Metodumuzun xüsusiyyətləri

Ardıcıllıq xətasını başa düşmək səhvləri real LLM-lərdən ayırmağa imkan verir. Ardıcıllıq xətalarının müxtəlif xüsusiyyətlərindən istifadə edən müxtəlif üsullar mövcud olsa da, biz LLM-lərin aşkarlanmasında digər metodlardan daha yaxşı çıxış edən bir metod hazırlamışıq (süni şəkildə qarışıq nümunələrə əsaslanaraq, burada ardıcıllıq dərinliyi/kiçik allel sayı istifadə olunan/təklif ediləndən xeyli aşağıdır). digər tədqiqatlarda [14, 17]). Bundan əlavə, mövcud standart genotipləşdirmə üsulları LLM aşkarlanması üçün nəzərdə tutulmayıb. Məsələn, geniş istifadə olunan GATK alət dəsti [11] üçün yalnız üç mümkün allel tezlikləri (0%, 50%, 100%) mövcuddur, halbuki LLM-lər üçün daha geniş tezlik diapazonu mövcuddur. Üstəlik, GATK LLM-lər üçün mövcud olmayan etibarlı SNP verilənlər bazası tələb edir və GATK LLM-lər üçün mövcud olmayan yeni SNP çağırışlarını (məsələn, keçidlərin transversiyalara nisbəti) qiymətləndirmək/dəqiqləşdirmək üçün ölçülərdən istifadə edir.

Burada təqdim olunan üsul bir neçə xüsusiyyətə əsaslanır. Birincisi, metodumuz əhalinin təkrar ardıcıllığı məlumatlarından səhv nisbətini təxmin edir. Hədəf bölgəsindəki hər mövqe üçün empirik xəta dərəcəsi eyni konsensus nukleotidinə malik olan istinad nümunələrinə uyğunlaşdırılmış bütün oxunuşlardan təxmin edilir. Buna görə də, biz ardıcıllıq xətasını qiymətləndirmək üçün daha məhdud və ya tamamilə fərqli kontekstdən çox, tam ardıcıllıq kontekstindən istifadə edirik. Bundan əlavə, bütün nümunələr eyni boru kəməri ilə təhlil edildiyi üçün təhlil zamanı buraxılan hər hansı səhvlər (məsələn, xəritəçəkmə xətası) da nəzərə alınır.

İkincisi, oxunanların paylanması nəzərə alınır. Yuxarıda göstərildiyi kimi, eyni mövqeyə uyğunlaşdırılan oxunuşların hamısı eyni xəta dərəcəsinə malik deyil, buna görə də biz oxunuşları mövqelərinə və hədəf ardıcıllığına uyğun oriyentasiyasına görə bölmələrə ayırırıq. Hər bir zibil qutusunda səhv dərəcəsi ayrıca təxmin edildiyi üçün, müxtəlif qutularda oxunuşlar LLM-lərə zəng edərkən fərqli çəkilər verir. Bundan əlavə, dublikat oxunuşların səbəb olduğu yanlış pozitivlərin qarşısını almaq üçün hər bir qutunun yekun keyfiyyət balına töhfəsi yuxarı həddə malikdir.

Üçüncüsü, mütləq tezlik və ya əhatə dairəsinin kəsilməsi tələb olunmur. LLM-ləri ardıcıllıq xətalarından ayırmaq üçün tezlik həddindən geniş istifadə olunur, lakin belə tezlik həddi əhatə dairəsindən asılı olmalıdır, yəni daha yüksək əhatə dairəsi ilə tezlik həddi kiçik olur. Ardıcıllıq dərinliyi genom boyunca qeyri-bərabər paylandığından, tək tezlik həddi LLM-lərin həqiqi sayını ya çox qiymətləndirər, ya da az qiymətləndirər. Bunun əvəzinə bizim metodumuzda a P-qiymət sıfır fərziyyə üzrə müşahidənin ehtimalını təmsil etmək üçün hesablanır (kiçik allel ardıcıllıq xətası nəticəsində yaranır).

Dördüncüsü, bizim metodumuz hər mövqe üçün kiçik allelin etibarlılığını əks etdirən başa düşülən Phred kimi keyfiyyət xalını verir. Bu, müstəntiqin istəklərindən asılı olaraq müxtəlif kəşf strategiyalarının tətbiqini asanlaşdırır, yəni daha aşağı yalançı mənfi nisbətlə daha yüksək yalan müsbət nisbət və ya daha yüksək yalan mənfi nisbətlə daha aşağı yalan müsbət nisbət.

Metodumuzun çevikliyi

İdeal olaraq, səhv dərəcəsini qiymətləndirmək üçün istifadə edilən istinad nümunələrində heç bir LLM olmamalıdır və ya eyni mövqedə yalnız az sayda LLM olmamalıdır. Təcrübədə bu fərziyyə əksər LLM mövqelərinə aiddir, lakin əksər qutularda əhəmiyyətli dərəcədə daha yüksək xəta dərəcəsinin müşahidə olunacağı ümumi variasiya üçün sabit xəta dərəcəsi istifadə oluna bilər (Puason metodunda tətbiq olunduğu kimi). Məsələn, istinad xəta dərəcəsi 0,01-dən əhəmiyyətli dərəcədə yüksək olduqda 0,01 xəta nisbətindən istifadə etməklə, biz PhiX174 məlumat dəstindəki ümumi variasiyaların hamısını heç bir yanlış pozitiv olmadan uğurla aşkar etdik (Əlavə fayl 1-də Şəkil S8). Bununla belə, maraq dairəsi üçün istinad nümunələri yoxdursa, bütün mövqelər və bütün qutular üçün nəzarət məlumatlarından, keyfiyyət balından və ya hər hansı digər məlumat dəstindən təxmin edilən səhv dərəcəsi istifadə edilə bilər. Bu araşdırmada, metodumuzdakı ümumi səhv nisbətindən əhəmiyyətli dərəcədə yüksək bir səhv dərəcəsinə malik olan hər hansı bir səhv nöqtəsi müşahidə etmədik (yəni, LLM çağırmaq üçün həddimizi keçdi). Bununla belə, orta hesablanmış səhv nisbətindən istifadə daha yüksək yanlış mənfi nisbətlə nəticələnə bilər.

Hədəf ardıcıllığı üzrə ardıcıllıq xətasının əsas paylanmasının qeyri-müəyyənliyinə görə, biz hesablamalar üçün üç üsul təqdim etdik. P-müşahidənin gözləntidən kənara çıxmasının dəyəri. Puasson metodu ardıcıllıq xəta dərəcəsinin Puasson və ya binomial paylanmadan sonra gəldiyini fərz edir, halbuki Fisher dəqiq və empirik üsullar ardıcıllıq xətaları üçün hər hansı xüsusi paylanmanı qəbul etmir. Poisson və Fisher dəqiq metodları müşahidə edilən kiçik allel tezliyi ilə səhv dərəcəsi arasındakı mütləq fərqi ölçür, Empirik metod isə bütün istinad xəta dərəcələri arasında kiçik allel tezliyinin sıralanmasını ölçür. Tədqiqatımızda hər üç üsul yaxşı spesifiklik göstərdi (yanlış kəşf nisbəti < 1%). Empirik metod kiçik allel tezliyi aşağı olduqda (< 5%) daha yüksək həssaslığa malikdir, bu halda kiçik allel tezliyi ilə səhv dərəcələri arasındakı fərq kiçik allel tezliyinin (məsələn, kiçik allelin) sıralanması ilə gücləndirilməyə meyllidir. birinci olan tezlik hələ də qalan müşahidələrə çox yaxın ola bilər). Bununla belə, empirik metod müxtəlif ardıcıllıq zolaqlarından/qaçışlarından verilənləri emal edərkən ehtiyatla istifadə edilməlidir, çünki zolaqlar/qaçışlar arasındakı dəyişkənliyə görə istinad nümunələri və sınaq nümunələri arasında daxili ardıcıllıq xətası fərqi ola bilər (Əlavə fayl 1-də Şəkil S4). ) və belə bir saxta fərq LLM siqnalı kimi tutula bilər.

Baxmayaraq ki, bu tədqiqat üçün məlumatlar yalnız Illumina platformasından alınsa da, bizim boru kəmərimizə giriş SAM faylıdır [25], beləliklə, verilənlərin SAM formatına çevrilə biləcəyi istənilən platformadan verilənlərin emalını mümkün edir. Metodumuzu tətbiq etməzdən əvvəl digər fərdiləşdirilmiş prosesləri (məsələn, əsas keyfiyyət xalının yenidən kalibrlənməsi və ya yenidən hizalanması) həyata keçirmək də sadədir. Baxmayaraq ki, ardıcıllıq xətası profili müxtəlif texnologiyalar/baza zəng edənlər arasında əhəmiyyətli dərəcədə fərqlənir, bizim metodumuz xəta profili haqqında əvvəlcədən hər hansı məlumat tələb etmir, çünki bütün müvafiq məlumatlar bütün təkrar ardıcıllıq verilənlər bazasından çıxarılır.

Metodun əlavə tətbiqi diploid ardıcıllıqlar üçün standart genotip qiymətləndirməsini əhatə edə bilər. Bununla belə, bir neçə məsələni həll etmək lazımdır, o cümlədən: heterozigotlar nəzərə alındıqda səhv dərəcəsini necə qiymətləndirmək, əhatə dairəsi aşağı olduqda oxunuşları necə bölmək və heterozigotlar üçün keyfiyyət xalını necə hesablamaq.

LLM-lərin aşkarlanmasında digər problemlər

Sıralama xətası LLM-lərin aşkarlanmasında yeganə problem deyil. Çarpaz çirklənmə, xüsusilə çox sayda nümunə ilə eyni vaxtda işləyərkən başqa bir əsas problemdir. Normalda çirklənmə fraksiyasının çox kiçik olmasına baxmayaraq, kiçik çirklənmə komponentindən əldə edilən nukleotid tam olaraq LLM ilə eyni davranır. Beləliklə, çirklənmə allelini həqiqi LLM-dən ayırmaq mümkün deyil. Burada biz çirklənməni müəyyən etməyin sadə yolunu təqdim edirik: potensial LLM-lərin siyahısını hazırladıqdan sonra ya kiçik allellərin ümumi sayına (əgər bunlar gözlənilən dəyərdən artıqdırsa) və ya eyni kitabxanada olan digər nümunələrə oxşarlığa əsaslanaraq çirklənmə barədə nəticə çıxara bilərik. , və ya digər kitabxanalarda və ya verilənlər bazalarında. Məsələn, mtDNA genomunun ardıcıllığı məlumatı ilə, bir nümunədə beşdən çox LLM aşkar edilərsə, onun qarışıq olmasından şübhələnmək olar, çünki tək bir fərd üçün beşdən çox heteroplazmik mövqe tutması ehtimalı azdır [1, 3, 12]. Belə şübhəli qarışıqlar üçün biz LLM komponentinin xüsusi nümunənin qarışığı ilə izah edilə biləcəyini müəyyən etmək üçün eyni kitabxanadan (həmçinin eyni zamanda hazırlanmış digər kitabxanalardan) digər ardıcıllıqları yoxlayırıq. Kiçik allellərin müəyyən bir haploqrupdan gəlmə ehtimalını müəyyən etmək üçün Phylotree [26] kimi verilənlər bazalarından da istifadə edirik. Tədqiqatımızda 2-3%-ə qədər çirklənməni aşkar edə bildik və gözlənilən kiçik allellərin demək olar ki, yarısı təxminən 500 × orta əhatə dairəsi ilə bu səviyyədə dəqiq şəkildə bərpa olunur. Bu, daha yüksək əhatə dairəsi ilə daha aşağı səviyyədə çirklənmə tapmağın mümkün olacağını göstərir. Bununla belə, çirklənməni aşkar etmək qabiliyyəti qarışığa töhfə verən nümunələr arasında dəyişən mövqelərin sayından asılıdır: əgər onlar çox oxşardırsa, bunun həqiqi LLM və ya çirklənmə olduğunu söyləmək çox çətin olardı. Digər genomik bölgələrin araşdırılması lazım olacaq.

Kimerik oxunuşlar da multipleks ardıcıllığı ilə bağlı potensial problemdir, belə ki, oxunanlar təkcə hədəf nümunədən deyil, həm də eyni ardıcıllıq kitabxanasındakı digər nümunələrdən gəlir. İkiqat indekslər kimerik oxunuşları aşkar etməyə imkan verir və dörd kitabxanada ikiqat indekslər tətbiq etməklə biz oxunanların 10-15%-də uyğunsuz indekslər tapdıq (Şəkil 6). Bu, əvvəllər bildirilən 0,3%-dən xeyli yüksəkdir [22], ola bilsin ki, bizim tədqiqatımızda klaster sıxlığı onlarınkından 1,5 dəfə yüksək olub və kitabxanalarımızda daha çox (heterojen) nümunələr çoxaldılıb. İndeksin çirklənməsi kimerik oxunmaların başqa potensial mənbəyidir, lakin bizim tədqiqatımızda kömək edən amil olması ehtimalı azdır, çünki bənzərsiz P5 indeksləri təsadüfi olaraq digər indekslərdən əldə edilmişdir (Şəkil 6). Hər mövqedə kitabxananın tərkibini nəzərə alaraq, kiçik allelin təxminən 70%-nin kimerik oxunuşlarla izah oluna biləcəyini gördük. LLM-lərin hamısı yanlış müsbət olmasa da, kimerik oxunuşlar ciddi narahatlıq doğurur və ikiqat indekslər tövsiyə olunur.


Təşəkkürlər

Biz John M. Coffin, Richard A. Neher və Boris I. Sraiman-a şərhlərə və faydalı müzakirələrə görə təşəkkür edirik. Bu iş qismən Milli Elm Fondu Məzun Tədqiqat Təqaüdü (B.H.G.), Maks Plank Cəmiyyəti (O.H.) və James S. Mcdonnell Fondu və Harvard Milton Fondu (M.M.D) tərəfindən dəstəkləndi. I.M.R. Milli Sağlamlıq Qrantları İnstitutu R01AI 063926 (I.M.R.-ə) və R37CA 089441 (Con M. Coffin-ə) tərəfindən dəstəklənib. D.J.B. Milli Sağlamlıq Qrantı R01GM 086793 (Boris I. Sraiman) tərəfindən dəstəklənmişdir. Bu məqalədəki simulyasiyalar Harvard Universitetində Tədqiqat Hesablama Qrupu tərəfindən dəstəklənən Odyssey klasterində həyata keçirilmişdir.


Genetik sürüşməni minimuma endirmək üçün strategiyalar

Sponsorlu məzmun sizə təqdim etdi

Siçan tədqiqatında genetik sabitliyin əhəmiyyəti

Orta həyat elmi tədqiqatçısı üçün siçanın genetik mənşəyi sonradan düşünülmüş, hətta bir fikir ola bilər. Tədqiqatçının əsas prioritetləri xəstəliyi anlamaq, nəşr etmək və maliyyə vəsaiti əldə etmək ola bilər. Bununla belə, bu məqsədlərə uğurla çatmaq üçün siçan koloniyasında genetik sabitliyin qorunması və ya genetik sürüşmənin qarşısının alınması böyük əhəmiyyət kəsb etməlidir.

Laboratoriya siçanları elmi tədqiqatlardakı unikal, canlı elementlərdir və həyatları boyu və ən əsası nəsildən-nəslə dəyişirlər. Axı, DNT ardıcıllığında irsi dəyişikliklər vəhşi təbiətdə növlərin müxtəlifliyi və təkamülü üçün əsasdır. Təkamül təzyiqi olmadıqda belə, DNT ardıcıllığında dəyişikliklər baş verir. İlk baxışdan bu mutasiyalar bir insanın genetik quruluşunda səssiz, əhəmiyyətsiz dalğalanmalar kimi görünür. Bununla belə, əhəmiyyətsiz görünən bu mutasiyalar izahı mümkün olmayan eksperimental təkrarlanmazlığın mənbəyinə çevrilə bilər.

Beləliklə, siçan tədqiqatçıları bir tapmaca ilə qarşılaşırlar. Tədqiqat üçün siçanların yaradılması yetişdirmə tələb edir. Lakin, yetişdirmə ilə genetik müxtəlifliyi yaymaq və beləliklə, eksperimental müxtəlifliyi yaymaq üçün xas risk gəlir. Bir təcrübədən digərinə və bir nəşrdən digərinə məlumat müxtəlifliyi elmi tərəqqi üçün əlverişsizdir.

Bu məqalənin məqsədi siçan tədqiqatçılarını tədqiqatın gedişinə təsir etmək üçün genetik sürüşmə potensialı haqqında maarifləndirmək, sürüşməni minimuma endirmək üçün ən yaxşı təcrübələri vurğulamaq və siçan koloniyasında baş verərsə, əks sürüşmə üçün həllər təqdim etməkdir. Tam rəsmi siçan ştamm nomenklaturasından istifadə və nəşrlərdə və qrant təkliflərində damazlıq nəsil məlumatlarının diqqətli şəkildə təqdim edilməsi tədqiqatçıların təkrar istehsal qabiliyyətini və heyvanların məsuliyyətli istifadəsini təşviq edən bəzi sadə təcrübələrdir.

Genetik sürüşmə necə yaranır və onun siçan koloniyalarında yayılması

Inbreeding və ya qardaş cütləşməsi siçan genomunda hər bir genetik lokusda heterozigotluğu azaltmaq üçün güclü üsuldur, fenotipdə vahidliyə imkan verir və eksperimental reproduktivlik üçün əsas yaradır. Genetik homozigotluq nəzarət və eksperimental qrup arasında tək dəyişənin müqayisəsinə imkan verir və beləliklə, oxunuşda hər hansı fərqləri həmin dəyişənə aid etmək imkanı verir.

Təbiətdəki növlər kimi, bir-birindən təcrid olunmuş laboratoriya siçan suşlarının iki populyasiyası zamanla dəyişəcək. Spontan mutasiyalar tək nukleotid polimorfizmləri (SNP), delesiyalar, inversiyalar, dublikasiyalar və DNT replikasiyası və meioz zamanı bu kimi digər xətalar şəklində baş verə bilər. Təsadüfi olaraq populyasiyada spontan mutasiyaların meydana çıxması, yox olması və ya sabitləşməsi prosesi genetik sürüşmə adlanır (Lee Silver, 1995).

Hər hansı aktiv çoxalma koloniyasında baş verən genetik sürüşmənin miqdarı dəyişir, lakin tez-tez olacağı proqnozlaşdırılır. Orta çoxalma nəsli 3-4 aydır, siçanlar isə 5-8 həftəlik yaşda cinsi yetkinləşirlər. Nəsillər adətən cütləşmədən təxminən 3 həftə sonra doğulur. 1 milyondan çox siçanda ölçülən palto rəng mutasiyalarından hesablanmış spontan mutasiya nisbətlərinə əsasən, hər 1,8 damazlıq nəsildə 1 fenotipik mutasiya yarana bilər (Drake et al., 1998 Russell and Russell, 1996).

Mikrob xəttində spontan mutasiya daşıyan siçanın yetişdirilməsi və beləliklə də bu mutasiyanın yayılması riski kiçik koloniyalarda böyük koloniyalara nisbətən daha yüksəkdir (Şəkil 1A). Siçandakı hər hansı bir mikrob xətti mutasiyası üçün onun nəslinin təxminən yarısı bu mutasiya üçün heterozigot olacaq (Şəkil 1B). Inbred yetişdirmə koloniyalarında bu mutasiyaların populyasiyada sabit (homozigot) olma ehtimalı 25% olur (Chamary və Hurst, 2004 Drake et al., 1998).

Şəkil 1. Spontan mutasiyanın yayılma riski böyük koloniyalara nisbətən kiçik koloniyalarda daha yüksəkdir. A) Hər hansı verilmiş mutasiyanı (açıq göy) daşıyan siçanın çoxalma üçün istifadə etmə ehtimalı kiçik koloniyada böyük koloniyadan daha yüksəkdir. B) Hər bir yetişdirmə mərhələsində yeni mutasiyanın populyasiyada daha çox yerləşməsi ehtimalı 25% olur. Məsələn, Mendel irsi F1 nəslinin mutasiya üçün 50% vəhşi tipdən (boz) və 50% heterozigotdan (açıq mavi) ibarət olacağını proqnozlaşdırır. Əgər təsadüfən 2 heterozigot seleksiyaçı kimi istifadə olunarsa, F2 nəsli 25% vəhşi tip, 50% heterozigot və 25% homozigotdan (tünd göy) ibarət olacaqdır. Bu, bütün koloniya mutasiya üçün homozigot sabitləşənə qədər davam edə bilər (F3, F4). Bununla belə, genom yetişdirmə üçün istifadə edilən siçanların genotiplərindən asılı olaraq hər iki istiqamətdə sürüşə bilər – mutasiyanın sabitləşmə ehtimalı onun koloniyadan tamamilə itirilməsi ehtimalına bərabərdir.

Genetik sürüşmənin baş verdiyini göstərən əlamətlər: Substrain təyinatları

Cədvəl 1. Siçan substrain nomenklaturasında tapılan ümumi laboratoriya kodları. Laborator Heyvanları Tədqiqat İnstitutu (ILAR) siçan koloniyalarını yaradan və saxlayan institutlar, laboratoriyalar və ya fərdi tədqiqatçılar üçün unikal identifikatorlar təyin edir və saxlayır.

Substrain ana koloniyadan genetik cəhətdən fərqli olduğu şübhələnən və ya məlum olan inbred ştamın qoludur (www.informatics.jax.org/mgihome/nomen/strains.shtml#substrains). Genetik sürüşmə hər hansı bir inbred ştamın iki populyasiyasında diferensial şəkildə baş verə bildiyinə görə, substrain təyinatı nomenklaturanın mühüm tərkib hissəsidir. Substrainlər Laboratoriya Heyvanları Tədqiqatları İnstitutu (ILAR) tərəfindən təyin edilmiş unikal laboratoriya kodunu əlavə etməklə təyin edilir (dels.nas.edu/global/ilar/Lab-Codes). Laboratoriya kodu müəyyən bir heyvan ştamını istehsal edən və ya saxlayan institutu, laboratoriyanı və ya müstəntiqi müəyyən edir (Cədvəl 1). Because lab codes accumulate in the nomenclature, the strain’s genealogy is understood from the name alone. For example, strain C57BL/6NJ was maintained for many years at the National Institutes of Health (N) and is now distributed by The Jackson Laboratory (J) (Şəkil 3). By extension, the substrain nomenclature gives a general indication that genetic variation between two strains exists.

Suspected genetic differences: Generation number

Figure 2. Substrain development. Substrains develop after 20 consecutive generations of inbreeding. While these labs have not surpassed 20 breeding generations individually, Lab A and Lab B are separated from each other by 20 generations. Appending laboratory codes to strain names can give a general indication of whether genetic drift has occurred in one substrain versus another.

Any strain that has been maintained separately from the parental strain for 20 consecutive inbred generations (

5-6 years) is suspected to carry genetic differences, and is therefore considered a substrain. Additionally, breeding generations are cumulative, such that if two labs obtain mice from the same common ancestor and breed for 10 generations, each lab has a different substrain from one another because the two strains are considered 20 generations apart (Şəkil 2).

The very first inbred mouse strains (including C57BL/6, DBA, C3H, BALB, CBA, and others) used for biological research were established almost 100 years ago and continue to be heavily published today. Because these strains exceed 200 inbred generations and because multiple institutions worldwide breed them, a considerable amount of genetic drift has occurred over time in all of these strains. Because of genetic drift, it is possible that observations made in existing substrains differ from observations made in the parental inbred strains from which they were derived.

Known genetic differences: Substrain designation by observed phenotypic differences

Additionally, substrains are designated when a difference in phenotype is observed between two groups of inbred mice. However, unless these spontaneous mutations manifest obvious phenotypes, frequently after they become fixed homozygous in the colony, and attentive colony managers or researchers recognize something “off” about the mice, the mutations may be carried in a strain unnoticed for years. Thus, identifying drift may depend on individual labs asking questions whose answers happen to rely on such mutations, to recognize that “unexpected results” are more than just “failed experiments,” and later to identify the mutation that is responsible for the aberrant phenotype.

For example, the parental inbred strain C3H gave rise to two substrains from two Jackson Laboratory researchers, which for many years, did not seem to differ. Dr. Walter Heston bred the strain in the 1930’s (now C3H/HeJ). In 1952, Heston transferred some of his mice to another Jackson Laboratory researcher, Dr. Henry Outzen (now C3H/HeOuJ). In the late 1960s, Heston’s strain was found to be resistant to lipopolysaccharide (LPS), whereas Outzen’s strain remained sensitive.

Later, the mutation was mapped to Tlr4, a gene involved in pathogen recognition and innate immune system activation (Poltorak et al., 1998a Watson et al., 1978). By the time the C to A substitution at nucleotide 2342 was identified in Tlr4, it had already become fixed in the Heston substrain, likely between 1958 and 1965 (Poltorak et al., 1998b). Had Heston’s C3H substrain never been treated with LPS, it is possible that the Tlr4 mutation would not have been identified and conclusions involving basic immunology in these strains may have become highly controversial.

Known genomic sequences are substrain-specific

Aside from chance discoveries, the only way to definitively identify whether genetic drift has occurred is to sequence the strain and compare to reference genomes. A C57BL/6J female was the first mouse to be completely sequenced by the Mouse Genome Sequencing Consortium (Chinwalla et al., 2002), www.ensembl.org/Mus_musculus). To date, 15 other major inbred mouse strains have been fully sequenced, all of which are “J” substrains, the official ILAR laboratory code for The Jackson Laboratory (Adams et al., 2015), www.ensembl.org/Mus_musculus/Info/Strains) (Cədvəl 2).

An additional 20+ inbred strains have been sequenced using short-read approaches to identify SNPs, indels, and structural variations relative to the C57BL/6J mouse reference genome (Frazer et al., 2007 and www.sanger. ac.uk/science/data/mouse-genomes-project). Furthermore, known SNP data for specific substrains can be found and compared in the Mouse Phenome Database (MPD), a collaborative standardized collection of genotypic and phenotypic data on the most commonly published mouse strains (phenome.jax.org).

Table 2. Common laboratory codes found in mouse substrain nomenclature. The Institute for Laboratory Animal Research (ILAR) assigns and maintains unique identifiers for institutes, laboratories, or individual investigators who create and maintain mouse colonies.

Genetic background impacts research conclusions

As described earlier with the C3H example, substrains may acquire spontaneous mutations that have the potential to influence research conclusions. If these experiments are not properly controlled for, such as through use of appropriate substrain, disastrous consequences on experimental reproducibility may ensue. Whether these spontaneous mutations arise in a repository, from a vendor, or in individual laboratories, how can researchers know which is the “best” substrain to use for their experiments?

Unfortunately, there isn’t an easy answer. The best way to determine whether genetic background matters is to perform controlled, side-by-side experiments and compare. Since it is impossible to test every substrain that exists for a particular experimental readout, the next best way to understand the potential impact of genetic background on research conclusions is to rely on what other researchers have observed, in the form of peer-reviewed, published literature and to continue experiments that build on such knowledge using identical substrains.

Conclusion

Genetic drift is an inevitable reality in actively breeding mouse colonies and may deeply impact research conclusions and reproducibility. While genetic drift cannot be eliminated completely, colony management strategies can be implemented both in individual laboratories and in large mouse repositories and vendors to maintain genetic stability. Reproducibility and scientific discovery rely on careful reporting of complete mouse substrain 17


One gene, many mutations: Key that controls coat color in mice evolved nine times

For deer mice living in the Nebraska Sandhills, color can be the difference between life and death.

When the dark-coated mice first colonized the region, they stood out starkly against the light-colored, sandy soil, making them easy prey for predators. Over the next 8,000 years, however, the mice evolved a system of camouflage, with lighter coats, changes in the stripe on their tails, and changes in body pigment that allowed them to blend into their habitat.

Now Harvard researchers are using their example to answer one of the fundamental questions about evolution. Is it a process marked by large leaps -- single mutations that result in dramatic changes in an organism -- or is it the result of many smaller changes that accumulate over time?

As described in a March 15 paper in the journal Elm, a team of researchers, including former Harvard postdoctoral fellow Catherine Linnen, now an assistant professor at the University of Kentucky, and led by Hopi Hoekstra, Harvard professor of organismic and evolutionary biology and molecular and cellular biology, were able to show that the changes in mouse coat color were the result not of a single mutation but of at least nine mutations within a single gene.

"The findings demonstrate how the cumulative effect of natural selection, acting on many small genetic changes, can produce rapid and dramatic change," said Linnen, the first author of the paper. "This helps us to understand, from a genetic perspective, the uncanny fit between so many organisms and their environments. By acting on many small changes, rather than a handful of large ones, natural selection can produce very finely honed adaptations."

Surprisingly, Hoekstra said, that honing occurred in a single gene.

The role of this gene, called agouti, in camouflage was first discovered by Linnen, Hoekstra, and colleagues in 2009, and it is responsible for changes in pigmentation in the coats of many animals. Every domesticated black cat, for example, has a DNA deletion in the gene.

What surprised Hoekstra and her team, however, wasn't that the gene was involved, but that each of the nine mutations were tied to a unique change in the animal's coats, that all the new mutations led to more camouflaging color, and that the mutations occurred in a relatively short, 8,000-year timeframe.

"Essentially, it seems as though these mutations -- each of which makes the mouse a little lighter and more camouflaged -- have accumulated over time," Hoekstra said.

Focusing on these mutations, researchers then examined the DNA of natural populations of the mice to determine whether the mutations are actually beneficial.

"For each of the mutations associated with color change, we also find a signal that's consistent with positive selection," Hoekstra said. "That implies that each of the specific changes to pigmentation is beneficial. This is consistent with the story we are telling, about how these mutations are fine-tuning this trait."

While the findings offer valuable insight into the way that natural selection operates, Hoekstra said they also highlight the importance of following research questions to their ultimate end.

"The question has always been whether evolution is dominated by these big leaps or smaller steps," she said. "When we first implicated the agouti gene, we could have stopped there and concluded that evolution takes these big steps as only one major gene was involved, but that would have been wrong. When we looked more closely, within this gene, we found that even within this single locus, there are, in fact, many small steps."

Going forward, Hoekstra said, her team hopes to understand the order in which the mutations happened, which would allow it to reconstruct how the mice changed over time.

"For evolutionary biologists, this is exciting because we want to learn about the past, but we only have data from the present to study it," she said. "This ability to go back in time and reconstruct an evolutionary path is very exciting, and I think this data set is uniquely suited for this type of time travel."

Taking the time to understand not only which genes are involved but which specific mutations may be driving natural selection, Hoekstra said, can give researchers a much fuller picture of not only the molecular mechanisms by which mutations alter traits, but also the evolutionary history of an organism.

"By doing this, we've discovered all kinds of new things," she said. "While we often think about changes happening in the entire genome, our results suggest that even within a very basic unit -- the gene -- we can see evidence for evolutionary fine-tuning."


Model

We consider a large population of haploid individuals with time-dependent population size Nt. The population dynamics are modeled as a time-inhomogeneous birth–death process with birth and death rates b(t, Nt) və d(t, Nt):

The impact of the changes in the external environment on the population size is reflected in the explicit time-dependence of the rates on t. The dependence on Nt accounts for density-dependence [məs., logistic: ]. We call the growth parameter. Obviously, the expected change of Nt over a small time interval dt reads

Consider now two alleles, a beneficial mutant allele A and the ancestral (resident) allele a, that segregate in the population at a single locus. Recurrent mutations in both directions are ignored. In general, birth and death rates might be different for residents and mutants. These rates can depend on time and on the (absolute) frequencies of both allelic types, allowing for general frequency-dependent selection. As a consequence, also the population dynamics depend on the allelic composition and cannot be described by Equation 1 anymore. We discuss this model in the Əlavə. For the main part of the article, however, we assume that the rates are the same for mutants and residents and that all model parameters are independent of allele frequencies. This means in particular that selection is soft yəni., changes in the allelic composition due to selection or drift do not interfere with the population dynamics. Population growth and decline of the polymorphic population are then correctly described by Equation 1.

In this setting, selection is modeled as competitive replacement between individuals, which does not change the population size, and is implemented as follows: At per capita rate ξ(t, Nt) + s(t, Nt), a mutant additionally reproduces and succeeds in replacing a randomly chosen individual from the population by its offspring. Residents do the same at rate ξ(t, Nt). Again, the selective advantage s(t, Nt) of the mutant may thus depend on the external environment (modeled by the dependence of s(t, Nt) on t) and the population size (modeled by the dependence on Nt). Changes in the number of mutants then occur at rates

The model corresponds to a continuous-time Moran model, but with a population size that may change in time. Putting b(t, Nt) = d(t, Nt) = 0, ξ(t, Nt) = 1, and s(t, Nt) = s = const. reproduces the standard Moran model (Moran 1958a,b Novozhilov və b. 2006). The free parameter ξ(t, Nt) has been introduced to our model to allow for easy interpolation to other models (see below) and additionally to make the analysis of density-dependent competition possible.

To further clarify the relation to other models, we calculate how the frequency of mutants xt := nt/Nt changes over time. Let Δx be its change in an infinitesimal time interval dt. The expectation and the variance of Δx are calculated to be (4a) (4b) with the time-dependent variance effective population size (5) In the last step we approximated Nt + 1 ≈ NtNt − 1 ≈ Nt (see section S3 of File S1 for the derivation of Equations 4a and 4b).

We see that the strength of drift, measured as , is proportional to the total rate of events in the model. The choice coincides with the strength of drift in the standard Moran model, while is consistent with the scaling in the Wright–Fisher model. In contrast to many diffusion or coalescent approaches, we do not rescale time with the effective population size (which would be impractical since itself depends on t). Generation time in the continuous-time Moran model is defined as the inverse of the total death rate of an individual, , and may again depend on time in our model.


İstinadlar

Cabot EL, Davis AW, Johnson NA, Wu CI (1994). Genetics of reproductive isolation in the Drosophila simulyatorları clade: complex epistasis underlying hybrid male sterility. Genetika 137: 175–189.

Coyne JA, Orr HA (2004). Speciation. Sinauer Associates Inc.: Sunderland, MA.

Gavrilets S (2003). Models of speciation: What have we learned in 40 years? Təkamül 57: 2197–2215.

Gavrilets S (2004). Fitness Landscapes and the Origin of Species. Princeton University Press: Princeton, New Jersey.

Gillespie JH (1984). Molecular evolution over the mutational landscape. Təkamül 38: 1116–1129.

Gillespie JH (1991). The Causes of Molecular Evolution. Oxford University Press: New York.

Haldane JBS (1927). A mathematical theory of natural and artificial selection, part V: selection and mutation. Proc Camb Phil Soc 28: 838–844.

Joyce P, Rokyta DR, Beisel CJ, Orr HA (2008). A general extreme value theory model for the adaptation of DNA sequences under strong selection and weak mutation. Genetika 180: 1627–1643.

Kondrashov AS (2003). Accumulation of Dobzhansky–Muller incompatibilities within a spatially structured population. Təkamül 57: 151–153.

Muller HJ (1942). Isolation mechanisms, evolution and temperature. Biol Symp 6: 71–125.

Navarro A, Barton NH (2003). Accumulating postzygotic isolation genes in parapatry: a new twist on chromosomal speciation. Təkamül 57: 447–459.

Nei M (1976). Mathematical models of speciation and genetic distance. In: Karlin S, Nevo E (eds). Population genetics and ecology. Academic Press Inc.: New York.

Orr HA (1995). The population genetics of speciation: the evolution of hybrid incompatibilities. Genetika 139: 1805–1813.

Orr HA (2003). The distribution of fitness effects among beneficial mutations. Genetika 163: 1519–1526.

Orr HA (2005). The probability of parallel evolution. Təkamül 59: 216–220.

Orr HA, Masly JP, Phadnis N (2007). Speciation in Drosophila: from phenotypes to molecules. J Hered 98: 103–110.

Wood TE, Burke JM, Rieseberg LH (2005). Parallel genotypic evolution: when evolution repeats itself. Genetika 123: 157–170.


Videoya baxın: Genetik Testi Nasıl Yapılır, Nedir, Neden İstenir? (Iyun 2022).