Məlumat

Kimuranın iki parametrli modelində nukleotid tezlikləri

Kimuranın iki parametrli modelində nukleotid tezlikləri


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Kimuranın Felsenstein's Inferring Phylogenies-dən iki parametrli modeli haqqında bir parça:

"Model simmetrikdir və kifayət qədər vaxt keçdikdən sonra bazanın purin və ya pirimidin olma ehtimalının eyni dərəcədə olacağını dərhal görmək olar."

Düşünürəm ki, modelin fərziyyələrini başa düşürəm, lakin tarazlıq tezliklərinin niyə bərabər olduğu mənə aydın deyil. Niyə belədir?


Əgər kifayət qədər vaxt keçibsə, ilkin baza ilə son vəziyyət arasında çoxlu sayda keçid olacaq. Buna görə ilkin vəziyyətin əhəmiyyəti olmayacaq.

Deyin ki, təsadüfi fasilələrlə bir sikkə çevirirsiniz (çevirin, atmayın). Qısa müddət və bir neçə dəfə çevirmə üçün ilkin vəziyyət əhəmiyyətli olacaq. Ancaq minilliklər ərzində onu çevirməyə davam etsəniz, son vəziyyət mahiyyətcə təsadüfi olacaq - başlanğıcda orada nə olduğunu deyə bilməyəcəksiniz.


Onurğalıların mitoxondrial zülal kodlayan genlərində nukleotidlərin dəyişdirilməsinin nümunələri

Onurğalıların mitoxondrial zülal kodlaşdıran genlərində dörd nukleotid və müxtəlif nukleotid yerləri arasında əvəzetmə dərəcələrindəki fərqləri öyrənmək üçün maksimum ehtimal metodlarından istifadə edilmişdir. 1-ci + 2-ci kodon mövqeyi məlumatlarında, nukleotid G-nin tezliyi genlərin təkamül sürəti ilə mənfi korrelyasiya edilir, əvəzetmə dərəcələri sahələr arasında əhəmiyyətli dərəcədə dəyişir və keçid/transversiya sürətinin meyli (R) gözləniləndən iki-beş dəfə böyükdür. təsadüfi. Ümumiyyətlə, ən böyük keçid meylləri və saytlar arasında əvəzetmə nisbətlərində ən böyük fərqlər yüksək dərəcədə qorunan genlərdə olur. Plasental məməli genlərində 3-cü mövqelər güclü nukleotid tərkibinin qərəzliliyini nümayiş etdirir və keçid sürətləri transversiya sürətlərini bir-iki böyüklük sırası ilə üstələyir. Tamura-Nei və Hasegawa-Kishino-Yano modelləri qamma paylanmış dəyişən dərəcələri saytlar arasında (qamma parametri, alfa) 1-ci + 2-ci mövqe məlumatlarında nukleotidlərin dəyişdirilməsi prosesini adekvat şəkildə təsvir edir. Bu məlumatlarda, saytlar arasında əvəzetmə dərəcələrindəki fərqlərə məhəl qoymamaq əvəzetmə dərəcələrini təxmin edərkən ən böyük qərəzliliyə gətirib çıxarır. Kimura-nın saytlar arasında dəyişən dərəcələri olan iki parametrli modeli 1-ci+2-ci mövqe məlumatları üçün R, alfa və ümumi təkamül miqdarının ehtimal qiymətləndirməsində qənaətbəxş şəkildə çıxış edir. O, həmçinin genlərin əksəriyyəti üçün uyğun alfa dəyərləri ilə cüt məsafələri qiymətləndirmək üçün istifadə edilə bilər.


DNADIST -- Nukleotid ardıcıllığından məsafə matrisini hesablamaq üçün proqram

Proqram nukleotid ardıcıllığı ilə oxuyur və məsafə matrisini ehtiva edən çıxış faylını yazır. Nukleotidlərin dəyişdirilməsinin üç modeli Jukes və Cantor (1969), Kimura (1980) modelləri və mənim maksimum ehtimal filogeniya proqramım DNAML-də istifadə olunan modeldir. Kimura modelinin Jin və Nei (1990) tərəfindən müxtəlif yerlərdə qeyri-bərabər əvəzetmə dərəcələrinə imkan verən modifikasiyası da başqa bir variasiya kimi mövcuddur. Proqram müxtəlif ardıcıl qeyri-müəyyənlikləri düzgün nəzərə alır, baxmayaraq ki, onların mövcud olduğu hallarda yavaş ola bilər.

Jukes və Cantorun (1969) modeli bütün yerlərdə bərabər ehtimalla müstəqil dəyişiklik olduğunu fərz edir. Baza dəyişikliyinin onun şəxsiyyətindən asılı olub-olmaması və dəyişdiyi zaman digər üç əsasın hər biri ilə bitmə ehtimalı bərabərdir. Beləliklə, keçid ehtimalı matrisi (bu, ehtimal nəzəriyyəsindən texniki termindir və keçidlərdən fərqli olaraq keçidlərlə heç bir əlaqəsi yoxdur) dt qısa müddət ərzində belədir: burada a - u dt, vahidə düşən əvəzetmə sürətinin hasilidir. vaxt (u) və zaman intervalının uzunluğu dt. Daha uzun müddətlər üçün bu o deməkdir ki, müəyyən bir yerdə iki ardıcıllığın fərqli olma ehtimalı belədir: və deməli, əgər biz p-ni müşahidə etsək, Kimura "2-parametrini əldə etmək üçün bunu tərsinə çevirməklə ut budaq uzunluğunun təxmini hesablamasını hesablaya bilərik. " model demək olar ki, bu qədər simmetrikdir, lakin keçid və keçid sürətləri arasında fərqə imkan verir. Qısa zaman intervalı üçün onun keçid ehtimalı matrisi belədir: burada a u dt-dir, zaman vahidi üçün keçid sürətinin hasili və dt zaman intervalının uzunluğu dt, b isə v dt-dir, yarısının hasilidir. transversiyaların sürəti (yəni, xüsusi transversiya sürəti) və vaxt intervalının uzunluğu dt.

İstifadə olunan üçüncü model müxtəlif keçid və transversiya sürətlərini özündə birləşdirən, eyni zamanda dörd nukleotidin müxtəlif tezliklərinə imkan verən modeldir. Bu, DNAML-də istifadə olunan modeldir, bu paketdəki maksimum ehtimal nücelotid ardıcıllığı filogeniya proqramı. Siz həmin proqram üçün sənəddə təsvir olunan modeli tapa bilərsiniz. Bu model üçün keçid ehtimalları da Kişino və Haseqava (1989) tərəfindən verilmişdir.

Üç model bir-biri ilə sıx bağlıdır. DNAML modeli, dörd əsasın tarazlıq tezliklərinin bərabər olduğunu fərz etsək, Kimuranın iki parametrli modelinə endirilir. Jukes-Cantor modeli öz növbəsində a = b olduğu Kimura 2-parametrli modelinin xüsusi halıdır. Beləliklə, hər bir model ondan sonra gələnlərin xüsusi halıdır, Jukes-Cantor isə hər ikisinin xüsusi halıdır.

Jin və Nei (1990) məsafəsi Kimura-nın əsas əvəzetmə modelindən istifadə edir, lakin əvəzetmə sürətinin istifadəçi tərəfindən müəyyən edilən dəyişmə əmsalı ilə qamma paylanmasına uyğun olaraq saytdan sayta dəyişdiyini fərz edir. Menyuda bu seçimi seçərkən istifadəçidən bunu tələb edirlər.

Hesablanan hər bir məsafə həmin növlər cütündən bu iki növ arasındakı fərqin vaxtının təxminiidir. Jukes-Cantor modeli üçün, iki ardıcıllıqdakı nukleotid simvollarının hamısı ya A, C, G, T, U, N, X, ?, ya da - olduqda, qiymətləndirmə yuxarıda verilmiş ut formulundan istifadə etməklə hesablanır. (sonuncu dördü silinməni və ya naməlum nukleotidi göstərir. Bu təxmin həmin model üçün maksimum ehtimal təxminidir. Kimura 2-parametrli model üçün yalnız bu nukleotid simvolları ilə həmin təxmin üçün xüsusi düsturlar da hesablanır. Bunlar həmçinin, faktiki olaraq, həmin model üçün maksimum ehtimal təxmininin hesablanması. Kimura vəziyyətində bu, yalnız ardıcıllığın uzunluğu və bu iki ardıcıllıq arasında müşahidə olunan keçid və transversiya fərqlərinin sayı vasitəsilə müşahidə olunan ardıcıllıqlardan asılıdır. Bu halda hesablama maksimum ehtimaldır. təxmin edin və Kimuranın orijinal məqaləsindəki düsturlardan əldə edilən təxminlərdən bir qədər fərqlənəcək.Bu düstur həm də maksimum ehtimal təxmini idi, lakin keçid/transversiya nisbəti ayrıca empirik olaraq qiymətləndirildi. hər bir cüt ardıcıllıq üçün. İndiki halda, hesablamaları çətinləşdirən, lakin müxtəlif müqayisələr arasında daha böyük uyğunluq əldə edən ümumi əvvəlcədən təyin edilmiş keçid/transversiya nisbətindən istifadə edilir.

DNAML modeli üçün və ya bir və ya hər iki ardıcıllığın Y, R və s. kimi digər qeyri-müəyyənlik kodonlarından ən azı birini ehtiva etdiyi modellərdən hər hansı biri üçün ilkin olaraq DNAML üçün yazılmış koddan istifadə etməklə maksimum ehtimalın hesablanması da aparılır. Onun dezavantajı yavaş olmasıdır. Nəticədə yaranan məsafə əslində iki ardıcıllığın fərqinin (aralarındakı ümumi budaq uzunluğu) maksimum ehtimal təxminidir. Lakin indiki proqram 3.5-dən əvvəlki versiyalardan çox daha sürətli olacaq, çünki mən təkrarlamaları sürətləndirmişəm.

Nəzərə alın ki, bütün saytlara, o cümlədən heç dəyişməmiş saytlara baxdığımız bir fərziyyə var. Bəzi saytlara diqqəti onların dəyişib-dəyişmədiyinə görə məhdudlaşdırmamaq vacibdir ki, bu, onları çox böyük etməklə məsafələri qərəzləndirəcək və bu da öz növbəsində məsafələrin dəyişmiş saytların mənasını yanlış şərh etməsinə səbəb olacaq.

Bu proqramdakı əsas yenilik ondan ibarətdir ki, bütün bu məsafə metodları üçün proqram bizə “üçüncü mövqe” əsaslarının birinci və ikinci mövqelərdən fərqli əvəzetmə sürətinə malik olduğunu, intronların ekzonlardan fərqli sürətə malik olduğunu və müəyyən etməyə imkan verir. s. Kateqoriyalar seçimi bizə 9-a qədər sayt kateqoriyası yaratmağa və onlar üçün müxtəlif dəyişiklik dərəcələrini təyin etməyə imkan verir. Nəzərə alın ki, bu Kateqoriyalar seçimi DNAML və DNAMLK-da istifadə ediləndən fərqlidir, burada hansı saytların hansı kateqoriyalara aid olduğunu dəqiqləşdirməyə ehtiyac yoxdur.

GİRİŞ FORMATI VƏ SEÇİMLƏR

Giriş bir əlavə ilə kifayət qədər standartdır. Həmişə olduğu kimi faylın birinci sətirində növlərin və saytların sayı göstərilir. Kateqoriyalar və ya Çəki seçimləri istifadə olunursa, aşağıdakı C və ya W simvolları verilir.

Sonra növlər haqqında məlumatlar gəlir. Hər ardıcıllıq yeni sətirdən başlayır, on simvoldan ibarət növ adı var ki, bu uzunluqda boşluq doldurulmalı və dərhal bir hərfli koddakı növ məlumatları izlənilir. Ardıcıllıqlar ya Molekulyar Ardıcıllıq Proqramları sənədlərində təsvir olunan "aralıq" və ya "ardıcıl" formatlarda olmalıdır. I variantı onların arasında seçim edir. Ardıcıllıqda ardıcıllıqda daxili boşluqlar ola bilər, lakin bitmiş sətrin sonunda əlavə boşluqlar olmamalıdır. Qeyd edək ki, boşluq silinmə üçün etibarlı simvol deyil.

Bundan sonra aşağıda təsvir olunduğu kimi C və W seçimləri üçün məlumatı ehtiva edən sətirlər (əgər varsa).

Seçimlər interaktiv menyu vasitəsilə seçilir. Menyu belə görünür: İstifadəçi ya göstərilən parametrlər qəbul ediləcəksə, ya "Y" yazır (ardınca, əlbəttə ki, vaqon-qaytarma), ya da dəyişdirilməli olan seçimə uyğun gələn hərf və ya rəqəm.

M və 0 variantları adi olanlardır. Onlar bu paketin əsas sənəd faylında təsvir edilmişdir. Variant I digər molekulyar ardıcıllıq proqramları ilə eynidir və molekulyar ardıcıllıq proqramlarının sənədləşmə faylında təsvir edilmişdir.

D seçimi dörd məsafə metodundan birini seçir. Üç üsul arasında dəyişir. Defolt üsul, heç biri göstərilməyibsə, Kimura 2-dir.

parametr modeli. Nei/Jin məsafəsi seçilərsə, istifadəçidən saytlar arasında əvəzetmə sürətinin dəyişmə əmsalını təqdim etməsi tələb olunacaq. Bu, Nei və Jin tərəfindən istifadə edilən parametrlərdən fərqlidir, lakin onlarla əlaqəlidir: onların parametrləri a ilə dəyişmə əmsalı ilə bağlıdır (onların parametri b burada zamanın miqyaslanması tələbi ilə udulur ki, təkamülün orta sürəti 1 olsun. vahid vaxta, bu o deməkdir ki, a = b). Dərəcələrin daha az dəyişkən olduğu halları nəzərdən keçirərkən, CV getdikcə kiçikləşdikcə daha böyük və daha böyük təyin etməliyik.

F (Tezliklər) seçimi Maksimum Ehtimal məsafəsi seçildikdə görünür. Bu məsafə proqramın dörd A, C, G və T (və ya U) əsaslarının tarazlıq tezlikləri ilə təmin edilməsini tələb edir. Onun standart parametri istifadəçilərə çox vaxt qənaət edə biləcək parametrdir. Əgər siz giriş ardıcıllıqlarında müşahidə olunan əsasların empirik tezliklərini əsas tezliklər kimi istifadə etmək istəyirsinizsə, sadəcə F seçiminin standart parametrindən istifadə edin. Bu empirik tezliklər, əslində, əsas tezliklərin maksimum ehtimal təxminləri deyil, lakin onlar çox vaxt həmin dəyərlərə yaxın olacaqlar (onlar "ulduz" və ya "partlayış" filogeniyasında maksimum ehtimal təxminləridir). F seçiminin parametrlərini dəyişdirsəniz, sizdən dörd bazanın tezlikləri istəniləcək. Bunlar 1-ə əlavə edilməlidir və vergüllə deyil, boşluqlarla ayrılmış bir sətirdə yazılmalıdır.

Bu proqramdakı T seçimi Eşik üçün deyil, bunun əvəzinə Keçid/transversiya seçimidir. Keçidlərin çevrilmələrə gözlənilən nisbəti kimi istifadəçidən 0.0-dan çox real rəqəm tələb olunur. Qeyd edək ki, bu, birinci və ikinci növ hadisələrin nisbəti deyil, nəticədə gözlənilən keçidlərin keçidlərə nisbətidir. Bu iki kəmiyyət arasındakı dəqiq əlaqə əsas hovuzlardakı tezliklərdən asılıdır. T seçimini istifadə etməsəniz, T parametrinin standart dəyəri 2.0-dır.

C (Kateqoriyalar) variantı müxtəlif yerlərdə nisbi əvəzetmə dərəcələrini özündə cəmləşdirən seçimdir. Saytlar doqquz kateqoriyaya bölünür. Siz bu kateqoriyalarda nisbi əvəzetmə dərəcələrini müəyyən etməlisiniz. Kateqoriya seçimi sizdən neçə kateqoriya ola biləcəyini (maksimum 9-a qədər) müəyyən etməyi və sonra kateqoriyalardakı nisbi dəyişiklik dərəcələrini daxil etməyi xahiş edir, çünki eyni sətirdə qeyri-mənfi real ədədlər vergüllə deyil, boşluqlarla ayrılır. . Əgər siz C seçimindən istifadə etmirsinizsə, o zaman 1.0 dərəcəsi olan bir kateqoriya mövcuddur.

Bu xəttə əlavə olaraq, C variantının istifadəsi saytları kateqoriyalarla əlaqələndirən bir məlumat tələb edir. Bu, giriş faylının ilkin sətirindən sonra, həmçinin çəkilər olan sətirlərdən sonra, əgər varsa, ardıcıllıqlardan əvvəl yerləşdirilən bir və ya bir neçə sətirdir. O, növ adının maksimum uzunluğuna çatana qədər ilk simvolları nəzərə alınmayan sətirdən ibarətdir (buna görə də növ adları paylanmış proqramda olduğu kimi maksimum on simvoldan ibarətdirsə, birinci yerə KATEQORİYALARI qoymaq rahatdır) bu xəttin on simvolu, sadəcə özünüzə bunun nə olduğunu xatırlatmaq üçün). Daha sonra sətirdə hər bir saytın hansı kateqoriyaya aid olduğunu göstərən tək rəqəmlər (1-dən 9-a qədər) var. Məlumat istənilən vaxt bu rəqəmlərin ortasında yeni sətirlə davam edə bilər. Məsələn, xətt oxuya bilər: (bu, üç kodon mövqeyi, intron mövqeləri və cinah ardıcıllığı mövqeləri üçün beş kateqoriyanı təsəvvür edən bir nümunədir). Sayt faktiki olaraq onu çox yüksək gözlənilən dəyişiklik dərəcəsi olan kateqoriyaya yerləşdirməklə təhlildən çıxarıla bilər.

L seçimi çıxış faylının məsafə matrisinin aşağı üçbucaq şəklində olmasını müəyyən edir.

W (Çəkilər) seçimi adi şəkildə çağırılır, yalnız çəkilər 0 və 1-ə icazə verilir. Digərlərinə məhəl qoymayaraq, təhlil ediləcək saytlar toplusunu seçir. Seçilmiş saytlar çəkisi 1 olan saytlardır. W seçimi işə salınmazsa, bütün saytlar təhlil edilir.

ÇIXIŞ FORMATI

Məsafələr hesablanarkən, proqram növbə ilə ekranınızda və ya terminalınızda növlərin adlarını çap edir, ardınca həmin növə qədər olan məsafə hesablanmış növlər üçün bir nöqtə ("."). Beləliklə, on növ varsa, birinci növün adı, ardınca doqquz nöqtə, sonra növbəti sətirdə növbəti növün adı, ardınca səkkiz nöqtə, sonrakı növdən sonra yeddi nöqtə və s. Nöqtələrin nümunəsi üçbucaq təşkil etməlidir. Məsafə matrisi çıxış faylına yazıldıqdan sonra istifadəçiyə bu barədə məlumat verilir.

Çıxış faylı birinci sətirdə növlərin sayını ehtiva edir. Məsafə matrisi daha sonra standart formada çap olunur, hər növ növ adı ilə yeni sətirdən başlayır, ardınca növlərə olan məsafələr ardıcıllıqla verilir. Bunlar hər doqquz məsafədən sonra yeni bir xətt üzərində davam edir. L variantından istifadə edilərsə, matris və ya məsafələr daha aşağı üçbucaqlı formada olur, beləliklə yalnız hər növdən əvvəl gələn digər növlərə olan məsafələr çap olunur. Əks halda, məsafə matrisi diaqonalda sıfır məsafə ilə kvadratdır. Ümumiyyətlə, məsafə matrisinin formatı elədir ki, o, istənilən məsafə matrisi proqramlarına daxil ola bilər.

Məlumatı çap etmək seçimi seçilərsə, çıxış faylı məlumatdan əvvəl daxiletmə və menyu seçimləri haqqında daha dolğun məlumat verəcəkdir. Çıxış faylı növlərin sayını və simvolların sayını və istifadə olunan məsafə ölçüsünün şəxsiyyətini verməklə başlayır.

C (Kateqoriyalar) seçimi istifadə edilərsə, saytların hər bir kateqoriyasında gözlənilən əvəzetmənin nisbi dərəcələrinin cədvəli çap olunur və hər bir saytın daxil olduğu kateqoriyaların siyahısı çap olunur.

Daha sonra dörd bazanın tarazlıq tezliklərini izləyəcək. Jukes-Cantor və ya Kimura məsafələrindən istifadə edilərsə, bunlar mütləq 0,25 : 0,25 : 0,25 : 0,25 olacaqdır. Çıxış daha sonra defolt olaraq təyin edilmiş və ya istifadə edilən keçid/transversiya nisbətini göstərir. Jukes-Cantor məsafəsi vəziyyətində bu həmişə 0,5 olacaq. Keçid-transversiya parametri (nisbətdən fərqli olaraq) də çap olunur: bu proqram daxilində istifadə olunur və nəzərə alına bilər. Daha sonra Genbank və EMBL formatlarının xətləri boyunca on əsasdan ibarət qruplar şəklində çap edilmiş əsas ardıcıllıqla məlumat ardıcıllığını izləyin.

Çap edilmiş məsafələr, həm keçidləri, həm də keçidləri hesablamaqla, lakin bazanın öz-özünə dəyişdirilməsini nəzərə alaraq, gözlənilən əvəzetmə sayları baxımından miqyaslanır və elə miqyaslanır ki, təhlil edilən bütün saytlar üzrə orta hesabla alınan orta dəyişmə sürəti varsa, 1.0-a bərabər olsun. bir çox kateqoriyalı saytlardır. Bu o deməkdir ki, saytların çoxsaylı kateqoriyası olub-olmamasından asılı olmayaraq, çox kiçik filiallar üçün gözlənilən dəyişiklik payı filial uzunluğuna bərabərdir. Şübhəsiz ki, filial iki dəfə uzun olarsa, bu o demək deyil ki, budaqda iki dəfə çox xalis dəyişiklik gözlənilir, çünki dəyişikliklərin bəziləri eyni saytda baş verə və bir-birinin üstünə düşə və ya hətta əksinə ola bilər. Buradakı filial uzunluqlarının təxminləri gözlənilən dəyişikliklərin əsas sayları baxımındandır. Bu o deməkdir ki, uzunluğu 0,26 olan budaq, budağın əvvəlində və sonundakı nukleotid ardıcıllığı arasında 1% fərq göstərəcək bir qoldan 26 dəfə uzundur. Lakin biz filialın əvvəlində və sonunda ardıcıllığın 26% fərqli olacağını gözləməzdik, çünki bəzi dəyişikliklərin üst-üstə düşməsi olacaq.

Yarana biləcək problemlərdən biri odur ki, iki və ya daha çox növ o qədər fərqli ola bilər ki, onlar arasındakı məsafə sonsuz olmalıdır, çünki təxmin edilən divergensiya vaxtı artdıqca ehtimal qeyri-müəyyən olaraq artır. Məsələn, Jukes-Cantor modeli ilə, əgər iki ardıcıllıq mövqelərinin 75%-i və ya daha çoxunda fərqlənirsə, onda dovergensiya vaxtının təxminləri sonsuz olacaqdır. Çıxış faylında sonsuz bir məsafəni təmsil etmək üçün heç bir yol olmadığı üçün proqram bunu xəta kimi qiymətləndirir, hansı növ cütün problemə səbəb olduğunu göstərən xəta mesajı verir və dayanır. Ola bilsin ki, işləməyə davam etsəydi, digər növ cütləri ilə də eyni problemlə üzləşəcəkdi. Kimura məsafəsi istifadə olunursa, heç bir səhv mesajı olmaya bilər, proqram sadəcə böyük bir məsafə dəyəri verə bilər (sonsuzluğa doğru təkrarlanır və dəyər iterasiyanın dayandığı yerdədir). Eyni şəkildə bəzi maksimum ehtimal təxminləri də eyni səbəbdən böyük ola bilər (sonsuz budaq uzunluğunda belə gözləniləndən daha çox fərqlilik göstərən ardıcıllıqlar). Ümid edirəm ki, gələcəkdə istifadəçini bu barədə xəbərdar edəcək daha çox xəbərdarlıq mesajları əlavə edəcəyik.

PROQRAM DAVAMLARI

Proqramın əvvəlində istifadəçi tərəfindən dəyişdirilə bilən sabitlərə "maksimum kateqoriyalar", sayt kateqoriyalarının maksimum sayı, proqramın etmək üçün istifadə olunan EM alqoritmini təkrarlama sayını idarə edən "iterasiyalar" daxildir. maksimum ehtimal məsafəsi, "ad uzunluğu", simvollarla növ adlarının uzunluğu və "epsilon", məsafələri qiymətləndirən iterasiyaların nəticələrinin düzgünlüyünə nəzarət edən parametr. "epsilon"un kiçildilməsi iş vaxtını artıracaq, lakin daha çox ondalıq yerlə nəticələnəcək. Bu lazım olmamalıdır.

Proqram vaxtının çox hissəsini həqiqi hesab etməyə sərf edir. Bu hesabı sürətləndirən hər hansı proqram və ya aparat dəyişikliyi onu demək olar ki, mütənasib miqdarda sürətləndirəcək. Məsələn, rəqəmsal ortaq prosessoru olan mikrokompüterlər (məsələn, 8087, 80287 və ya 80387 çipi) proqram təminatı çağırırsa, bu proqramı olmayanlardan daha sürətli işlədəcək. Alqoritm, hər bir nümunə üçün ayrı-ayrılıqda və müstəqil hesablamalar baş verir, paralel emal üçün özünü asanlıqla verir.


Kimura modeli

Nukleotid əsasları bazanın halqa quruluşundan asılı olaraq iki kateqoriyaya bölünür.

  • Purinlər: A və ya G (bunlar iki halqa əsasıdır)
  • Pirimidinlər: C və ya T (bunlar tək halqalı əsaslardır)

DNT-dəki mutasiyalar bir bazanın digəri ilə əvəz olunduğu dəyişikliklərdir.

Üzük nömrəsini qoruyan mutasiya keçid adlanır (məsələn, A -> G, G -> A, T -> C və ya C -> T).

Üzük nömrəsini dəyişdirən mutasiya transversiya adlanır. (məsələn, A -> C, A -> T, C -> G və s.).

Təbiətdə müşahidə olunan keçidlərin sayı (yəni əlaqəli DNT ardıcıllıqlarını müqayisə edərkən) transversiyaların sayından ən azı 3 dəfə tez-tez olur.

Kimura’s İki Parametrli modeli keçidlər və keçidlər üçün bu müxtəlif dərəcələri özündə birləşdirir.

Kimura iki parametr modeli təkamül məsafəsini çıxarmaq üçün bir üsul təqdim edir ki, burada keçidlər və keçidlər ayrı-ayrılıqda P-dən istifadə edərək, bu keçidlə fərqlənən ardıcıl mövqelərin fraksiyasını və Q isə transversiya ilə fərqlənən ardıcıl mövqelərin fraksiyasını ifadə edir. Bu, keçid və transversiya üçün mutasiya dərəcələrinin fərqli olduğu fərz edildiyi daha mürəkkəb modeldir ki, bu da daha realdır. Bu modelə görə, keçidlər transversiyalardan daha tez-tez baş verir ki, bu da təkamül məsafələrinin daha real qiymətləndirilməsini təmin edir. Kimura modeli aşağıdakı düsturdan istifadə edir:

dAB =−(1/2) ln(1−2pti − ptv)−(1/4) ln(1−2ptv)

burada dAB A və B ardıcıllıqları arasında təkamül məsafəsidir (güman edilir), pti keçid üçün müşahidə edilən tezliyi, ptv isə transversiya tezliyidir. Kimura modelindən istifadə nümunəsi 30% fərqlənən A və B ardıcıllıqlarının müqayisəsi ilə göstərilə bilər. Əgər dəyişikliklərin 20%-i keçidlərin, 10%-i isə keçidlərin nəticəsidirsə, təkamül məsafəsi 1-ci tənlikdən istifadə etməklə hesablana bilər:

dAB =− 1/2 ln(1−2×0,2−0,1)−1/4 ln(1−2×0,1)=0,40

Daha ümumi tənlik 1991-ci ildə Nei tərəfindən verilmişdir. Bu, ümumi düzəlişdir. Onun tənliyi müxtəlif nukleotidlər arasında bərabər əvəzetmə dərəcələri ilə nukleotid əvəzetmələri modeli üçün uyğundur və müxtəlif nukleotid cütləri arasında qeyri-bərabər əvəzetmə dərəcələrini nəzərə almır.

Nisbətən az sayda əvəzedici varsa, əvəzetmənin sayı adətən kifayətdir.

Keçidlərin vahid sürətlə a, keçidlərin isə fərqli vahid sürətdə baş verəcəyi güman edilir

Gələcəkdə istənilən vaxt (t) saytın C-nin olması ehtimalı ilə müəyyən edilir

Bu tənliyin manipulyasiyaları vasitəsilə müəyyən etmək üçün aşağıdakı tənliyi əldə edə bilərik K:

P nukleotidlərin sadə sayının keçidlər olduğunu aşkar etdiyi fraksiya və Q sadə saymanın transversiya olduğunu göstərən nukleotidlərin hissəsidir. Keçidlər və keçidlər arasında heç bir fərq qoyulmazsa, bu tənlik sadə Jukes-Cantor tənliyinə qədər azalır.


Kimuranın iki parametrli modelində nukleotid tezlikləri - Biologiya

Xarakterin təkamülü modelləri

A model reallığın mücərrəd təsviridir. Bunlar məlumatları bir fərziyyə ilə əlaqələndirmək üçün istifadə edilə bilər və ya (başqa sözlə) məlumat üçün kontekst təmin etmək üçün istifadə edilə bilər. Modellərin elmdə bir çox istifadəsi var, lakin ümumiyyətlə, onlar alimə məlumatlarda əks halda çox xaotik ola biləcək nümunələri qavramağa və real verilənləri təqlid edən xüsusiyyətlərə malik sintetik məlumatlar yaratmağa imkan verir.

DNT ardıcıllığının təkamülünün çox istifadə edilən, yuvalanmış modelləri

Bütün nukleotidlərin bərabər tezliklərdə mövcud olduğunu fərz edir

Bütün mümkün nukleotid əvəzetmələri üçün bərabər ehtimalları qəbul edir

Əgər mutasiya dərəcəsi olarsa u, onda 4 nukleotidlə əvəzlənmə ehtimalı (4/3)u.

Hər vahid zamanda, dt, heç bir hadisənin baş verməməsi ehtimalı

Bütün nukleotidlərin bərabər tezliklərdə mövcud olduğunu fərz edir

Nukleotid tezliyi

Keçid-transversiya nisbəti

Ümumi vaxt geri çevrilə bilər

Əlavə variantlar

Parametr nədir?

Parametrlərin qiymətləndirilməsi

Ehtimal kontekstində model və hipotez dəyişdirilə bilər

Beləliklə, ağac topologiyası ilə yanaşı parametr dəyərlərini də qiymətləndirmək üçün ehtimaldan istifadə etmək olar

Ağac topologiyasını sabit saxlamaq və ondan parametrləri müəyyən etmək ümumiyyətlə ən sürətlidir

Parametrlər oxşar ağaclar arasında çox fərqli olmadığından, parametrləri hər hansı ağlabatan ağacda qiymətləndirmək adətən təhlükəsizdir.

Parametrlərin qiymətləndirilməsinin bu formasının dairəvi əsaslandırmaları ehtiva etməsi ilə bağlı narahatlıq tez-tez qaldırılır.

Bu, haqlı narahatlıq doğurur.

Bununla belə, parametrlərin qiymətləndirilməsi və topologiyanın axtarışı qlobal optimallaşdırmanın ümumi prosesinin bir hissəsidir.

Beləliklə, əsl narahatlıq ondan ibarətdir ki, parametrlərin qiymətləndirilməsi qlobal deyil, yerli optimallığa səbəb olacaqdır.

Həm də qiymətləndirilən hər bir ağac üçün parametrləri yenidən qiymətləndirmək olar, lakin bu, çox yavaş olardı.

Bu narahatlıqları araşdırmaq üçün müxtəlif ağac topologiyalarından başlayaraq parametrlərin qiymətləndirilməsinə cəhd etməlisiniz.

Həmçinin, bir "star" filogeniyasında (tamamilə həll edilməmiş ağac) parametrləri məsafə matrisindən və ya Monte Karlo simulyasiyası ilə qiymətləndirmək olar.

Saytdan sayta nisbət dəyişikliyi modelləri

İnvariant saytlar modeli DNArates modeli

Qamma paylanması

İnvariant saytlar + qamma

Parsimoniya üsulları ilə edilən fərziyyələr

A C G T
A -3 a a a a
C a -3 a a a
G a a -3 a a
T a a a -3 a

A C G T
A - a-2b b a b
C b - a-2b b a
G a b - a-2b b
T b a b - a-2b

Hasegawa, Kişino, Yano 1985 (HKY85)

A C G T
A -m ( kp G + s Y ) mp C mkp G mp T
C mp A -m (kp T+ səh R mp G mkp T
G mkp A mp C -m (kp A+ səh Y mp T
T mp A mkp C mp G -m (kp C+ səh R

Burada a = m, b = m k, p R = p A + p G və p Y = səh C + p T

Nümunələr

Uzaqdan əlaqəli iki ardıcıllığı nəzərdən keçirin:

d xy = 1-(a+f+k+p) = 1-(0,1+0,1+0,1+0,1) = 0,60

e natural loqarifmlərin əsasıdır və z = 1 olduqda eksponensial funksiyanın həddidir. Natural loqarifmlər üçün əsasdır.

Puasson paylanması binomial paylanmanın təqribidir və hadisənin baş vermə ehtimalının kiçik olduğu hallarda istifadə etmək məqsədəuyğundur, lakin bunun baş verməsi üçün çoxlu imkanlar var.


Kimuranın iki parametrli modelində nukleotid tezlikləri - Biologiya

Bu modellərin əksəriyyətinin mühüm çatışmazlığı molekulun yerləri arasında əvəzetmə sürətindəki fərqləri nəzərə almamasıdır (daha bax).

Jukes və Cantorun əvəzetmə modeli, eyni zamanda bir parametrli model adlanır, hər bir sahə üzrə nukleotid əvəzetmələrinin sayını qiymətləndirmək üçün mövcud olan ən sadə modeldir və yəqin ki, hələ də ən çox istifadə olunan modeldir.

    Kimura (1980) keçidlərin və keçidlərin ayrı-ayrılıqda nəzərdən keçirildiyi təkamül məsafəsini çıxarmaq üçün bir üsul təqdim etdi:
    burada P bir keçid ilə fərqlənən ardıcıl mövqelərin fraksiyasıdır və Q transversiya ilə fərqlənən ardıcıl mövqelərin hissəsidir.
    Tajima və Neinin (1984) ümumi düzəlişində təkamül məsafəsi aşağıdakılarla qiymətləndirilir:
    harada
    f i isə müqayisə edilən ardıcıllıqlarda mümkün nukleotid növləri N (= A, G, C, U və ya T) toplusuna aid olan i-ci növ nukleotidin tezliyidir. Bu tənlik müxtəlif nukleotidlər arasında bərabər əvəzetmə dərəcələri ilə nukleotid əvəzetmələri modeli üçün uyğundur və müxtəlif nukleotid cütləri arasında qeyri-bərabər əvəzetmə dərəcələrini nəzərə almır (Tajima və Nei, 1984). TREECON-da hesablanmış baza tərkibi təhlil edilən bütün ardıcıllıqlar üçün ortadır (Swofford et al., 1996-da təklif edildiyi kimi). Əgər tezliklər bütün dörd nukleotid üçün 0,25 olarsa, bu tənlik Jukes və Cantorun birinə bərabərdir.

    Əvvəlki bütün məsafə ölçüləri nukleotidlərin əvəzlənmə sürətinin bütün nukleotid yerləri üçün eyni olduğu fərziyyəsindən başlayır. Bununla belə, real ardıcıllıqda bu fərziyyə nadir hallarda özünü doğruldur (daha bax). Müxtəlif tədqiqatlar göstərir ki, nukleotidlərin əvəzlənməsi sürəti qamma paylanmasına görə təxminən dəyişir (bax: Uzzell və Corbin, 1971 Jin and Nei, 1990 Nei, 1991). Bu qamma paylanması əvəzetmə dərəcəsinin dəyişmə əmsalının tərsinin kvadratı olan a parametri ilə müəyyən edilir (Nei, 1991).

Jukes və Cantorun bir parametr modeli üçün məsafə aşağıdakı kimi hesablanır (Jin və Nei, 1990):

    Galtier və Gouy (1995) alqoritmi təkamül prosesinin homojenliyini və ya stasionarlığını qəbul etmədən təkamül məsafələrini qiymətləndirmək üçün hazırlanmışdır. Bu məsafənin qiymətləndirilməsi məlumatlarda kompozisiya meylləri müşahidə edildikdə filogenetik təhlillər üçün faydalı olmalıdır. İki amil nəzərə alınır: keçid/transversiya nisbəti və G+C məzmunu.

a parametrinin qiymətləndirilməsi bütün ardıcıllıq cütləri üçün a(A,B) qiymətlərinin ortası ilə verilir. Bu təxmin bütün cüt məsafəli hesablamalar üçün istifadə olunur. TREECON-da keçid/transversiya nisbəti təkamül məsafələrinin faktiki hesablanması başlamazdan əvvəl qiymətləndirilir. Bu dəyər bütün cüt müqayisələrə əsaslandığından, bu, əslində ardıcıllıqlar arasındakı məsafələrin qiymətləndirilməsi üçün lazım olan vaxtı ikiqat artırır. Bootstrap analizində keçid/transversiya nisbəti faktiki ardıcıllıq dəsti əsasında yalnız bir dəfə hesablanır.


Davamlı zaman Markov zənciri kimi DNT təkamülü

Davamlı zaman Markov zəncirləri

Davamlı zaman Markov zəncirləri adi keçid matrislərinə malikdir, bunlar əlavə olaraq zamanla parametrləşdirilir, . Konkret olaraq, əgər dövlətlər, sonra keçid matrisi

burada hər bir fərdi giriş, vəziyyətin ehtimalına istinad edir vəziyyətinə dəyişəcək vaxtında .

Misal: Biz DNT ardıcıllığında əvəzetmə prosesini modelləşdirmək istərdik (yəni. Jukes-Kantor, Kimura, və s.) fasiləsiz zaman tərzində. Müvafiq keçid matrisləri belə görünəcək:

yuxarı-sol və aşağı-sağ 2 × 2 blok uyğundur keçid ehtimalları və yuxarı-sağ və aşağı-sol 2 × 2 blok uyğun gəlir keçid ehtimalları.

Fərziyyə: Əgər nə vaxtsa , Markov zənciri vəziyyətdədir , sonra ehtimal ki, zaman , vəziyyətində olacaq yalnız asılıdır , . Bu, bizə həmin ehtimalı kimi yazmağa imkan verir .

Teorem: Davamlı zaman keçid matrisləri təmin edir:

Qeyd: Burada sözün iki mənası arasında mümkün qarışıqlıq var keçid. (i) kontekstində Markov zəncirləri, keçid iki vəziyyət arasındakı dəyişikliyə istinad edən ümumi termindir. (ii) kontekstində DNT ardıcıllığında nukleotid dəyişiklikləri, keçid ya iki purin (A ↔ G) və ya iki pirimidin (C ↔ T) arasında mübadiləsini ifadə edən xüsusi bir termindir (əlavə məlumat üçün genetikada keçidlər haqqında məqaləyə baxın). Bunun əksinə olaraq, bir purin və bir pirimidin arasındakı mübadilə atransversiya adlanır.

Əvəzetmə dinamikasının çıxarılması

Sabit uzunluqlu bir DNT ardıcıllığını nəzərdən keçirək m bazanın dəyişdirilməsi ilə zamanla inkişaf edir. Fərz edək ki, prosesləri izlədi m saytlar Markovian müstəqil, eyni şəkildə paylanmış və zamanla sabitdir. Sabit bir sayt üçün icazə verin

dövlətlərin ehtimallarının sütun vektoru olsun vaxtında . Qoy

dövlət məkanı olsun. İki fərqli üçün

, qoy

vəziyyətdən keçid dərəcəsi olsun bildirmək . Eynilə, hər hansı bir üçün , qoy:

Ehtimal paylanmasında dəyişikliklər kiçik artımlar üçün tərəfindən verilir:

Başqa sözlə (tez-tez dildə), tezliyi vaxtında zaman tezliyinə bərabərdir mənfi tezliyi itirdi 's plus tezliyi yeni yaradılmışdır nin.

Eynilə ehtimallar üçün . Bunları yığcam şəkildə belə yaza bilərik:

harada, />dir dərəcəsi matris. Qeyd edək ki, tərifə görə />sum sütunları sıfıra qədərdir.

Erqodiklik

Bütün keçid ehtimalları varsa, müsbətdir, yəni. əgər bütün dövlətlər ünsiyyət, then the Markov chain has a stationarydistribution where each is the proportion of time spent in state after the Markov chain has run for infinite time, and this probability does not depend upon the initial state of the process. Such a Markov chain is called, ergodic. In DNA evolution, under the assumption of a common process for each site, the stationary frequencies, correspond to equilibrium base compositions.

Tərif A Markov process is stationary if its current distribution is the stationary distribution, yəni.

Thus, by using the differential equation above:

Time reversibility

Tərif: A stationary Markov process is time reversible if (in the steady state) the amount of change from state üçün is equal to the amount of change from üçün , (although the two states may occur with different frequencies). This means that:

Not all stationary processes are reversible, however, almost all DNA evolution models assume time reversibility, which is considered to be a reasonable assumption.

Under the time reversibility assumption, let , then it is easy to see that:

Tərif The symmetric term is called the exchangeability between states . Başqa sözlə, is the fraction of the frequency of state that results as a result of transitions from state to state .

Corollary The 12 off-diagonal entries of the rate matrix, (note the off-diagonal entries determine the diagonal entries, since the rows of sum to zero) can be completely determined by 9 numbers these are: 6 exchangeability terms and 3 stationary frequencies , (since the stationary frequencies sum to 1).

Scaling of branch lengths

By comparing extant sequences, one can determine the amount of sequence divergence. This raw measurement of divergence provides information about the number of changes that have occurred along the path separating the sequences. The simple count of differences (the Hamming distance) between sequences will often underestimate the number of substitution because of multiple hits (seehomoplasy). Trying to estimate the exact number of changes that have occurred is difficult, and usually not necessary. Instead, branch lengths (and path lengths) in phylogenetic analyses are usually expressed in the expected number of changes per site. The path length is the product of the duration of the path in time and the mean rate of substitutions. While their product can be estimated, the rate and time are not identifiable from sequence divergence.

The descriptions of rate matrices on this page accurately reflect the relative magnitude of different substitutions, but these rate matrices are yox scaled such that a branch length of 1 yields one expected change. This scaling can be accomplished by multiplying every element of the matrix by the same factor, or simply by scaling the branch lengths. If we use the β to denote the scaling factor, and ν to denote the branch length measured in the expected number of substitutions per site then βν is used the transition probability formulae below in place of μt. Note that ν is a parameter to be estimated from data, and is referred to as the branch length, while β is simply a number that can be calculated from the rate matrix (it is not a separate free parameter).

The value of β can be found by forcing the expected rate of flux of states to 1. The diagonal entries of the rate-matrix (the Q matrix) represent -1 times the rate of leaving each state. For time-reversible models, we know the equilibrium state frequencies (these are simply the πi parameter value for state i). Thus we can find the expected rate of change by calculating the sum of flux out of each state weighted by the proportion of sites that are expected to be in that class. Setting β to be the reciprocal of this sum will guarantee that scaled process has an expected flux of 1:

For example, in the Jukes-Cantor, the scaling factor would be 4/(3μ)' because the rate of leaving each state is 3μ/4.


Materiallar və metodlar

Data acquisition

Fourteen data sets were obtained in Fasta format from project pages on Bold . These data sets comprised large studies of relatively well-known taxonomic groups including butterflies ( Hajibabaei və b. 2006 Lukhtanov və b. 2009 Dincăvə b. 2011 ), birds ( Kerr və b. 2009a, b, 2007 Johnsen və b. 2010 ), fishes ( Ward və b. 2005 Hubert və b. 2008 Rasmussen və b. 2009 Wong və b. 2009 Steinke və b. 2009a,b ) and bats ( Francis və b. 2010 ). Well known faunas were chosen to minimise discrepancies between the molecular data and taxonomy. Bold sequence identifiers (taxon names) were trimmed using regular expressions to include only GenBank accession number and taxonomic identification (species name). Alignment was carried out by Bold , followed by visual editing using translated amino acids in Mega 4 ( Tamura və b. 2007 ).

Species-level model selection

To test whether the K2P is a well-fitting model at the species level, each data set was split into species using the Ape package ( Paradis və b. 2004 ) for R ( R Development Core Team 2010 ), with species delimited by their unique binomials. The individual species data were exported in Nexus format, and species with less than five individuals were excluded to represent a data set of at least an average intraspecific sample size ( Ward və b. 2009 ). Using nested Unix shell scripts, the program jModelTest was run as a batch process for each species in each data set, producing a corresponding jModelTest output file. All 11 substitution schemes were tested ( Posada 2008 ), along with base frequency and rate variation options (total 44 models). An invariant sites parameter was not included, as species comprising a single haplotype could not be optimised under this setting in jModelTest. The model frequencies and AIC weights for the best and K2P models were extracted from the jModelTest output files using shell commands.

Difference between K2P and best model

To test how different intraspecific K2P distances are from best-model distances, we first used batch processes in Paup * ( Swofford 2003 ) to calculate pairwise comparisons under standard K2P distance settings ( distance = K2P ). Next, estimations for the best model were generated as maximum likelihood (ML) distances ( distance = ml ), with likelihood settings derived from jModelTest's Paup * block output. Shell scripting was used to manipulate corresponding likelihood settings from the jModelTest output into the Nexus file for each species, before initiating Paup * as a concatenated batch process. K2P distances were then subtracted from best-model estimates for each pairwise comparison. For this analysis using Paup *, the pairwise deletion option for missing data was used ( missdist = ignore ), and undefined distances were set to ‘NA’ ( undefined = asterisk ) all other settings were default. Except for K2P, abbreviated nomenclature of models follows Posada (2008) the K2P model is referred to as the K80 model by this author.

Identification success

To test the influence of model selection on identification success rate, both intraspecific and interspecific values were required, so distances were generated from the undivided data sets, which also included the previously excluded species with less than five individuals. To illustrate the effects of different substitution schemes, we used a selection of standard ‘off the shelf’ models in Paup *, offering a variety of parameterisations from simple to complex: JC, F81, K2P, TrN, HKY, HKY+Γ and GTR+Γ. Gamma shape values were derived from jModelTest. We measured identification success rates using the ‘best close match’ criterion of Meier və b. (2006) , but also see Ross və b. (2008) and Austerlitz və b. (2009) for additional comparisons including tree-based methods. For the ‘best close match’, a conspecific nearest neighbour (k = 1) within a threshold per cent value was recorded as a ‘correct’ identification a non-conspecific nearest neighbour within the threshold was an ‘incorrect’ identification more than one equally close species (including the correct species) within the threshold was ‘ambiguous’ and no match within the threshold was reported as a ‘no identification’. The threshold was initially set at the 1% value, as used by the Bold identification engine ( Ratnasingham & Hebert 2007 ), but because threshold values are likely to be contingent upon the models they are generated under, we also optimised new thresholds for each model and data set. This optimisation procedure minimises false-positive (no matches within x of query) and false-negative (more than one species match within x of query) errors for a range of threshold values (0·2–5·0% in 0·2% increments). To assess the effect of model selection on magnitude of the barcoding gap, both maximum intraspecific and minimum interspecific distances were calculated ( Meier və b. 2008 ), with the barcoding gap expressed as minimum interspecific distance divided by maximum intraspecific distance singletons were not considered for intraspecific variation, and intraspecific values of zero were replaced with a value of 0.001536098 (corresponding to a single nucleotide change over 651 bp). Analyses were carried out in R using the DNA barcoding package Spider ( Brown və b. in press Paradis və b. 2004 ).


Nucleotide Substitution

This simulation illustrates the true and estimated divergence between two DNA sequences based on an explicit model of mutational change.

The input parameters are the two transition rates and the four possible transversion rates along with equilibrium nucleotide frequencies. These are the parameters that make up a nucleotide substitution model. The Example model parameters radio buttons set all of the model parameters at once to correspond to one of the commonly used nucleotide substitution models. For example, The JC69 button will set all four base frequencies to be equal and all six of the base change rates to be equal as assumed under that model.

The Jukes-Cantor of JC69 model assumes all types of substitutions occur at one rate, and that equilibrium base frequencies are all 25%. The Kimura 1980 or K80 model (also called the Kimura two parameter of K2P model) assumes that transitions and transversions occur at different rates, and that equilibrium base frequencies are all 25%. The Tamura 92 model is a special case of the K2P model, assuming different rates of transition and transversion but with equilibrium base frequencies that are unequal. The Tamura-Nei model assumes that two types of transitions occur at different rates, that all transversions have one rates, and that equilibrium base frequencies are unequal.

After setting the model parameters, press Run and view the graph. The x-axis is time while the y-axis is divergence (portion of sites diverged). One line in the plot shows apparent divergence or p-distance between two sequences. Compare this with the line showing the actual amount of divergence based on the total number of sites that have experienced substitutions in the two sequences. There are four nucleotide substitution model-corrected estimates of divergence: JC69, K80 or K2P, Tamura 92, and Tamura Nei 93. (Line styles in the plot vary by how the simulation is implemented - see the plot legend.)


Most Common Models of DNA Evolution

JC69 model (Jukes and Cantor, 1969)

JC69 is the simplest substitution model. There are several assumptions. It assumes equal base frequencies () and equal mutation rates. The only parameter of this model is therefore &mu , the overall substitution rate.

Distance between two sequences is given by

harada səh is the proportion of sites that differ between the two sequences.

K80 model (Kimura, 1980)

Distinguish between Transition(A G within purines or T C within pyrimidines) and Transversion(between purines and pyrimidines) (&alpha/&beta)

Equal base frequencies ()

Rate matrix

The Kimura two-parameter distance is given by:

harada P is the proportion of sites that show transitional differences and Q is the proportion of sites that show transversional differences.

F81 model (Felsenstein 1981)

Unequal base frequencies ()

Rate matrix

HKY85 model (Hasegawa, Kishino and Yano 1985)

Distinguish between Transition and Transversion (&alpha/&beta)

Unequal base frequencies ()

Rate matrix

T92 model (Tamura 1992)

One frequency only &piGC


Rate matrix

The evolutionary distance between two noncoding sequences according to this model is given by

harada h = 2&theta(1 &minus &theta) where is the GC content.

TN93 model (Tamura and Nei 1993)

Distinguish between two different types of Transition (A G) is different to (C T)

Unequal base frequencies ()

Rate matrix

GTR: Generalised time reversible

GTR is the most general neutral, independent, finite-sites, time-reversible model possible. It was first described in a general form by Simon Tavaré in 1986.

The GTR parameters consist of an equilibrium base frequency vector, &Pi = (&pi1&pi2&pi3&pi4) , giving the frequency at which each base occurs at each site, and the rate matrix

Therefore, GTR (for four characters, as is often the case in phylogenetics) requires 6 substitution rate parameters, as well as 4 equilibrium base frequency parameters. However, this is usually eliminated down to 9 parameters plus &mu , the overall number of substitutions per unit time. When measuring time in substitutions ( &mu =1) only 9 free parameters remain.

In general, to compute the number of parameters, you count the number of entries above the diagonal in the matrix, i.e. for n trait values per site , and then add n for the equilibrium base frequencies, and subtract 1 because &mu is fixed. You get

For example, for an amino acid sequence (there are 20 "standard" amino acids that make up proteins), you would find there are 209 parameters. However, when studying coding regions of the genome, it is more common to work with a codon substitution model (a codon is three bases and codes for one amino acid in a protein). There are 4 3 = 64 codons, but the rates for transitions between codons which differ by more than one base is assumed to be zero. Hence, there are parameters.


Videoya baxın: DNT və RNT. Nukleotid. Polimerlər. Nuklein turşuları. (Iyul 2022).


Şərhlər:

  1. Aksel

    Gözləmək ...

  2. Heanleah

    Düşünürəm ki, səhv edirsən. Mən mövqeyimizi müdafiə edə bilərəm. PM-də mənə e-poçt göndərin.

  3. Benoni

    IN! Hooligans are divorced, they've got a mess of spam here)))



Mesaj yazmaq