Məlumat

Gizli markov modeli

Gizli markov modeli



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bioinformatikada gizli markov modeli haqqında oxudum. Bunun nə olduğunu başa düşə bilmirəm. Kimsə mənə qısa və çox sadə sözlərlə bunun nə olduğunu izah edə bilərmi?

Mənim bioinformatika və ya proqramlaşdırma sahəsində heç bir məlumatım yoxdur və bu barədə vikipediya məqaləsi çox qorxuludur.


Markov modeli Markov prosesini izləyən sistemin təsviridir. Markov prosesində sistemin növbəti vəziyyəti onun cari vəziyyətinin funksiyasıdır və haradan və necə başladığından asılı deyil. Məsələn, Broun hərəkətini Markov prosesi adlandırmaq olar. Cari vəziyyətdən növbəti vəziyyətə keçid ehtimallarla təsvir olunur.

Nəticə olaraq qeyd edək ki, Markov modeli yaddaşa malik olmadığı güman edilən sistemin ehtimal modelidir.

Gizli Markov Modelində (HMM) sistemin vəziyyəti(lər)i məlum deyil (buna görə də gizlidir). Bununla belə, vəziyyətdən asılı olan bəzi funksiyalar var və onların çıxışları sistemin vəziyyətini təxmin etmək üçün istifadə edilə bilər. Tərif var - bunun müxtəlif anlayışlara necə tətbiq olunduğunu izah etmək o qədər də asan deyil (yalnız bioinformatika deyil).

Düzünü desək, bu mövzudan kənardır. HMM bioloji anlayış deyil. Bu statistik/hesablama konsepsiyasıdır (bu, BLAST alqoritminin arxasında yatan konsepsiya olan Dinamik Proqramlaşdırmanın nə olduğunu soruşmaq kimidir).


Gizli Markov modellərinə giriş və onun biologiyada tətbiqi

Bir sıra real dünya sistemləri arasında ümumi əsas nümunələr var və bu nümunələri çıxarmaq ətrafımızdakı mühiti başa düşmək üçün bizim üçün vacibdir. Bəzi hallarda bu nümunələr müşahidə zamanı aydın olur, digərlərində, xüsusən də təbiətdə olanlar yaxşı gizlədilir. Üstəlik, bu sistemlərə xas olan stoxastiklik kifayət qədər səs-küy yaradır ki, əsas nümunəni deşifrə etmək üçün onu idarə edə bilən modellərə ehtiyacımız var. Gizli Markov modeli (HMM) müşahidə olunan ardıcıllıqda və ya müşahidə olunan ardıcıllıq dəstlərində gizli nümunələri öyrənmək üçün tez-tez istifadə olunan ehtimal modelidir. 1960-cı illərin sonlarında konsepsiyasından bəri, kiçik DNT və zülal molekullarından, həyatın əsasını təşkil edən onların strukturundan və arxitekturasından tutmuş insanlarda hərəkət təhlili kimi çoxhüceyrəli səviyyələrə qədər müxtəlif fənlərdə nümunələri tutmaq üçün biologiyada geniş şəkildə tətbiq edilmişdir. Bu fəsil HMM nəzəriyyəsinə, adətən HMM-lərlə əlaqəli statistik problemlərə və onların biologiyada istifadəsinə incə bir giriş məqsədi daşıyır.

Açar sözlər: Baum–Velç alqoritmi Emissiya ehtimalı Gözləmənin maksimumlaşdırılması İrəli-geri prosedur Gizli Markov modeli Nümunənin tanınması Keçid ehtimalı Viterbi alqoritmi.


1. Gizli Markov Modeli (HMM)

Gizli Markov Modelinin nə olduğunu araşdırmadan əvvəl gəlin Markov Zəncirini anlayaq.

Markov zənciri, adətən vəziyyətlər kimi tanınan təsadüfi dəyişənlərin ardıcıllığının ehtimallarını izah edən bir model və ya təsadüfi proses növüdür. Dövlətlərin hər biri bəzi çoxluqdan dəyərlər götürə bilər. Başqa sözlə, əvvəlki vəziyyətdən asılı olan bir vəziyyətdə olma ehtimalı kimi izah edə bilərik. Müşahidə oluna bilən hadisələrin ardıcıllığının ehtimalını hesablamaq lazım olduqda Markov zəncirindən istifadə edirik. Bununla belə, əksər hallarda zəncir gizli və ya görünməzdir və hər bir vəziyyət təsadüfi olaraq hər zəncirdən 1-ni yaradır. k müşahidələr bizə görünür. İndi biz Gizli Markov Modelini təyin edəcəyik.


Andrew Moore tərəfindən Təlim Slaydları

Bu dərslikdə biz Markov Modellərini (aka Markov Zəncirləri) nəzərdən keçirərək başlayacağıq və sonra. onları gizlədəcəyik! Bu, çox yaygın bir fenomeni simulyasiya edir. sadə və qeyri-müəyyən dinamikaya uyğun işləyən bəzi əsas dinamik sistem var, lakin biz bunu görə bilmirik. Görə biləcəyimiz tək şey əsas sistemdən yaranan bəzi səs-küylü siqnallardır. Bu səs-küylü müşahidələrdən biz ən çox ehtimal olunan əsas sistem vəziyyətini və ya dövlətlərin zaman tarixini və ya növbəti müşahidənin ehtimalını proqnozlaşdırmaq kimi işlər görmək istəyirik. Bunun nasazlıqların diaqnostikası, robotun lokallaşdırılması, hesablama biologiyası, nitq anlayışı və bir çox başqa sahələrdə tətbiqləri var. Dərslikdə biz HMM-ləri əhatə edən əsasən zərərsiz riyaziyyatla necə xoşbəxt oynamağı və edə biləcəyiniz HMM hesablamalarının əksəriyyətini səmərəli şəkildə yerinə yetirmək üçün dinamik proqramlaşdırma (DP) adlanan ürəkaçan və həyata keçirilməsi sadə yanaşmadan necə istifadə etməyi təsvir edəcəyik. nə vaxtsa etmək istəyirəm. Bu əməliyyatlara vəziyyətin qiymətləndirilməsi, əsas vəziyyətlərin ən çox ehtimal olunan yolunun qiymətləndirilməsi və məlumatlardan HMM-ləri öyrənən möhtəşəm (və EM ilə dolu) final daxildir.


Bakterial plazmidlərin populyasiya biologiyası: gizli Markov modeli yanaşması

Horizontal plazmid transferi bakteriyaların uyğunlaşmasında əsas rol oynayır. Sərt mühitlərdə bakteriya populyasiyaları üfüqi genofonddan öz-özünə ötürülən plazmidlər vasitəsilə genetik materialı seçərək uyğunlaşır və bu, bu mobil genetik elementlərin davamlılığına imkan verir. Plazmidlə kodlanmış əlamətlər üçün seçim olmadıqda, plazmidlərin bakterial birliklərdə davam edib-etməməsi və necə qalması yaxşı başa düşülmür. Burada seçim olmadıqda plazmid davamlılığının dinamikasının üç modelini təqdim edirik. Modellər plazmid itkisini (seqreqasiya), plazmidin qiymətini, konyuqativ plazmid transferini və müşahidə xətasını nəzərə alır. Həmçinin, gizli Markov modelindən (HMM) istifadə edərək, plazmidsiz hüceyrələrin nisbi uyğunluğunun ətraf mühit prosesindən təsirlənən təsadüfi dəyişən kimi modelləşdirildiyi stoxastik modeli təqdim edirik. Geniş simulyasiyalar göstərdi ki, təklif olunan modelin təxminləri, demək olar ki, qərəzsizdir. Ehtimal nisbəti testləri göstərdi ki, plazmid davamlılığının dinamikası ev sahibi növündən çox asılıdır. Stokastikliyin uçotu yeddi zaman seriyası məlumat dəstindən dördünü izah etmək üçün lazım idi, beləliklə plazmid davamlılığının stoxastik bir proses kimi başa düşülməsi lazım olduğunu təsdiqləyir. Bu işə yeni plazmid davamlılıq fərziyyələrinin sınaqdan keçirilə biləcəyi konseptual başlanğıc nöqtəsi kimi baxmaq olar.

Rəqəmlər

Nümunə deterministik traektoriyalar (solda) və…

Üfüqi köçürmənin (HT) nümunə deterministik traektoriyaları (solda) və böyümə sürətləri (sağda)…

Dörd bakteriyanın hər biri üçün…

Dörd bakteriya ştammının (H2, R28, P21 və P18) hər biri üçün məlumatlar…

Üfüqi üçün sabitlik sərhədləri…

Horizontal transfer (HT) modeli üçün sabitlik sərhədləri, təxmin edilən modelin yeri...

Simulyasiya edilmiş trayektoriya nümunəsi...

Dəyişən seçim (VS) modeli (üçbucaqlar) altında simulyasiya edilmiş trayektoriya nümunəsi, nümunə götürülmüş…

Fəaliyyətinin qiymətləndirilməsi…

HMM parametrlərinin qiymətləndirilməsi üsullarının fəaliyyətinin qiymətləndirilməsi. Min məlumat…

Fəaliyyətinin qiymətləndirilməsi…

HMM parametrlərinin qiymətləndirilməsi üsullarının fəaliyyətinin qiymətləndirilməsi. Min məlumat…


Gizli Markov Modeli - Biologiya

İnternetdə molekulyar biologiya

Sean R Eddy
Struktur Biologiyada Mövcud Rəy 1996, 6: 361-365.

Zülal strukturlarının "profilləri" və ardıcıl düzülmələr incə homologiyaları aşkar edə bilər. Gizli Markov modeli (HMM) metodlarının tətbiqi ilə profil təhlili daha möhkəm riyazi zəminə qoyulmuşdur. Keçən il ərzində bu güclü yeni HMM əsaslı profillərin tətbiqləri zülal strukturunun proqnozlaşdırılması və geniş miqyaslı genom ardıcıllığının təhlili sahələrində görünməyə başladı.

Hesablama analizi zülalların funksiyaları və strukturları haqqında nəticə çıxarmaq üçün getdikcə daha vacibdir [1], çünki DNT ardıcıllığının sürəti ardıcıllığın bioloji funksiyasının eksperimental olaraq aydınlaşdırıla biləcəyi sürəti çoxdan ötüb. Müəyyən edilmiş ardıcıllıq müqayisəsi alqoritmləri məlum verilənlər bazası ardıcıllığı ilə orqanizmdən asılı olaraq yeni zülalların 35-80%-i arasında əhəmiyyətli oxşarlıqları aşkar edir. Bu faizin artırılması son dərəcə vacibdir. Bir faiz bəndi artımı, insan genomunun ardıcıllığının aydınlaşdırılmasının təxminən 2002-ci ildə başa çatmasına yaxın olan vaxta qədər əlavə 700 insan zülalı haqqında faydalı bir şey öyrənmək demək ola bilər.

BLAST və FASTA kimi cüt ardıcıllıqla müqayisə üsulları ümumiyyətlə bütün amin turşularının mövqelərinin eyni dərəcədə vacib olduğunu güman edir, baxmayaraq ki, maraq doğuran zülal və ya zülal ailəsi üçün adətən çoxlu mövqeyə aid məlumat mövcuddur. Zülal ardıcıllığı ailələrinin çoxsaylı düzülüşü digərlərinə nisbətən daha çox qorunan qalıqları və əlavələrin və silinmələrin daha tez-tez baş verdiyi nöqtələri göstərir. Üçölçülü (3D) struktur məlumatı, düzlənmiş qalıqları qiymətləndirərkən struktur mühitləri nəzərə almağa imkan verir və əsas ikinci dərəcəli struktur elementlərinə nisbətən səth döngələrində əlavələrin və silinmələrin daha tez-tez gözlənilməsinə imkan verir. "Profil" (mövqe ilə bağlı xüsusi qalıq xallarından və daxiletmə və ya silinmə cəzalarından ibarət konsensus əsas struktur modeli kimi müəyyən edilir) cüt ardıcıllıqla düzülmə metodlarından kənar intuitiv addımdır. İstər çoxsaylı ardıcıl düzülmələrə [2] [3] [4], istərsə də 3D strukturlara [5] [6] əsaslanan profil metodları bir sıra qruplar tərəfindən müstəqil olaraq işlənib hazırlanmış və geniş istifadə olunur.

Profillərlə bağlı problem onların çoxlu pulsuz parametrləri olan mürəkkəb modellər olmasıdır. Biri bir sıra çətin problemlərlə üzləşir: mövqeyə xas qalıq xallarını təyin etmək, boşluqları və əlavələri hesablamaq, struktur və çoxsaylı ardıcıllıq məlumatlarını birləşdirmək üçün ən yaxşı yollar hansılardır? Son vaxtlara qədər bu suallar ümumiyyətlə ad hoc şəkildə həll olunurdu. Ad hoc hesablama sistemi adekvat olması üçün sınaq və səhv yolu ilə ustalıqla tənzimlənə bilər, lakin ardıcıl riyazi əsas hələ də arzu edilir.

Yuxarıdakı sualları həll etmək üçün “gizli Markov modelləri” (HMM) istifadə edən yeni profil metodları tətbiq edilmişdir. Bu araşdırmada mən HMM-lərin nə olduğunu izah edəcəyəm, onların güclü və məhdudiyyətlərini təsvir edəcəyəm və HMM əsaslı profillərin zülal strukturunun proqnozlaşdırılmasında və geniş miqyaslı genom ardıcıllığının təhlilində necə istifadə olunmağa başladığını vurğulayacağam.

David Haussler, Anders Krogh və onların Santa Cruz Kaliforniya Universitetindəki həmkarları bütün profil metodlarının HMM kimi ifadə oluna biləcəyini qəbul etdilər. Onların aydın texniki hesabatı geniş yayıldı və iş nəhayət, 1994-cü ilin əvvəlində açıq ədəbiyyatda göründü [7]. Bu vaxta qədər digər qruplar artıq HMM əsaslı profil üsullarını araşdırırdılar [8] [9].

Gizli Markov modelləri ardıcıllıq və ya zaman seriyası kimi "xətti" problemlər üçün ümumi statistik modelləşdirmə texnikasıdır və iyirmi ildir nitqin tanınması proqramlarında geniş istifadə olunur. HMM-lər əvvəllər hesablama ardıcıllığı analizində [10], o cümlədən zülalın struktur modelləşdirməsində [11] [12] istifadə edilmişdir. Hausslerin işi o qədər aydın şəkildə məşhur profil təhlili metodlarına yönəlmişdi ki, o, HMM-ləri daha geniş ictimaiyyətin şüuruna yüksəltdi. HMM formalizmi çərçivəsində profillərə və boşluqlu ardıcıl düzülmələrə formal, tam ehtimal metodlarını tətbiq etmək mümkündür.

Əsas ideya ondan ibarətdir ki, HMM sonsuz sayda mümkün ardıcıllıqlar üzərində ehtimal paylanmasını təsvir edən sonlu modeldir.

HMM nəzəriyyəsinin heyrətamiz aydın təsviri Rabiner [13] tərəfindən yazılmışdır. Biri ardıcıllığı "yaradan" bir HMM-dən danışır. HMM 3D strukturdakı mövqelərə və ya çoxlu düzülmənin sütunlarına uyğun ola bilən bir sıra dövlətlərdən ibarətdir. Hər bir dövlət simvol-emissiya ehtimallarına uyğun olaraq simvollar (qalıqlar) “yayar” və dövlətlər vəziyyətə keçid ehtimalları ilə bir-birinə bağlıdır. Bəzi ilkin vəziyyətdən başlayaraq, son vəziyyətə çatana qədər vəziyyət-keçid ehtimallarına uyğun olaraq vəziyyətdən vəziyyətə keçərək vəziyyətlər ardıcıllığı yaradılır. Bundan sonra hər bir dövlət həmin dövlətin emissiya ehtimalının paylanmasına uyğun olaraq simvollar yayaraq müşahidə edilə bilən simvollar ardıcıllığını yaradır. Şəkil 1-də heterojen DNT ardıcıllığı üçün sadə HMM göstərilir [10].

Şəkil 1 Sadə gizli Markov modeli. Çörçillin [10] işindən sonra heterojen əsas tərkibi olan DNT ardıcıllığını təsvir edən iki ştatlı HMM göstərilir. (a) 1-ci vəziyyət (yuxarı sol) AT-zəngin ardıcıllığı, 2-ci vəziyyət (sağ yuxarı) CG ilə zəngin ardıcıllığı yaradır. Dövlət keçidləri və onlarla əlaqəli ehtimallar oxlarla göstərilir və hər bir vəziyyət üçün A,C,G və T üçün simvol emissiya ehtimalları vəziyyətlərin altında göstərilir. (Aydınlıq üçün, sonlu uzunluqlu ardıcıllıqların modelləşdirilməsi üçün zəruri olan başlanğıc və son vəziyyətlər və əlaqəli vəziyyət keçidləri buraxılmışdır.) (b) Bu model Markov zənciri kimi vəziyyət ardıcıllığını yaradır və hər bir vəziyyət öz emissiya ehtimalına uyğun simvol yaradır. paylanması (c). Ardıcıllığın ehtimalı vəziyyət keçidlərinin və simvol emissiyalarının məhsuludur. Müşahidə edilmiş DNT ardıcıllığı üçün biz onu “yaradan” gizli vəziyyət ardıcıllığını, yəni bu mövqenin CG ilə zəngin seqmentdə və ya AT ilə zəngin bir seqmentdə olmasını öyrənməkdə maraqlıyıq.

Niyə onları gizli Markov modelləri adlandırırlar? Dövlətlərin ardıcıllığı Markov zənciridir, çünki işğal ediləcək növbəti dövlətin seçimi indiki dövlətin kimliyindən asılıdır. Bununla belə, bu dövlət ardıcıllığı müşahidə edilmir: gizlidir. Yalnız bu gizli vəziyyətlərin yaratdığı simvol ardıcıllığı müşahidə olunur. Ən çox ehtimal olunan vəziyyət ardıcıllığı HMM-nin müşahidə olunan ardıcıllığa uyğunlaşdırılmasından nəticə çıxarılmalıdır.

Ümumiyyətlə, HMM-lərdən istifadə edərkən biz üç problemdən birinin həllində maraqlıyıq [13]. Birincisi, mövcud HMM və müşahidə olunan ardıcıllığı nəzərə alaraq, HMM-nin ardıcıllığı (qol problemi) yarada bilməsi ehtimalını bilmək istəyirik. İkincisi, biz HMM-nin ardıcıllığı yaratmaq üçün istifadə edəcəyi optimal vəziyyət ardıcıllığını bilmək istəyirik (düzləşdirmə problemi). Üçüncüsü, böyük miqdarda verilənləri nəzərə alaraq, biz məlumatları (təlim problemi) ən yaxşı hesab edən HMM-nin strukturunu və parametrlərini tapmaq istəyirik. Haussler və onun həmkarlarının fikrincə, profillər HMM kimi yenidən yazıla bilər və bu problemlər profillərlə ardıcıllıqların hesablanması, optimal ardıcıllıq profilinin düzülməsi və düzülməmiş, eləcə də uyğunlaşdırılmış zülal və ya DNT-dən profillərin qurulması problemlərinə tam oxşardır. ardıcıllıq məlumatları.

HMM-əsaslı profilin nümunəsi Şəkil 2-də göstərilmişdir. Çoxlu ardıcıllıqla düzülmənin sütunlarının əksəriyyəti “uyğunluq” vəziyyətlərinə təyin edilmişdir. Uyğunluq vəziyyətlərinin hər birinin həmin mövqedə verilmiş qalığı görmə ehtimalını əks etdirən emissiya paylanması var. Hər bir matç ştatını digər iki ştat müşayiət edir. 'Sil' vəziyyəti heç bir şey yaymır, sütunu atlamağa imkan verir, bu, konsensusa nisbətən silinmədir. Hər bir uyğun vəziyyət cütü arasında "insert" vəziyyəti mövcuddur və onun özünə vəziyyət keçidi var. Bu, konsensusa nisbətən istənilən nöqtədə bir və ya bir neçə simvolun daxil edilməsinə imkan verir.

Şəkil 2 HMM əsaslı profil. Krogh et al. [7oo]. Çox ardıcıl düzülüşün hər bir mühüm sütunu (yuxarı) üç vəziyyətlə modellənir: uyğunluq (M), daxil edin (I) və silin (D). Düzəlişin hər bir modelləşdirilmiş sütunu üçün 49 parametr var: doqquz vəziyyətə keçid ehtimalı (oxlar), 20 uyğun dövlət simvolu emissiya ehtimalı (mötərizədə verilmiş amin turşusu qalıqlarına [tək hərf kodu] uyğun gəlir) və 20 daxiletmə dövlət simvolu emissiya ehtimalı ( adətən uyğunlaşmadan öyrənilmir, əksinə bəzi fon paylanmasında sabit saxlanılır). Bu misalda aydınlıq üçün bütün daxiletmə simvolu emissiyaları bərabər olaraq 0.05-ə təyin olunub və əlavələrin mahiyyətcə “təsadüfi” qalıq ardıcıllığı yaratdığını vurğulayır. Ştat keçid ehtimalları, ümumiyyətlə, əlavələr və silinmələr (tirik oxlar) olan daha nadir yollar üzərində uyğunluq vəziyyətləri (qalın oxlar) vasitəsilə "əsas xətt"ə üstünlük verəcəkdir.

HMM formalizmi iki əsas töhfə verir. Birincisi, HMM-lər düzülməmiş, eləcə də uyğunlaşdırılmış məlumatlardan hazırlana bilər, halbuki standart profillər əvvəlcədən mövcud çoxsaylı uyğunlaşdırma tələb edir. İkincisi, HMM əsaslı profillər əlavələrin və silinmələrin əsaslandırılmış statistik müalicəsindən istifadə edir. Standart profillərdə sınaq və səhvlər istisna olmaqla, optimal daxiletmə/silmə ballarını müəyyən etmək mümkün deyil və uyğunlaşmanın statistik əhəmiyyəti empirik üsullarla qiymətləndirilməlidir. Əlavələrin və silinmələrin idarə edilməsi yüksək dərəcədə fərqli zülal ardıcıllıqlarının tanınmasında əsas problem olduğundan, profillərin HMM kimi yenidən işlənməsi profillərin uzaqdan əlaqəli struktur homoloqlarını tanımaq gücündə əhəmiyyətli artım vəd edir.

HMM və profillərin fərziyyələri

HMM əsaslı profillər iki mühüm fərziyyə irəli sürür. Birincisi, qalıqlar arasında cüt (və ya daha yüksək dərəcəli) korrelyasiya nəzərə alınmır. HMM əsas struktur modelidir. Bu o demək deyil ki, HMM-lər mütləq sadəcə ardıcıllıq modelləridir: mövqenin 3D struktur mühiti nəzərə alına bilər. Məsələn, qalıq xallarının mövqenin struktur mühiti ilə müəyyən edildiyi və ardıcıllıqla [5] heç bir əlaqəsi olmayan 3D profilləri HMM kimi faydalı şəkildə həyata keçirilə bilər. Eynilə, 'dondurulmuş yaxınlaşma' [14] (dinamik proqramlaşdırma alqoritmlərinin düzülmə və hesablama üçün istifadə oluna bilməsi üçün) istifadə edən bir çox zülal 'ters qatlama' metodları HMM metodları kimi faydalı şəkildə ifadə edilə bilər. İkincisi, HMM-lər ardıcıllığın modeldən asılı olmayaraq yaradıldığını güman edirlər. Həqiqi biosequences ümumi təkamül mənşəli ilə bağlıdır və yüksək müstəqil deyil. Bu, ehtimal ki, hər hansı bir profil metodunun əsas problemidir. Həmkarlarım və mən [9] təkamül ağaclarının səbəb olduğu qərəzli ardıcıl seçməni kompensasiya edən maksimum ehtimal HMM təlim metodlarına alternativləri təsvir etdik, lakin bu üsullar dolayıdır və mahiyyətcə yeni HMM-stil ardıcıllığını ölçmə metodlarına bərabərdir. Mitçison və Durbin [15] gizli Markov modelləri ilə maksimum ehtimallı filogeniya rekonstruksiyasının tur de force füzyonunu araşdırdılar, lakin istifadə edilən alqoritmlər hələ hesablama baxımından praktik deyil.

HMM-əsaslı çoxlu ardıcıl düzülmə

Profillərdən fərqli olaraq, HMM-lər prosesdə çoxlu düzülmə yaradan bir sıra sıralanmamış nümunə ardıcıllıqlarından hazırlana bilər. Nitqin tanınması sahəsi Baum-Welch alqoritmi adlanan yaxşı öyrənilmiş təlim alqoritmini təmin edir, Krogh et al. [7oo] işə götürüldü. Baldi və başqaları. [8] [16] eyni dərəcədə effektiv görünən gradient enişindən istifadə edərək alternativ HMM təlim alqoritminin istifadəsini təsvir etmişdir. Hər iki yanaşma qlobal miqyasda optimal olanları deyil, lokal olaraq optimal uyğunlaşmaları tapır və onlar bəzən yanlış optimalarda ilişib qalırlar. Krogh və b. [7] yerli optimadan qaçmaq üçün “səs-küy enjeksiyonu” evristikası istifadə etmişdir. Mən yerli optima daha az meylli olan Krogh yanaşmasının simulyasiya edilmiş yumşaldıcı variantını təsvir etmişəm [17]. Bu və əlaqəli iş göstərdi ki, HMM metodları onların ehtimalına uyğun olaraq suboptimal ardıcıl düzülmələri nümunə götürmək üçün istifadə edilə bilər [18] [19].

HMM-əsaslı çoxlu hizalama, əvvəlki çoxlu hizalama üsullarının əksəriyyətindən maraqlı şəkildə fərqlənir. Hesablama parametrləri, eləcə də düzülmə ilkin olaraq məlum deyil. Buna görə də, hizalanma parametrləri qiymətləndirmək üçün çətin apriori seçimlər tələb etmir. Həmçinin, HMM yanaşması hesablama baxımından çətin çoxdan çoxa çoxlu ardıcıllıqla düzülmə probleminin qarşısını alır, onu təkrarlana bilən çoxdan birə ardıcıllıqla HMM uyğunlaşdırma problemi kimi təkrarlayır. Həqiqətən də, ardıcıllıqların ümumi konsensus modelinə uyğunlaşdırılması intuitiv olaraq çoxlu uyğunlaşdırmanın ilk növbədə təmsil etmək istədiyimizə daha yaxındır. Mövcud HMM metodları mövcud yanaşmaların dəqiqliyinə yaxınlaşır və çoxlu boşluqlar və əlavələr daxil olan mürəkkəb hallarda çox vaxt digər çoxsaylı uyğunlaşdırma alqoritmlərini üstələyir [17].

HMM əsaslı protein homoloqunun tanınması

Krogh et al göstərdi ki, ilk HMM əsaslı profillər zülal homoloqunun tanınması üçün standart profillərdən bir qədər üstündür [7]. Tim Hubbard və onun həmkarları 1994-cü ildə zülal strukturunun proqnozlaşdırılması müsabiqəsində HMM metodlarını ikinci dərəcəli struktur proqnozlaşdırma vasitələri ilə birlikdə tətbiq etdilər. Hubbardın proqnozları zülalın tərs qatlanması üçün daha mürəkkəb yivləmə alqoritmləri tərəfindən verilən proqnozlar qədər dəqiq idi [19]. Hubbard'ın HMM-ləri yalnız ardıcıl düzülmələrə əsaslanırdı. HMM-lər ardıcıllıq və struktur mühit məlumatlarını rəvan birləşdirmək üçün yaxşı uyğun olduğundan, tərs qatlama və yivləmə sahələrinə HMM əsaslı əlavə müdaxilələr gözlənilə bilər.

İlk HMM əsaslı profil metodlarının çatışmazlığı ondan ibarət idi ki, yaxşı homoloqun tanınması üçün çoxlu sayda ardıcıllıq (> 100) tələb olunur. İndi ya 'qarışıq Dirichlet' əvvəlcədən [20] [21] və ya Dayhoff PAM (qəbul edilmiş mutasiya faizi) əvəzetmə matrislərindən [22] istifadə edərək, amin turşularının dəyişdirilməsi ehtimalları haqqında əvvəlki məlumatların HMM-lərə daxil edilməsində əhəmiyyətli irəliləyişlər əldə edilmişdir. Homoloqun tanınması üçün effektiv HMM-lər indi bir neçə ardıcıllıqdan tikilə bilər.

Cütlük oxşarlıq axtarışı alqoritmləri (BLAST və FASTA) nisbətən qeyri-mütəşəkkil verilənlər bazalarında effektivdir. Bunun əksinə olaraq, HMM-lər tək ardıcıllıqlar əvəzinə uyğunlaşdırılmış ardıcıllıq ailələrinə əsaslandığı üçün, HMM əsaslı profillərin geniş miqyaslı genom və ya verilənlər bazası təhlilinə tətbiqi zülal ailələrinin iyerarxik ikinci nəsil verilənlər bazalarını və ardıcıllıq uyğunlaşmalarını tələb edir. İerarxik şəkildə təşkil edilmiş SCOP (zülalların struktur təsnifatı) verilənlər bazası [23] istehsalçıları ilə əməkdaşlıq edərək, Erik Sonnhammer domen ardıcıllığının düzülmələri və gizli Markov modelləri (E Sonnhammer, SR Eddy, dərc olunmamış məlumatlar) məlumat bazası yaratmışdır. Bu uyğunlaşdırma verilənlər bazası hazırda 100 müxtəlif protein domen ailəsini modelləşdirir və Ümumdünya İnternetdə (http://www.sanger.ac.uk/Pfam) mövcuddur. Zülal domenlərinin və DNT təkrar ailələrinin HMM əsaslı təhlili ABŞ-ın Sent-Luis şəhərindəki Vaşinqton Universiteti və Kembricdəki Sanger Mərkəzindəki genom mərkəzlərində nematod, maya və insan DNT ardıcıllığının BLAST analizini tamamlamağa başlayır.

Gizli Markov model əsaslı profillər standart profil analizi ilə bağlı bir çox problemləri həll etdi. HMM-lər əlavələrin və silinmələrin hesablanması üçün ardıcıl nəzəriyyə və struktur və ardıcıl məlumatların birləşdirilməsi üçün ardıcıl çərçivə təmin edir. HMM əsaslı çoxlu ardıcıl düzülmə sürətlə təkmilləşir. HMM-əsaslı homoloqun tanınması artıq HMM metodları üçün kifayət qədər güclüdür ki, zülalların tərs qatlanması üçün daha mürəkkəb yivləmə üsulları ilə müqayisə olunsun. Demək olar ki, istənilən UNIX platformasında işləyəcək HMM əsaslı profillər üçün proqram təminatı http://www.cse.ucsc.edu/research/compbio/sam.html və ya http://genome.wustl.edu/eddy saytından sərbəst şəkildə əldə edilə bilər. /hmmer.html.

Nəzərə almaq lazımdır ki, HMM əsaslı profillər HMM yanaşmalarının çox xüsusi halıdır. HMM metodları genlərin proqnozlaşdırılması [24], zülalın ikincil strukturunun proqnozlaşdırılması [25] və hətta radiasiya hibrid xəritələrinin qurulması [26] kimi müxtəlif bioloji problemlər üçün istifadəyə verilir.

HMM-lərdən istifadə edərkən qəbul etdiyimiz fəlsəfə ondan ibarətdir ki, mürəkkəb struktur-ardıcıllıq təhlili problemləri tam ehtimal modellərindən istifadə etməklə statistik nəticə çıxarma problemləri kimi ən yaxşı şəkildə həll edilir. Getdikcə fəallaşan tədqiqat sahəsi, stoxastik kontekstsiz qrammatikalardan [27] [28] istifadə edərək RNT ikincili struktur analizi və ya zülal ardıcıllığında cüt korrelyasiya ilə məşğul olmaq kimi HMM-lərin həll edə biləcəyindən daha mürəkkəb problemlər üçün digər tam ehtimal yanaşmalarının inkişafıdır. yəni yivləmə üsulları və onların qohumları) Markov təsadüfi sahələrindən istifadə etməklə [29] [30]. Çomskinin hesablama dilçiliyindəki problemlər üçün təqdim etdiyi formal qrammatikaların Çomski iyerarxiyası çərçivəsində bu və digər tam ehtimal modelləri haqqında düşünmək faydalıdır [31]. Searls [32] bioardıcıllıq analizində linqvistik yanaşmaların istifadəsinə dair əla müqəddimə yazmışdır.

Cəmi iki il ərzində HMM əsaslı profillər zülal strukturunun proqnozlaşdırılmasında və geniş miqyaslı genom ardıcıllığının təhlilində təmiz nəzəriyyədən praktik tətbiqə keçdi. HMM nəzəriyyəsinin bitləri, məsələn, Dirichlet priors qarışığından istifadə digər analiz metodlarına daxil edilir [33]. HMM-lərin və tam ehtimallı yanaşmaların dindar bir tərəfdarı kimi hesab edirəm ki, struktur biologiyada HMM tətbiqlərinin faydalılığı və çeşidi yalnız böyüməyə davam edə bilər.

Kembricdəki (Böyük Britaniya) hesablama biologiyası müzakirə qrupundakı həmkarlarıma, xüsusən də Qrem Mitçison və Riçard Durbinə çoxlu fikirlər üçün təşəkkür edirəm. HMM-lər üzrə işim İnsan Sərhəd Elmi Proqramı (LT-130/92) və Milli Sağlamlıq İnstitutunun (1-F32-GM16932) postdoktoral təqaüdləri tərəfindən lütfkarlıqla dəstəkləndi və hazırda Vaşinqton Universiteti tərəfindən dəstəklənir.

İstinadlar və tövsiyə olunan oxu

1. Altschul SF, Boguski MS, Gish W, Wooton JC:
Molekulyar ardıcıllıq verilənlər bazalarının axtarışında problemlər.
Nat Genet 1994, 6: 119-129.

2. Barton GJ:
Protein çoxlu ardıcıllıqla uyğunlaşdırılması və çevik model uyğunluğu.
Metodlar Enzymol 1990, 183: 403 427.

3. Gribskov M , McLachlan AD , Eisenberg D :
Profil analizi: uzaqdan əlaqəli zülalların aşkarlanması.
Proc Natl Acad Sci USA 1987, 84: 4355–4358.

4. Taylor WR:
Konsensus şablonunun uyğunlaşdırılması ilə zülal ardıcıllığının homologiyasının müəyyən edilməsi.
J Mol Biol 1986, 188: 233 258.

5. Bowie JU, Luthy R, Eisenberg D:
Məlum üçölçülü quruluşa qatlanan zülal ardıcıllığını müəyyən etmək üçün bir üsul.
Elm 1991, 253: 164 170.

6. Luthy R, Bowie JU, Eisenberg D:
Protein modellərinin üçölçülü profillərlə qiymətləndirilməsi.
Təbiət 1992, 356: 83 85.

7. Krogh A , Brown B , Mian IS , Sjolander K , Haussler D :
Hesablama biologiyasında Gizli Markov modelləri: zülal modelləşdirməyə tətbiqlər.
J Mol Biol 1994, 235: 1501-1531.
Bu, protein və DNT ardıcıllığı profilləri üçün HMM metodlarının istifadəsini təqdim edən məqalədir.

8. Baldi P, Chauvin Y, Hunkapiller T, McClure MA:
Bioloji ilkin ardıcıllıq məlumatının gizli Markov modelləri.
Proc Natl Acad Sci USA 1994, 91: 1059-1063.

9. Eddy SR, Mitchison G, Durbin R:
Maksimum ayrı-seçkilik gizli Markov modelləri ardıcıl konsensus.
J Comput Biol 1995, 2: 9-23.
Bu sənəd ardıcıllığı ölçmə metodlarının sayının getdikcə artmasına HMM tipli prinsipial töhfədir. O, qərəzli ardıcıllığın təqdimatını kompensasiya edən maksimum ehtimal parametrinin qiymətləndirilməsinə alternativ təqdim edir.

10. Çörçill GA:
Heterojen DNT ardıcıllıqları üçün stoxastik modellər.
Bull Math Biol 1989, 51: 79-94.

11. Stultz CM, White BM, Smith TF:
Dövlət-məkan modelləşdirməyə əsaslanan struktur təhlili.
Protein Sci 1993, 2: 305-314.

12. White BM, Stultz CM, Smith TF:
Stoxastik modelləşdirmə və amin turşusu ardıcıllığının optimal filtrasiyası ilə zülalların təsnifatı.
Math Biosci 1994, 119: 35 75.

13. Rabiner LR:
Gizli Markov modelləri və nitqin tanınmasında seçilmiş proqramlar üzrə təlimat.
Proc IEEE 1989, 77: 257 286.

14. Qodzik A, Kolinski A, Skolnik J:
Ters protein qatlanması probleminə topologiya barmaq izi yanaşması.
J Mol Biol 1992, 227: 227 238.

15. Mitchison GJ, Durbin RM:
Ağac əsaslı maksimal ehtimal ehtimalı əvəzetmə matrisləri və gizli Markov modelləri.
J Mol Evol 1995, 41: 1139-1151.

16. Baldi P, Şovin Y:
Gizli Markov modelləri üçün hamar onlayn öyrənmə alqoritmləri.
Neural Computation 1994, 6: 305 316.

17. Eddy SR:
Gizli Markov modellərindən istifadə edərək çoxlu hizalama.
Molekulyar Biologiya üçün İntellektual Sistemlər üzrə Üçüncü Beynəlxalq Konfransın Materiallarında. Rawlings C, Clark D, Altman R, Hunter L, Lengauer T, Wodak S. Menlo Park tərəfindən redaktə edilib: AAAI Press, 1995, 114-120.

18. Allison L, Wallace CS:
Düzəlişlərin posterior ehtimal paylanması və onun təkamül ağaclarının parametrlərinin qiymətləndirilməsinə və çoxsaylı düzülmələrin optimallaşdırılmasına tətbiqi.
J Mol Evol 1994, 39: 418-430.
Müəlliflərin işi HMM-ish xarakterlidir, lakin ehtimal modelləşdirmədən (maksimum ehtimal) daha çox məlumat nəzəriyyəsi (minimum mesaj uzunluğu) dilində yazılmışdır. Kontrast ibrətamizdir.

19. Shortle D :
Protein qatının tanınması.
Nat Struct Biol 1995, 2: 91-93.
Bu, zülal strukturunun proqnozlaşdırılması üçün mövcud metodların ciddi şəkildə müqayisə edildiyi Asilomar konfransının qısa icmalı. Bununla belə, nəzərə alın ki, Shortle zülal strukturunda ikili qalıq korrelyasiya ilə məşğul olan yivləmə üsullarını HMM-lərlə qarışdırır.

20. Brown M , Hughey R , Krogh A , Mian IS , Sjolander K , Haussler D :
Zülal ailələri üçün gizli Markov modellərini əldə etmək üçün əvvəllər Dirichlet qarışığından istifadə edin.
Molekulyar Biologiya üçün İntellektual Sistemlər üzrə Birinci Beynəlxalq Konfransın Materialları. Hunter L, Searls D, Shavlik J. Menlo Park tərəfindən redaktə edilmişdir. AAAI Press, 1993, 47-55.

21. Karplus K:
Amin turşularının paylanmasını qiymətləndirmək üçün nizamlayıcıların qiymətləndirilməsi.
Molekulyar Biologiyada İntellektual Sistemlər üzrə Üçüncü Beynəlxalq Konfransın materialları Rawlings C, Clark D, Altman R, Hunter L, Lengauer T, Wodak S. Menlo Park tərəfindən redaktə edilmişdir. AAAI Press, 1995, 188-196.

22. Baldi P:
Əvəzedici matrislər və gizli Markov modelləri.
J Comput Biol 1995, 2: 487 491.

23. Murzin A, Brenner SE, Hubbard T, Chothia C:
SCOP: ardıcıllıqların və strukturların tədqiqi üçün zülallar verilənlər bazasının struktur təsnifatı.
J Mol Biol 1995, 247: 536 540.

24. Krogh A , Mian IS , Haussler D :
E. coli DNT-də genləri tapan gizli Markov modeli.
Nuclein Acids Res 1994, 22: 4768–4778.
Bu, müxtəlif növ məlumatları vahid ehtimal modelinə inteqrasiya etmək üçün HMM metodlarının gücünün gözəl təsviridir. Kroghun gen modeli ribosomların bağlanma yerlərinin statistik təsvirini, başlanğıc və dayandırma kodonlarını, kodondan istifadəni və genlərarası təkrarlanan elementləri ehtiva edir.

25. Asai K , Hayamizu S , Handa KI :
Gizli Markov modeli ilə zülalın ikincil strukturunun proqnozlaşdırılması.
Comput Appl Biosci 1993, 9: 141-146.

26. Lange K, Boehnke M, Cox DR, Lunetta KI:
Poliploid şüalanma hibrid xəritələşdirilməsi üçün statistik üsullar.
Genome Res 1995, 5: 136-150.

27. Eddy SR, Durbin R:
Kovariasiya modellərindən istifadə edərək RNT ardıcıllığının təhlili.
Nuklein turşuları Res 1994, 22: 2079-2088.

28. Haussler D , Sakakibara Y , Brown M :
tRNA modelləşdirilməsi üçün stoxastik kontekstsiz qrammatikalar.
Nuklein turşuları Res 1994, 22: 5112-5120.

29. Berger B , Wilson DB , Wolf E , Tonchev T , Milla M , Kim PS :
Cütlü qalıq korrelyasiyalarından istifadə edərək qıvrılmış rulonların proqnozlaşdırılması.
Proc Natl Acad Sci USA 1995, 92: 8259-8263.
Zülal ardıcıllığının struktur analizində cüt qalıq korrelyasiyalarının nəzərə alınmasının əhəmiyyəti mübahisəlidir. Əgər cüt korrelyasiya nisbətən əhəmiyyətsizdirsə, HMM-lər hesablama dəyərinin bir hissəsi üçün zülalların tərs qatlanması üçün daha mürəkkəb "dişləmə" üsulları qədər yaxşı ola bilər. Bu günə qədər, bu məqalə ikili qalıq korrelyasiyasının modelləşdirilməsinin vacibliyi üçün inandırıcı hesab etdiyim bir neçə arqumentdən biridir. Berger və digərlərinin yanaşması sadə Markov təsadüfi sahəsidir, baxmayaraq ki, onlar bunu kağızda belə adlandırmırlar.

30. White BM , Muchnik I , Smith TF :
Modeling protein cores with Markov random fields.
Math Biosci 1994, 124: 149 179.

31. Chomsky N :
Three models for the description of language.
IRE Transactions in Information Theory 1956, 2:

32. Searls DB :
The linguistics of DNA.
Am Sci 1992, 80: 579 591.

33. Tatusov RL , Altschul SF , Koonin EV :
Detection of conserved segments in proteins: Iterative scanning of sequence databases with alignment blocks.
Proc Natl Acad Sci USA 1994, 91: 12091 12095.


Application on Biological sequences

Let’s consider a set of functionally related DNA sequences. Our objective is to characterise them as a “family”, and consequently identify other sequences that might belong to the same family.

We start by creating a multiple sequence alignment to highlight conserved positions:

It is possible to express this set of sequences as a regular expression. The family pattern for this set of sequences is:

Each position in the regular expression represents the nucleotides in the chain. Multiple options for each position are gathered in a bracket: thus, the first element could equally be an A or a T, the second one a C or G, and so on. The element indicated with a * represents a gap area: only the A is not bracketed, because it is the only possible option of that position.

The regular expression is useful because it allows us to spot the pattern of this family of sequences in a visual and simple compact view. However, the regular expression is not an adequate method when establishing whether other sequences are part of this family.

As an example, let’s consider two new sequences 1 and 2:

Both sequences fit the regular expression given above and, based on that alone, they could be considered part of the family. However, we can see that the first sequence is formed by the nucleotides occurring the fewest times in the multiple sequence alignment, while the second is formed by those most common. Indeed, in the first position, the T is present only once in the multiple sequence alignment, while A in all other sequences, similarly for the in the second position, the G only once and C, for all remaining sequences.

We need a way to measure the “distance” between a new sequence and the original set of family sequences. To solve this problem, we can use the MC and HMM:


LESSON PLAN

The class session takes place in a room with one large table, or tables suitable for sub-groups. Lecture slides are projected on the board. Students have access to computers (laptops).

Students in Bio 4342 are required to read 'What is a hidden Markov model?' by Sean Eddy (3) prior to class. The paper is relatively short and is well-designed for non-CS readers.

The lesson plan is presented as a flowchart (Figure 2). Class starts with a brief introductory lecture followed by discussions and collaborative work.


Şəkil 2. Timeline for Introduction to Hidden Markov Models Class Activities.

The lecture on HMM fundamentals is aimed at giving students a basic intuition for how ab initio gene finders identify genes within a genomic sequence. The lecturer introduces the types of problems that an HMM is designed to solve, as well as the different components of an HMM, including transition probabilities, emission probabilities, and state machines.

There are various ways to make students confortable with the probabilistic nature of the HMM. We include two PowerPoint presentations that were used as the HMM introductory lecture at Washington University. Both presentations were designed for students with similar background knowledge. One of the presentations (by Zane Goodwin) focuses primarily on the material from the Eddy paper (S1, S3). Because the students were assigned to read the Eddy paper before class, the instructor can assume that the students are already familiar with the HMM 'toy' model diagram. This pre-reading enables the instructor to spend more time on explaining how different elements of the system work. This approach also teaches students to be more confident when reading conceptual scientific publications. The second presentation (by Zongtai Qi) provides broader background information on HMMs, using weather prediction (a common choice) to introduce the concepts of hidden states and state transition probabilities before turning to the splice site prediction model. This presentation also provides a detailed explanation of the components in the 'toy' HMM model and the probability calculations for each state path (S4).

A critical aspect of the introduction is developing an understanding of how the state path probabilities are calculated. Dr. Weisstein uses a six nucleotide-long DNA sequence as an example to illustrate the states, transition and emission probabilities, and the probability associated with each state path in order to identify the most probable state path. All calculations are done manually on the board with active student participation (lecture video recording is available at Genomics Education Partnership website http://gep.wustl.edu/media/weisstein-hmm-lecture). The close interactions between the instructor and students help ensure the success of each student when they are 'playing' with the simple HMM example subsequently using the Excel workbook (S6, S10).

Students are then introduced to the Excel workbook. For ease of demonstration, the workbook begins by analyzing a very short sequence before re-creating Eddy's full, 26-bp model. The first sheet in the workbook, appropriately named "Simple Model," demonstrates the calculations involved in using the parameters of the HMM to determine the most likely splice site location (Figure 3). The user enters a short DNA sequence and sets the model parameters in the Excel worksheet, which uses these values to compute the likelihood of each potential 5' splice site location. The workbook and step-by-step instructions are provided in the S5. Based on the reflections from the Bio 4342 students at Washington University in St. Louis, we suggest that the instructor starts this activity with the Excel spreadsheet projected on the board and walk through the first worksheet, perhaps stopping at cells that are most crucial to creating the predictions. It would also be beneficial to make students aware that the homework contains questions that are based on the Excel workbook fəaliyyət.


Şəkil 3. The Excel workbook “Hidden Markov Model” illustrates the mathematical workings of an HMM, using Eddy’s (2004) example of locating the 5’ splice site within a DNA sequence.

After completing the exercises associated with the "Simple Model" as a group, students move to the "Full Model" sheet, which uses the exact sequence and parameters as the Eddy publication (3) at this point students are expected to be working mostly individually.


Hidden Markov Model - Biology

Markov Models are conceptually not difficult to understand, but because they are heavily based on a statistical approach, it's hard to separate them from the underlying math. This page is an attempt to simplify Markov Models and Hidden Markov Models , without using any mathematical formulas.

Brief overview of a Model

A Markov Model , in the context of Molecular Genetics is nothing more than a series of probabilities which tell you how likely a particular sequence is to have descended from a particular "Ancestral" sequence, or vice versa, what the most probable "Ancestral" sequence is. Tada. Now you know what a Markov Model is. However, that takes most of the elegance of the process and puts it out of it's misery. The beauty of the model is that, among many other things, it can create it's own "Ancestral" sequence and set of rules.

A Markov Model (MM) can be thought of as a board game, albeit not a particularly fun board game and certainly not one I'd pull out on a lazy sunday evening, but a board game of sorts. Somewhat like a cross between snakes and ladders (since the squares are often connected to non adjacent squares) and a really weird version or trivial pursuit, where each square you land on gives you an answer instead of asking a question. However, very much different from either of those games, usually the best strategy is to stay on the same square for long periods of time.

The rules of the Markov Model Game:

1. Each square will give you a letter. (In the case of DNA, you only have a 4 letter alphabet to work with, ACTG. For proteins, with a 20 letter alphabet, you have a slightly more complex model to deal with.) Each square will give out the letters in different proportions. (Some squares will give As and C's most of the time, or some will just give out G's all the time.. but, most importantly, no two squares are the same.)
1a. Each letter has a number (or score) between 1 and 0 attached to it.
1b. At the end of the game, you multiply all of those numbers together to obtain your final score. (It's hard to keep ALL the math out of it)

2. The longer you stay on one square, the better your model is. Hence
2a. Each time you move from one square to another, you are penalized.

3. There are two squares which you can go to at any time, the delete square and the insert square, with little or no penalty attached, however they do not give you a letter and thus, no number is generated either.

The goal of the Markov Model Game.

The object of the Markov Model Game is to take any given sequence and find how likely it is to have come from your "Ancestral" sequence, that is, to obtain the highest possible score, while raking up the fewest possible penalties. Alternately, you can use a single sequence, and determine how well it fits your model. And that is exactly what we'll try to do with an example.

A really simple version of the game would have two squares, and would start with the sequence:

The two squares in this game would be:

In Square 1, you get A's and T's nearly all of the time, but you can get the Rare C or G.

In Square 2, you get C's and G's nearly all of the time, but you can get the Rare A or T.

given this example, you can tell that the best strategy for playing this round would be to stay on the first square until you've reached the 15th letter, then move over to the 2nd square. As far as the first C in the sequence (11th letter) is concerned, moving to square 2 and then back would have incurred an additional 2 moving penalties (call that strategy A), whereas staying on Square 1 and accepting a low score for that letter (strategy B) is much more likely to help you win the round.

Here's where the game becomes REALLY weird. Hidden Markov Models (HMMs) can be hidden to different degrees (1) depending on what you aren't allowed to see. A true Hidden Markov Model arises when you aren't allowed to know what squares a player took to win the game. however, you are allowed to know the sequence of letters that were emitted as they won the game. Yet, the path that the player took to get those letters can't be seen. This is really starting to stretch the model, but that would essentially be like playing the board game in the dark, while the board moves around. ok.. that's really not getting anywhere. Perhaps it's more like having someone else play the game for you, but won't tell you what square they're putting the game piece on. but you get the point. That may sound rather odd.. after all why would you want someone else to play a game for you, especially when they won't tell you what's going on?

Well, if we know what the board looks like, but not the path, we can use the theory of a Hidden Markov Model to: (2)

Problem #1: Given an observed set of letters, what's the best possible score you can obtain?
Problem #2: Given an observed set of letters, what's the best possible path you can travel?
Problem #3: How can we create a better board to play a specific game?

Unfortunately, like any board game.. how can you improve on a best seller? In fact, there is no known method to solve problem #3 mathematically, although small modifications can be found, there is no way to ever find the best possible game for any particular round. As far as I can tell, this isn't impossible, it's just that no one knows how to do it. There is always room to improve.

Regardless of what we don't know or what we want to find out, there are always some common elements to a Hidden Markov Model . We might not know all or any of them, but they the pieces that are included with the HMM game.

1. In order to do anything productive, you must know the number of squares
2. You also need to know the size of the alphabet your game uses. (DNA uses 4, Proteins use 20 or so..)
3. There is also a probability of moving from one square to the next on any given move.. consider these the dice of the game.
4. As well, there is a probability of any given square emitting a particular. a second set of dice.
5. And, last but not least, you need to know how everything starts. This is rather like monopoly, where the rule sheets tell you how much money each player gets. Although, for this game, you just need to know which square says GO.

Various types of Hidden Markov Models

An interesting consequence of Markov Models comes from the fact that you can design different boards to play on. From any one square, you don't necessarily have to be able to get to any other square and you can make paths between any two squares one directional. Imagine a four square model, where the squares are places in a box shape (yes, I do mean a square, but I don't want to make it any more confusing than it already is), and you can go from any square to any other square.

1 2
3 4

First imagine a game where you can move from any square to any other square.. this is the most "complex" case, despite being easiest to explain.

Now, to create a second game, use the same configuration, but this time you can't move diagonally.

A third game would have you start on square 1 and only move to numbers that are greater than the number that you're on. (for example.. in the order 1, 3, 4.) Obviously you'd have to stop on square 4.

A fourth game would have you only move clockwise on the squares.. 1, 2, 3, 4, 1, 2, 3. etc.

By now, you get the idea. There are an incredible number of games you can create with only 4 squares. And, naturally, you can increase the number of squares, thus increasing the number of games even further.

At any rate, you now have an endless number of games you can play on a lazy sunday afternoon. as I said before, Markov Models wouldn't be my choice of games. I'd prefer a good game of hearts or Silly Bridge or even Trivial Pursuit, but this should be good food for thought. Trivial pursuit has 73 squares, imagine how many Markov Models you could make out of that. Happy Gaming.

2. Rabiner, Lawrence R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition . Proceedings of the IEEE, vol. 77, No. 2, February 1989. P 257-286

Krough, et al. Hidden Markov Models in Computational Biology, Applications to Protein Modeling . J. Mol. Biol. (1994) 235, 1501-1531


Hidden Markov Model - Biology

All articles published by MDPI are made immediately available worldwide under an open access license. No special permission is required to reuse all or part of the article published by MDPI, including figures and tables. For articles published under an open access Creative Common CC BY license, any part of the article may be reused without permission provided that the original article is clearly cited.

Feature Papers represent the most advanced research with significant potential for high impact in the field. Feature Papers are submitted upon individual invitation or recommendation by the scientific editors and undergo peer review prior to publication.

The Feature Paper can be either an original research article, a substantial novel research study that often involves several techniques or approaches, or a comprehensive review paper with concise and precise updates on the latest progress in the field that systematically reviews the most exciting advances in scientific literature. This type of paper provides an outlook on future directions of research or possible applications.

Editor’s Choice articles are based on recommendations by the scientific editors of MDPI journals from around the world. Editors select a small number of articles recently published in the journal that they believe will be particularly interesting to authors, or important in this field. The aim is to provide a snapshot of some of the most exciting work published in the various research areas of the journal.


Videoya baxın: Using Markov models in health economic evaluation (Avqust 2022).