Məlumat

DNT / Amin turşusu ardıcıllığı arasında hesablama faizi

DNT / Amin turşusu ardıcıllığı arasında hesablama faizi


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bir cüt DNT ardıcıllığını (və ya alternativ olaraq bir cüt amin turşusu ardıcıllığını) daxil edə biləcəyim və faizi hesablaya biləcəyim bəzi vasitələr hansılardır oxşarlıq onların arasında şəxsiyyət göstəricisi?

BLAST bu və ya başqa bir şey üçün düzgün alqoritmdir?

Kontekst ondan ibarətdir ki, müəyyən bir patent bütün ardıcıllığı ən azı 90% və ya daha çox eyni ardıcıllıqla qoruyur. Mən bəzi namizəd ardıcıllığını sınamaq və yüzdə şəxsiyyət göstəricisini yoxlamaq istədim.

Aşağıda mən onların şəxsiyyət göstəricilərini müəyyən edən bir patent parçası göndərirəm.


tBLASTn, BLASTx və tBLASTx istifadə edilə bilər.

Burada aydın şəkildə təsvir edilmişdir.

Əgər yalnız iki ardıcıllığınız varsa, verilənlər bazasında axtarış aparmağa ehtiyac yoxdur. Siz sadəcə Davidin qeyd etdiyi kimi Smith-Waterman və ya Needleman-Wunsch alqoritmlərindən istifadə edərək onları uyğunlaşdıra bilərsiniz. Bununla belə, uyğunlaşdırmadan əvvəl DNT-ni zülala çevirməlisiniz. Yenə, Davidin qeyd etdiyi kimi, zülal uyğunlaşmaları ilə siz adətən şəxsiyyətdən istifadə etmirsiniz. Oxşarlığı hesablamaq üçün PAM və ya BLOSUM kimi qiymətləndirmə matrislərindən istifadə olunur.


Müqayisə etmək istəyirsinizsə iki xüsusi ardıcıllıq ki, siz artıq var, onda BLAST özü sizə lazım olan proqram deyil. BLAST, sorğu ardıcıllığına bənzər ardıcıllıqlar üçün böyük verilənlər bazasında sürətli axtarış üçün evristik üsullardan istifadə edən proqramdır. Əldə edilən ən yüksək bal ardıcıllığının hər biri, evristik olmayan, tamamilə fərqli köhnə və daha yavaş dinamik proqramlaşdırma alqoritminin icrası ilə təqdimat üçün “tamamlanır”.

NCBI-də BLAST tətbiqində sadəcə iki ardıcıllığı müqayisə etmək üçün bir seçim var, lakin bu qəribə görünür, çünki dinamik proqramlaşdırma uyğunlaşdırma alqoritmini də istifadə etmək olar. Bundan əlavə, nəticə istədiyiniz kimi deyil, a bal verir yerli uyğunlaşdırma, halbuki patentiniz a qlobal düzülmə (görmək aşağıda).

Beləliklə, iki ardıcıllığın cüt müqayisəsi üçün adətən Smith və Waterman dinamik proqramlaşdırma alqoritmini həyata keçirən proqramdan istifadə olunur. yerli uyğunlaşdırma (yalnız ən yaxşı oxşarlıq bölgələri müqayisə edilir) və ya Needleman və Wunsch alqoritmi qlobal hizalanma (hər iki ardıcıllığın hamısı müqayisə edilir). Patent spesifikasiyanızdan açıq şəkildə qlobal uyğunlaşma və faiz identifikasiyası üçün bir dəyər istəyirsiniz.

Siz onların hər ikisinin pulsuz veb tətbiqlərini 'Needle' proqramının həyata keçirdiyi EBI veb-saytında (digər yerlər arasında) tapa bilərsiniz. qlobal tələb etdiyiniz uyğunlaşma. Alternativ olaraq, BOKT-da BLAST dəstinə yalnış şəkildə daxil edilmiş Needleman və Wunsch alqoritminin tətbiqi mövcuddur.

Mən bu proqramlarda patentlə bağlı bir nəzəri problem görürəm, baxmayaraq ki, bunun praktikada əhəmiyyəti olmaya bilər. Patentdə deyilir ki, "Optimal uyğunlaşma, faiz nisbətinin mümkün olan ən yüksək olduğu uyğunlaşmadır". Lakin bu proqramlar ən yüksək əsasında deyil, “ən yaxşı” uyğunluğu tapmağa çalışır şəxsiyyət xal, lakin ən yüksək əsasında oxşarlıq xal. Bu, müəyyən amin turşularının dəyişdirilməsi ehtimalını əhatə edən bir sıra emperik qiymətləndirmə matrislərindən birini istifadə etməklə həyata keçirilir. Məsələn, oxşar amin turşuları (məsələn, Glu/Asp) arasındakı uyğunluq 5-lik mükəmməl uyğunluq balı ilə müqayisədə 4 xal verə bilər. Üstəlik, Trp kimi bir amin turşusu üçün mükəmməl uyğunluq Gly üçün bir baldan qat-qat yüksəkdir. (Bu və bu şərtlər haqqında daha çox məlumatı Vikipediya Ardıcıllığı Alignment girişində və ya BLAST Lüğətində tapa bilərsiniz.)

İndi 'ən yaxşı' ardıcıllığın optimallaşdırılması ilə əldə edildiyini gözləyirsiniz oxşarlıq bu şəkildə də ən yaxşısını verəcək şəxsiyyət xal. Bu, 90% eynilik və ya daha yüksək ardıcıllıqlar üçün olduqca mümkündür, lakin bunun mütləq olması üçün heç bir səbəb yoxdur. Nəzəriyyə olaraq, ən yüksək şəxsiyyət xalını əldə etmək üçün siz bütün mükəmməl uyğunluqların eyni xal topladığı və bütün uyğunsuzluqların sıfır olduğu bir bal matrisindən istifadə etməlisiniz. Bu, öz müqayisə matrisinizdən istifadə etməyə imkan verən Needleman və Wunsch tətbiqindən istifadə etməklə mümkündür, məs. bu onlayn EMBOSS-Explorer tətbiqi. Problem ondadır ki, mükəmməl matçı hansı xalla (matç xallarının ortası?) vermək lazımdır, çünki bu, uyğunsuzluqlar üçün xal cəzalarına uyğun olmalıdır. Və ya bəlkə də siz yalnız ən yüksək şəxsiyyətlə maraqlandığınız üçün uyğunsuzluq cəzasını tamamilə ləğv etməlisiniz.

Mənim məsləhətim odur ki, Needleman və Wunsch alqoritminə keçin, defoltları qəbul edin və fərqli tətbiqlərlə eyni nəticə əldə etdiyinizi yoxlayın. Əgər vəkilləriniz daha çox şey istəsə, mən məsləhət verə bilərəm ;-).


Amin turşusu əvəzetmə matrislərinin öz dəyərinin təhlili zülallarda ardıcıllığın qorunması rejiminin kəskin keçidini aşkar edir.

Zülal ardıcıllığının bir çox struktur əsaslı düzülüşü üzərində amin turşularının dəyişdirilməsi və ardıcıllığın qorunması modeli faiz ardıcıllığının eyniliyinin funksiyası kimi təhlil edilmişdir. Amin turşusu əvəzetmələrinin statistikası öz dəyərinin parçalanmasının tətbiq olunduğu log-otds amin turşusu əvəzetmə matrisləri formasına çevrildi. Müəyyən edilmişdir ki, əvəzedici matrislərin ən mühüm komponenti alatoranlıq zonası ilə üst-üstə düşən 30-35% ardıcıllıq eyniliyində kəskin keçid nümayiş etdirir. Keçid nöqtəsindən yuxarıda ən dominant komponent amin turşularının dəyişkənliyi ilə əlaqədardır və o, hər hansı bir əvəzlənməyə mənfi təsir göstərir, halbuki keçid nöqtəsindən aşağıda ən dominant komponent amin turşularının hidrofobikliyi və oxşar hidrofobiklərin qalıqları arasında əvəzlənmə ilə əlaqədardır. xarakterə müsbət üstünlük verilir. Protein təkamülü və ardıcıllıq təhlili üçün təsirlər müzakirə olunur.


Laboratoriya proseduru

Orqanizmləri müqayisə etməyin bir neçə yolu var. Bir yol onların morfoloji xüsusiyyətlərindən keçir. Digər yollara zülal və ya DNT səviyyəsində müqayisələr daxildir. Bu fəaliyyət sizə zülaldan istifadə edərək yarasaları məməlilərlə və yarasaları quşlarla müqayisə etməyə imkan verəcək, beta-hemoqlobin.

Heyvanlarınızı tapın

UniProt verilənlər bazasına gedərək başlayın http://www.uniprot.org/ Üst alətlər panelindəki axtarış qutusuna ifadəni yazın hemoglobin beta və &ldqusearch&rdquo üzərinə klikləyin. Kompüter çoxlu girişləri əldə edəcək və onları bir neçə səhifədə göstərəcək.

&rarr Quşlar, iki yarasa və bir məməli üçün iki fərqli giriş tapın. (Bu şərtləri axtarış çubuğuna da əlavə edə bilərsiniz)

Siz axtarışa heyvanın adını əlavə etmək istəyə bilərsiniz, məsələn: &ldquochicken hemoglobin beta&rdquo Heyvan tapdığınız zaman onun heyvan olduğunu yoxlayın. hemoglobin beta zənciri (üstünlük ondan sonra rəqəm olmadan) və alfa və ya qamma kimi digər hemoglobin növləri deyil. Seçimlərinizin ümumi adını qeydlərinizə yazın. Seçdiyiniz heyvanın qarşısındakı qutuyu işarələyin, sonra yuxarı alətlər panelində &ldquoSəbətə əlavə et&rdquo üzərinə klikləyin. Siz hər bir girişi əlavə edərkən səhifənin yuxarı sağ tərəfində yerləşən &ldquoBasket&rdquo-da nömrələrin göründüyünü görməlisiniz. Bütün 5 heyvanınızı &ldquoBasket&rdquo-ya əlavə edənə qədər davam edin.

Yan-yana müqayisələr

1. &ldquoBasket&rdquo üzərinə klikləyin. Müqayisə etmək üçün iki heyvan seçin və adlarının qarşısındakı qutuya vurun. Seçiminizi etdikdən sonra &ldquobasket&rdquo-nun altındakı alətlər panelində görünməli olan &ldquoalign&rdquo-nu axtarın.

2. &ldquoalign&rdquo üzərinə klikləyin. Bu, seçdiyiniz iki heyvan üçün zülalları müqayisə etmək üçün məlumat sorğusu verəcəkdir. Proqramın işləməsi bir və ya iki dəqiqə çəkə bilər.

3. Zülal ardıcıllığı səhifənin ortasında &ldquoalignment&rdquo başlığının altında yerləşir. Sağdakı sürüşdürmə çubuğundan istifadə edərək, amin turşusu ardıcıllığını tapın. Amin turşuları tək hərfli simvollarla göstərilir. Bu, iki ardıcıllığın həqiqi uyğunlaşmasını göstərir.

  • * (ulduz işarəsi) tək, tam qorunan qalığı olan mövqeləri göstərir.
  • A: (kolon) çox oxşar xassələrin qrupları arasında qorunma olduğunu göstərir
  • A . (dövr) zəif oxşar xassələrin qrupları arasında konservasiyanı göstərir
  • A - (tire) həmin yerdə heç bir amin turşusu olmadığını göstərir

4. Səhifədə &ldquoNəticə Məlumatı&rdquo başlığına daha aşağı baxın və &ldquoidentity&rdquo tapın. Dəyəri qeydlərinizdə qeyd edin. Bu dəyər iki zülal arasında oxşar olan amin turşularının faizidir. Əgər bütün amin turşuları eyni olsaydı, faiz eyniliyi 100% olardı. Orqanizmlər arasındakı fərqli amin turşuları zamanla DNT-də toplanmış mutasiyaların nəticəsidir. Daha çox fərqlər orqanizmlərin olduğunu göstərir daha az sıx bağlıdır. Az fərqlər orqanizmlərin olduğunu göstərir daha sıx bağlıdır.

5. Bütün orqanizmləriniz arasında bütün yan-yana müqayisələr üçün &ldquopercent identity&rdquo dəyərinə sahib olana qədər müqayisə prosesini təkrarlayın. Aşağıdakı cədvəldə hər düzülmə üçün % yazın və orqanizmləri ümumi adla müəyyən edin


Kimlik nədir?

Ardıcıllığın düzülüşündə identiklik iki fərqli ardıcıllıq arasında tam uyğun gələn simvolların sayıdır. Beləliklə, şəxsiyyəti qiymətləndirərkən boşluqlar nəzərə alınmır. Ölçmə iki ardıcıllıq arasında daha qısa ardıcıllıqla əlaqəli hesab olunur. Bu, ardıcıllıq şəxsiyyətinin keçidli olmadığı yerdə təsirə malik olduğunu əhəmiyyətli dərəcədə göstərir. Əgər X=Y və Y=Z, onda X mütləq Z-yə bərabər deyildir. Bu, eynilik məsafəsi ölçüsü baxımından çıxarılır.

Şəkil 02: Sequence Alignment-də eynilik

Məsələn, X-də AAGGCTT, Y-də AAGGC, Z-də isə AAGGCAT ardıcıllığı var. X və Y arasındakı eynilik 100% <5 eyni nukleotid/dəq[uzunluq(X), uzunluq(Y)]> təşkil edir. Y və Z arasındakı eynilik də 100% təşkil edir. Lakin X və Z arasındakı eynilik yalnız 85% <(6 eyni nukleotid / 7)> təşkil edir.


Nəticələr

CpDAA məlumat inteqrasiyasına uyğun dinamik xəritəçəkmə mənzərəsini xarakterizə etmək

Yüksək sədaqətli multi-omik məlumat inteqrasiyasına nail olmaq üçün ilk addımımız hərtərəfli test məlumat dəstini yaratmaq idi. Bunun üçün biz ictimaiyyətə açıq olan sistein və lizin kemoproteomik məlumat dəstlərini (Weerapana) birləşdirdik. və b, 2010 Backus və b, 2016 Hacker və b, 2017), nəticədə 4119 unikal zülalda cəmi 6510 CpD sistein və 9327 CpD lizin aşkar edildi. Bu 15,837 CpDAA daha sonra sistein və ya lizin-reaktiv zondlar (müvafiq olaraq yodoasetamid alkin [IAA] və ya pentinoik turşusu sulfotetrafluorofenil ester [STP]) ilə işarələnmiş qalıqlar və əlavə olaraq yüksək reaktivlik ölçülərinə malik (yenidən aktivləşdirilmiş) qalıqlar üzrə alt kateqoriyalara bölünür. -, orta və aşağı reaktiv qalıqlar Dataset EV1).

Əsas məqsədimiz zülal, transkript və DNT ardıcıllığının müxtəlif versiyalarına əsaslanan funksional annotasiyalardan istifadə edərək CpDAA-ları xarakterizə etmək olduğundan (Şəkil 1A), növbəti addımımız verilənlər bazasıdaxili və verilənlər bazası arası xəritəçəkmə üçün yüksək dəqiqlikli məlumat analizi boru xəttini hazırlamaq idi. Təhlillərimizə rəhbərlik etmək üçün biz ilk olaraq bu cür məlumatların xəritələşdirilməsi üçün müəyyən edilmiş üsullara, o cümlədən ID xəritəsinə istinad etdik (Huang və b, 2008 Meyer, Geske, & Yu, 2016 Xin və b, 2016), qalıq-qalıq xəritəsi (Martin, 2005 David & Yip, 2008 Dana və b, 2019) və qalıq-kodon xəritəsi (Çjou və b, 2015 Li və b, 2016 ) (Hər bir xəritəçəkmə növünün ətraflı təsviri üçün Əlavə Cədvəl S1-ə baxın).

Şəkil 1. Ardıcıllıq annotasiya məlumatı yeniləmələrinin mənzərəsi

  1. Kemoproteomik aşkar edilmiş amin turşularının (CpDAAs) patogenlik skorlarına uyğunlaşdırılmasının sxematik təsviri.
  2. Gen annotasiyası verilənlər bazası buraxılış tarixlərinin və layihəyə aid məlumat dəstlərinin, o cümlədən kanonik UniProtKB zülal ardıcıllığına əsaslanan CpDAA koordinatlarına uyğunluğu üçün sınaqdan keçirilmiş Ensembl buraxılışları (Şəkil 2) və genomik patogenlik ballarına uyğun verilənlər bazası arayışı (Şəkil 3).
  3. Avqust 2013 və iyul 2019 arasında buraxılışlar üçün verilənlər bazası buraxılış dövrünün orta uzunluğu. Bütün dəyərlər orta ± SD-dir. Cəmi 25 Ansambl, 13 GENCODE, altı CCDS (yalnız homo sapien) və beş NCBI buraxılışı hesablanıb. UniProtKB dəyəri UniProt saytında bildirilmiş buraxılış dövrü uzunluqlarının orta göstəricisi əsasında hesablanmışdır.

Müstəqil verilənlər bazalarının tez-tez və sinxronlaşdırılmamış yeniləmə dövrlərinin (Şəkil 1B Dataset EV2) qalıq səviyyəsində dəqiq xəritələşdirməni çətinləşdirə biləcəyindən şübhələnirdik. Bu fərziyyəni dəstəkləyərək, bu müddət ərzində hər bir verilənlər bazası üçün orta yeniləmə dövrünün kəmiyyəti müəyyən etdi ki, UniProtKB ən qısa orta yeniləmə dövrünə malikdir (

6 həftə Şəkil 1C). Bunun əksinə olaraq, NCBI yalnız hər il yenilənir. Bu müxtəlif yeniləmə dövrləri identifikator çarpaz istinad (a.k.a. Xarici Referans [xref]) faylları yaratmaq üçün istifadə olunan verilənlər bazası versiyaları arasında gecikmə yarada bilər (Əlavə Cədvəl S1). Məsələn, UniProtKB zülalları üçün Ensembl tərəfindən təmin edilən ID xəritələşdirmə faylları, UniProtKB yeniləmələri arasında qısa 4 həftəlik pəncərədə istifadə edilmədikdə, eyni ardıcıllığı paylaşmaya bilər.

Verilənlər bazası yeniləmə dövrlərinin və xəritəçəkmə strategiyasının məlumat inteqrasiyasının düzgünlüyünə necə təsir etdiyini daha çox xarakterizə etmək üçün biz Ensembl buraxılışlarının sınaq dəstini topladıq (Əlavə Şəkil S1 və Dataset EV3). Xüsusi buraxılışlara üstünlük verilmişdir ki, (i) GRCh37 və ya GRCh38 istinad genomuna əsaslanan istinad buraxılışlarını təmsil edir, (ii) insan genomu üçün ən son Konsensus Kodlaşdırma Ardıcıllığı (CCDS) yeniləməsi ilə uyğun gəlir (buraxılış 22), (iii) sinonim olmayan funksional proqnozlar üçün verilənlər bazası (dbNSFP) v4.0a və CADDv1.4, bütün mümkün sinonim olmayan tək nukleotid variantları (SNV) üçün funksional annotasiyaları birləşdirən iki resurs (Kircher və b, 2014 Liu və b, 2016 Rentzsch və b, 2019 ) və (iv) Ensembl Variant Effect Predictor (VEP) (McLaren) proqramının çox istifadə edilən versiyası ilə əlaqələndirildi və b, 2016 ).

Əlimizdə olan bu prioritet verilənlər dəstləri ilə biz daha sonra UniProtKB buraxılışlarının verilənlər bazasıdaxili xəritələşdirilməsi və müxtəlif Ensembl buraxılışlarına verilənlər bazası ID-nin xəritələşdirilməsi zamanı CpDAA tərkibli zülal İdentifikatorlarının itirilməsini izlədik. Sevindirici haldır ki, həm Ensembl (məsələn, Ensembl-in v97 buraxılışı üçün 37 İD), həm də UniProtKB (məsələn, 2012 UniProtKB Əlavəsi Şəkil S1, Datasets EV1 və 26 ID) üçün verilənlər bazası yeniləmələri səbəbindən orijinal 4119 protein identifikatorundan yalnız bir neçəsi itirildi. EV4). Ən böyük identifikator itkisi UniProtKB əsaslı köhnə məlumatların 2018-ci ilin məlumat dəstində tapılmayan 119 ID ilə insan proteomunun 2018 UniProtKB-SwissProt CCDS çarpaz istinadlı kurasiyası ilə xəritələşdirilməsi zamanı müşahidə edilmişdir. Biz bu identifikator itkisini həm UniProtKB yeniləmələrinə, həm də CCDS verilənlər bazasında çarpaz istinadlı (“xref”) giriş termini ilə yalnız İsveçrə-Prot kanonik zülal ardıcıllığını ehtiva edən 2018 məlumat dəstindəki zülalların daha yüksək kurasiya səviyyəsinə aid edirik. Qeyd edək ki, CCDS gen identifikatorları əl ilə nəzərdən keçirilir və UniProtKB-SwissProt ilə əlaqələndirilir. TREMBL verilənlər bazası avtomatik olaraq yaradılan zülal identifikatorlarından ibarətdir və nəticədə əl ilə seçilmiş SwissProt CCDS alt dəsti ilə müqayisədə əhəmiyyətli dərəcədə daha böyük UniProtKB ID dəstindən ibarətdir (Əlavə Şəkil S2). Bu təhlillərdən belə nəticəyə gəldik ki, CCDS UniProtKB buraxılışından istifadə funksional annotasiyaları kemoproteomik məlumat dəstləri ilə inteqrasiya etmək üçün optimaldır.

UniProtKB sabit identifikatorlarına təyin edilmiş kanonik ardıcıllıqlara edilən yeniləmələr CpDAA-ların verilənlər bazası daxilində yanlış təsvirinə səbəb ola bilər.

Dərc edilmiş CpDAA verilənlər dəstləri də daxil olmaqla, proteomika verilənlər bazası iki əsas səbəbə görə müntəzəm olaraq yalnız kanonik UniProtKB zülallarını (Əlavə Cədvəl S1) ehtiva edən FASTA fayllarına qarşı axtarılır. Birincisi, kanonik zülallar proteom axtarış verilənlər bazalarının artıqlığını və mürəkkəbliyini azaldır. İkincisi, bu ardıcıllıqlar sabit identifikatorlar (həmçinin UniProtKB əsas qoşulmaları kimi tanınır) tərəfindən müəyyən edilir və verilənlər bazası yeniləmə dövrləri vasitəsilə sabit qalmağın görünən üstünlüyü təklif edir. Bununla belə, stabil identifikatorun xüsusilə çaşdırıcı cəhətlərindən biri odur ki, bu kontekstdə “sabit” sözü daimi və ya dəyişməz məna daşımır. Xüsusilə, sabit identifikatorla əlaqəli əlaqəli ardıcıllıq verilənlər bazası buraxılışları üzərində dəyişə bilər.

Buna görə də, biz daha sonra UniProtKB sabit identifikatorlarına təyin edilmiş kanonik ardıcıllıqlara edilən yeniləmələrin yanlış xəritə ilə nəticələnib-nəticələnmədiyini və nə dərəcədə qiymətləndirdik. CpDAA məlumat dəstimizin bütövlüyünü təsdiqləmək üçün biz CpDAA zülal İdentifikatorlarının və qalıq mövqelərinin 99%-dən çoxunun 2012-ci il UniProt FASTA faylında tapılanlarla uyğunlaşdığını təsdiq etməklə bu prosesə başladıq. bax Materiallar və Metodlar və Dataset EV1). İtirilmiş məlumatların kiçik bir hissəsi sabit identifikatorların çatışmaması və uyğun olmayan CpDAA mövqeləri ilə bağlıdır ki, bu da çox güman ki, orijinal emal boru kəməri ilə cari iş axınımız arasında kiçik uyğunsuzluqlardan qaynaqlanır. Daha sonra biz insan proteomunun 2018-ci il UniProtKB CCDS kanonik ardıcıl alt dəstinə 2012-ci il məlumat dəstində müəyyən edilmiş 4084 kanonik zülaldan 6,404 CpD sistein və 9,213 CpD lizin xəritəsini çəkdik. CCDS ardıcıllıqlarının xəritələşdirilməsi bizə gen, transkript və zülal ardıcıllıqları arasında irəli və tərs annotasiyaları asanlaşdıran və genomik funksional qeydlərə (Dataset EV5) qalığa xüsusi xəritələşdirməyə imkan verən geniş alətlər sırasından istifadə etməyə imkan verdi (Çjou). və b, 2015 Meyer, Geske, & Yu, 2016 McGarvey və b, 2019). 2018-ci il buraxılışına yenilənmək bu alətlərdən istifadə üçün zəruri addım idi, çünki onlar ən yeni istinad genomu GRCh38-dən istifadə edərək ən son çarpaz istinad fayllarını tələb edir. Bütün CpDAA mövqeləri üçün, 2012-ci ilin kanonik UniProtKB ardıcıllığını 2018-ci il analoqları ilə (Dataset EV4) uyğunlaşdırmaq üçün müxtəlif verilənlər bazalarından və ya buraxılış tarixlərindən olan zülallardakı amin turşuları arasında tək-tək uyğunluq kimi təyin olunan qalıq-qalıq xəritəsini həyata keçirdik. Bu verilənlər toplusunun xəritələşdirilməsi 121 zülal identifikatorunun itirilməsi ilə nəticələndi, 108-i 2018-ci il arayış faylında sadəcə tapılmadı, qalan 13-ün isə fərqli kanonik ardıcıllığa malik olduğu aşkar edildi və nəticədə ilkin müəyyən edilmiş CpDAA qalıqlarının yanlış təsviri və ya itkisi ilə nəticələndi.

6 il ilə ayrılmış bu iki UniProtKB buraxılışı arasındakı yüksək uyğunluq onu göstərir ki, UniProtKB yeniləmələrinin böyük əksəriyyəti üçün buraxılış tarixindəki fərqlər miras proteomika məlumatlarının daha yaxınlarda buraxılmış gen, transkript və zülal ardıcıllığı ilə yenidən xəritələşdirilməsini çətinləşdirməməlidir. Bununla belə, bir neçə geniş şəkildə tədqiq edilmiş zülalların, o cümlədən zülal arginininin tapılması bizi təəccübləndirdi N-metiltransferaza 1 (PRMT1 və ya ANM1, Q99873), serin/treonin protein kinaz, (SIK3 Q9Y2K2) (Walkinshaw) və b, 2013) və tropomiyozin alfa-3 zənciri (TPM3, P06753) 2018 mövqe indeksindən (Dataset EV4) istifadə edərək bütün və ya demək olar ki, bütün CpDAA mövqelərinin buraxılması ilə nəticələnən kanonik zülal ardıcıllığı fərqlərinə malik idi.Biz bu itkilərin iki əsas səbəbini müşahidə etdik: (i) UniProtKB stabil ID ilə əlaqəli kanonik ardıcıllığa dəyişikliklər və (ii) kanonik ardıcıllıq kimi təyin olunan izoforma dəyişikliklər. PRMT1-in həm 2012, həm də 2018 ardıcıllığı UniProtKB stabil ID Q99873 ilə əlaqələndirilsə də, 2018-ci il ardıcıllığı 2012-ci il ardıcıllığında mövcud olmayan əlavə qısa N-terminal ardıcıllığını ehtiva edir (Şəkil 2A). Nəticədə, 13 PRMT1 CpDAA-nın hamısı 2018 UniProtKB buraxılışına uyğunlaşdırıla bilmədi. UniProtKB-nin 2012-ci il buraxılışında peptidil-prolil cis-trans izomeraz FKBP7-nin kanonik ardıcıllığı versiyalı (izoform) ID Q9Y680-1 ilə əlaqələndirilir, halbuki 2018-ci il buraxılışında kanonik ardıcıllıq versiyalı (izoform) ilə əlaqələndirilir. İD Q9Y680-2, zülalın ortasında qısa ardıcıllıq (AAΔ125:162) yoxdur. FKBP7 üçün bu yeniləmə təsadüfən CpD Lys83 itkisi ilə nəticələnmir, çünki o, silinmə üçün N-terminalda yerləşir. Zülal ardıcıllığına edilən bu yeniləmələr, mahiyyət etibarilə, ardıcıllıq yeniləmələrini və ya izoform ardıcıllığının kanonik olaraq təyin olunduğu dəyişiklikləri qeyd etməyən sabit ID-lərlə maskalanır. Bu problemi misal gətirərək, 2012 və 2018 UniProtKB buraxılışlarında (Dataset EV4) qeyri-eyni olmayan kanonik zülal ardıcıllığına malik 45 sabit identifikator müəyyən etdik.

Şəkil 2. Qalıq səviyyəli xəritələşdirmə və UniProtKB kanonik zülal ardıcıllığı ilə bağlı problemlər

  1. Sabit və ya versiyalı identifikatorlardan istifadə edərək kemoproteomik aşkarlanmış zülal ardıcıllığının yenilənməsi ilə xəritəçəkmə ssenarilərinin sxematik təsviri.
  2. 3,953 aşkar edilmiş zülal üçün sabit UniprotKB ID-yə görə izoformların sayının paylanması.
  3. 2487 multi-izoform UniProtKB kanonik zülalları üçün xüsusi izoform adının tezliyi.
  4. Beş buraxılışdan Ensembl stabil identifikatorlarının həm eyni, həm də eyni olmayan ardıcıllığına çarpaz istinad edən qlükoza-6-fosfat dehidrogenazanın (G6PD, UniProtKB ID P11413) sxematik təsviri.
  5. Beş buraxılışdan aşkar edilmiş UniProtKB və çarpaz istinad edilmiş Ensembl zülalları üçün zülal ardıcıllığı məsafə ballarının istilik xəritəsi. Hər bir gen adı bir unikal stabil Ensemb protein ID-yə uyğundur.

Protein izoformalarının mövcudluğu və ya olmamasının verilənlər bazası (UniProtKB) xəritələşdirilməsi zamanı verilənlərin xəritələşdirilməsinin düzgünlüyünə necə təsir etdiyini daha yaxşı başa düşmək üçün biz CpDAA stabil zülal ID-ləri ilə əlaqəli bütün izoformları müəyyən etdik. Bu məlumat dəstinin təhlili göstərdi ki, zülal stabil identifikatorlarının 58%-i 2-5 əlaqəli izoform ardıcıllığına malikdir (Şəkil 2B). Catenin delta-1 zülalının (CTNND1, O60716) 32 izoformu var idi ki, bu da verilənlər bazamızda (Dataset EV6) ən çox izoforma idi. Protein izoformları UniProtKB ID-dən sonra “-X” ilə müəyyən edilir, burada X izoformun adını təmsil edir. Əksər xəritəçəkmə vasitələrinin və proteomika verilənlər bazalarının ümumi fərziyyəsi “-1” ardıcıllığının kanonik ardıcıllıq olmasıdır. Bununla belə, izoform analizimizdən əsas nəticə ondan ibarətdir ki, kanonik ardıcıllıq həmişə UniProtKB tərəfindən təqdim edilən “-1” izoform identifikatoruna uyğun gəlmir. Əslində, UniProtKB 2018 buraxılışında 288 zülal üçün “-1” olmayan giriş kanonik izoformalara və məlumat dəstimizdəki 55 CpDAA tərkibli zülallara uyğun gəlir (

2%), kanonik ardıcıllıq “-1” izoformu deyil (Şəkil 2C və Dataset EV7). Təəccüblüdür ki, kanonik ardıcıllıq, Ras ilə əlaqəli və plekstrin homologiya domenləri olan protein (RAPH1, Q70E73) üçün olduğu kimi, hətta "-10" izoformu ola bilər. Verilənlər bazası xəritələşdirilməsi kontekstində, bütün bu qeyri-“-1” kanonik zülallar, çox güman ki, müəyyən edilmiş alətlərdən istifadə edərək yanlış xəritə ilə nəticələnəcək.

UniProtKB və Ensembl arasında dəqiq qalıq səviyyəli verilənlər bazası xəritələşdirilməsi verilənlər bazası yeniləmə dövrlərindən asılıdır

Ardıcıllıq versiyalarının verilənlər bazası arası xəritələşdirməyə necə təsir etdiyini araşdırmaq üçün biz daha sonra Ensembl və UniProtKB tərəfindən buraxılan ID çarpaz istinad fayllarına (Dataset EV3) müraciət etdik. Çarpaz istinad faylları UniProtKB və Ensembl ID növləri arasında çevirmək üçün istifadə edilə bilər. ID çarpaz istinadla bağlı üç əsas problem yaranır: (i) çarpaz istinad sabit ID-lər uyğun gələndə, lakin müvafiq ardıcıllıqlar eyni olmadıqda, (ii) UniProtKB ID-nin bir çox Ensembl zülalına (ENSP) uyğunlaşdığı, transkript, və gen identifikatorları və (iii) mənşəyi, həm buraxılışların vaxtı, həm də istifadə olunan çarpaz istinad faylları ilə təmin edilmiş xüsusi verilənlər bazası verilənlər dəstlərinin xəritələşdirilməsinin düzgünlüyünü müəyyən etdikdə.

Qlükoza-6-fosfat dehidrogenaz (G6PD, P11413) sabit ID ilə əlaqəli ardıcıllıq yeniləmələrinin CpDAA-lar üçün gen, transkript və zülal səviyyəli annotasiyaların yanlış təsvirinə necə səbəb ola biləcəyini nümunə göstərir (Şəkil 2D). G6PD üçün eyni UniProtKB ID-si eyni ardıcıllıqla dörd unikal ENSP ID-si (“Eyni” bölməsinin birinci sətrinə baxın), eləcə də eyni olmayan ardıcıllıqla dörd fərqli ENSP ID-si (“Qeyri-bərabər” bölməsində ikinci sətirə baxın). G6PD üçün bu əhəmiyyətli artıqlıq həm stabil, həm də versiyalı identifikatorlar üçün gen və transkript səviyyəsində də müşahidə olunur (Şəkil EV1A Dataset EV8). Ümumilikdə, istinad genomunun davamlı təkmilləşdirilməsi səbəbindən genlər ardıcıllığın yenidən annotasiyasının ən yüksək tezliyinə məruz qalırlar. Bunun əksinə olaraq, zülal identifikatorları buraxılışlar arasında əsasən sabit qalır (Şəkil EV1B Dataset EV9).

Şəkil EV1. Ansambl ID-lərinin UniprotKB-yə uyğunlaşdırılması gen, transkript və protein səviyyələrində heterojenliyi göstərir

  • A. Bütün beş Ensembl buraxılışı üzrə G6PD üçün stabil və versiyalı Ensembl geni, transkript və zülal ID-lərinin sayı.
  • B. v85 buraxılışından bəri Ensembl geni, transkript və zülal identifikatorları üçün məcmu ardıcıllığın yenidən annotasiyaları.
  • C, D. (C) tək izoform üçün Ensembl geninin, transkriptinin və zülal identifikatorlarının orta sayı (n = 1,466) və (D) çox izoformalı (n = 2,487) CpDAA UniProt girişləri. Bar qrafikləri sabit UniProtKB ID-si üçün Ansambl ID-lərinin sayı üçün ± SD orta dəyərləri təmsil edir. Statistik əhəmiyyət cütləşməmiş Tələbədən istifadə edərək hesablanmışdır t-test, ****P-qiymət < 0,0001.

Bütün CpDAA verilənlər bazasında nə qədər geniş yayılmış multi-xərçəngi qiymətləndirmək üçün biz UniProtKB ID-si üçün Ansambl ID-lərinin orta sayını kəmiyyətləşdirdik. Tək (Şəkil EV1C) və ya multi-izoform (Şəkil EV1D Dataset EV10) ilə əlaqəli sabit identifikatorlar ilə qruplaşdırılmış bütün CpD UniProtKB zülalları üçün həm versiyalı, həm də sabit Ansemb ID növlərini (gen, transkript və zülal ID-ləri) saydıq. Biz bütün məlumat növləri (gen, transkript və zülal) üçün verilənlər bazası yeniləmələrinin və UniProtKB izoformalarının mövcudluğunun məlumat dəstimizdə CpD zülal identifikatorlarının müşahidə edilən çoxlu xəritələşdirilməsinə kömək edəcəyindən şübhələnirdik. Qeyd edək ki, Ensebl versiyalı identifikatorlar izoformların mövcudluğundan daha çox əlaqəli ardıcıllığa dəyişiklikləri göstərir. Məsələn, protein tropomiyozin alfa-4 zənciri (TPM4, P67936) üçün v96-dan v97-ə yeniləmə zamanı stabil zülal identifikatoru “.3”dən “.4”ə (ENSP00000300933.3-dən ENSP00000300933.4-ə) versiya dəyişikliyini göstərdi. , bu, yeniləmənin yaratdığı ilkin ardıcıllıqda 165 amin turşusu fərqinə uyğundur (Dataset EV11). Təəccüblü deyil ki, çoxlu əlaqəli zülal izoformları olan UniProtKB stabil identifikatorlarının yalnız bir protein izoformu ilə əlaqəli UniProtKB stabil identifikatorları ilə müqayisədə UniProtKB sabit identifikatoru üçün çarpaz istinadlı Ensembl ID növlərinin daha yüksək orta göstəricisinə malik olduğunu aşkar etdik. Bundan əlavə, tək izoformlu UniProtKB sabit identifikatorlarının, çox izoformalı UniProtKB sabit identifikatorları ilə müqayisədə eyni ENSP-lərə çarpaz istinad etmək ehtimalı daha yüksəkdir (Əlavə Şəkillər S3 və S4).

Müəyyən etdiyimiz son problem odur ki, çarpaz istinad faylının mənşəyi (istər UniProtKB, istərsə də Ensembl tərəfindən yaradılmışdır) xəritəçəkmə prosedurlarımızın nəticələrinə təsir göstərmişdir. Beş Ensembl buraxılışı arasında bütün Ensembl-UniProtKB çarpaz istinad edilmiş ID-lərin yalnız 56,9%-i eyni protein ardıcıllığına malik idi (Əlavə Şəkil S3 Dataset EV8). Daha sonra biz UniProtKB-dən çapraz istinad faylından istifadə etdik ki, Ensembl xəritələşdirmə fayllarından fərqli olaraq, izoform adının təfərrüatlarının daxil edilməsinin verilənlər bazası identifikatorunun dəqiqliyini yaxşılaşdırıb-yaxşılaşmadığını yoxlamaq üçün UniProtKB zülalları üçün Ensembl sabit zülal İdentifikatorları üçün kanonik izoform zülal identifikatorları ilə xəritələri ehtiva edir. Xəritəçəkmə. Bu yanaşma UniProtKB-ENSP identifikatorları üçün > 99% eyni protein ardıcıllığına çarpaz istinadlara imkan verdi və identifikatorun çoxlu xəritələşdirilməsi yükünü əhəmiyyətli dərəcədə azaldıb (Əlavə Şəkil S4 Dataset EV12). Tədqiqatımız göstərir ki, yüksək dəqiqlikli ID çarpaz istinad verilənlər bazası yeniləmələri, multi-mapping və çarpaz istinad fayl mənbələrində istifadə edilən identifikator növləri ilə bağlı təfərrüatlara diqqət yetirməyi tələb edir. Biz həmçinin müşahidə etdik ki, xəritələnmiş UniProtKB və Ensembl stabil ID-ləri ilə əlaqəli ardıcıllıqlar Ensembl versiyasından (Şəkil 2E Əlavəsi Şəkil S5 Dataset EV11) asılı olaraq uyğunlaşma məsafəsində əhəmiyyətli dərəcədə dəyişdi, müvəqqəti olaraq yaxın buraxılışlar ümumiyyətlə daha böyük ardıcıllıq oxşarlığını göstərir.

Qalıq-kodon xəritəsindən istifadə edərək CpD sistein və lizin kodonları üçün patogenlik proqnozlarının qiymətləndirilməsi

Növbəti məqsədimiz funksional CpDAA-ların prioritetləşdirilməsinə qalıq-kodon xəritəsini tətbiq etmək idi. Sisteinlər və lizinlər 97% (Miseta və Csutora, 2000) və 80% (Hacker) ilə yüksək dərəcədə qorunur. və b, 2017 ) müvafiq olaraq median qorunma. Nəticə etibarilə, ardıcıllıq motivinin qorunması kemoproteomik məlumat dəstləri daxilində funksional və qeyri-funksional qalıqları ayırd edə bilməz. Patogenliyin prioritetləşdirilməsi üçün uyğun olan sistein və lizin mərkəzli genetik xüsusiyyətləri müəyyən etmək üçün boru xəttimizi kanonik UniProtKB zülallarında CpD sistein və lizin mövqelərini həm əsas genom birləşmələrindən (GRCh37 və GRCh38), həm də genom əsaslı funksiyadan genomik koordinatlara tərs tərcümə etmək üçün uyğunlaşdırdıq. annotasiyalar. Aşkar edilmiş zülallar olaraq adlandırılan CpDAA məlumat dəstimizdəki bütün zülallar üçün biz həmçinin CpD Cys- və/və ya CpD Lys tərkibli zülallarda aşkarlanmamış ekvivalent qalıq növlərini emal etdik (Şəkil EV2). Sisteinlərin və lizinlərin GRCh37 və GRCh38 istinad genom birləşmələrində etibarlı koordinatlara malik olması tələb olunurdu, çünki bəzi funksional genetik variant annotasiyaları yalnız bir genom yığıncağında mövcuddur (Dataset EV13). Prob-etiketli sisteinlər və lizinlər təmsil edir

Bütün sisteinlərin 15% (ümumi 40,107 Cys-dən 6,057 CpD Cys) və

Bütün lizinlərin 6%-i (149,520 ümumi Lys-dən 8,868 CpD Lys) kemoproteomik zülallarda aşkar edilmişdir (n = 3,840 UniProtKB identifikatoru Şəkil 3A və B-ni uğurla əlaqələndirdi).

Şəkil EV2. Xəritəçəkmə strategiyası və məlumatların təhlili cədvəli

Üç açıq məlumat dəstindən CpD sisteinləri və lizinləri optimallaşdırılmış xəritələşdirmə boru kəmərimizə uyğun olaraq işlənmiş və süzülmüşdür. Hər bir addımdan sonra saxlanılan CpD sisteinlərinin (qırmızı) və CpD lizinlərinin (mavi) sayı bar qrafikləri kimi göstərilir.

Şəkil 3. Aşkar edilmiş və aşkar edilməmiş sisteinlər və lizinlər arasında patogen yanlışlığın təhlili

  • A, B. 3840 CpDAA tərkibli zülallarda aşkar edilmiş və aşkarlanmamış sisteinlərin (A) və lizinlərin (B) ümumi sayı.
  • C. Səkkiz patogenlik balı üçün CpD sistein (29,541 səhv) ilə bütün mümkün qeyri-sinonim SNV-lər üçün səhv hesab korrelyasiyasının istilik xəritəsi. Ümumilikdə, Spearmanın r dərəcəsi 0,36 ilə 0,91 arasında idi.
  • D. Bütün mümkün sinonim olmayan SNV-lər üçün yanlış hesab nisbətləri üçün CpD Lizin (41,850 səhv) istilik xəritəsi. Spearmanın rütbəsi r 0,16 ilə 0,81 arasında.
  • E. Təsbit edilən zaman proqnozlaşdırılan zərərli Cys > Trp (qırmızı) səhv ehtimalı (n = 6,057) və aşkarlanmamış (n = 34,049) 3,840 aşkar edilmiş zülalda qalıqlar. CADD38, FATHMM və DANN bal hədləri ilə müəyyən edilmiş zərərli səhv (y ox). CADD38 OR = 0,76, P = 3.40e-22 FATHMM OR = 0.92, P = 0.02 DANN OR = 0.690, P = 6.69e-26. Təxmin edilən zərərli Lys > Ile (mavi) səhv ehtimalı aşkar edildi (n = 3,581) və aşkarlanmamış (n = 63,385) 3,840 aşkar edilmiş zülalda qalıqlar. CADD38 OR = 1.80, P = 1.03e-53 FATHMM OR = 1.55, P = 3.47e-33 DANN OR = 1.75, P = 9.21e-14. *P < 0,0042 Bonferroni ilə tənzimlənir (iki quyruqlu Fişerin dəqiq sınağı).
  • F. 3,840 aşkar edilmiş zülalda aşkar edilməmiş (34,050 Cys 140,652 Lys) qalıqlarına qarşı aşkar edilmiş ClinVar patogen variantının üst-üstə düşmə ehtimalı (6,057 Cys 8,868 Lys). ClinVar patogen yerində kis aşkar edildi (qırmızı, OR = 1.17, P = 0,457) və Lys ClinVar Patogen yerində aşkar edildi (açıq mavi, OR = 2,76, P = 1.03e-04). Birləşdirilmiş Cys və Lys (tünd mavi, OR = 2.26, P = 9.99e-07) *P < 0,0167 Bonferroni ilə tənzimlənir (iki quyruqlu Fişerin dəqiq sınağı).

Məlumat məlumatı: (E və F), 95% etibarlılıq intervalları (xətt seqmentləri) və ehtimal nisbətləri (kvadratlar). (C və D) rəng intensivliyi iki quyruqlu Spearmanın 0 və 1 arasında rütbə sıra korrelyasiya əmsallarını təmsil edir.

Sonra, 3840 aşkar edilmiş zülaldan sistein və lizin kodonlarının genomik koordinatları funksional ballar paneli ilə şərh edildi (Quang, Chen, & Xie, 2015 Shihab və b, 2015 Ioannidis və b, 2016 Jagadeesh və b, 2016 ilkin çap: Samocha və b, 2017 Sundaram və b, 2018 Rentzsch və b, 2019). Fərdi ballar və kemoproteomik identifikasiya etiketləri arasındakı əlaqəni qiymətləndirmək məqsədi ilə təhlilimiz üçün ya GRCh37, ya da GRCh38 istinad genom birləşmələrinə əsaslanaraq tamamlayıcı pan-genom və səhv zərərlilik proqnozu xallarını (Dataset EV13) seçdik. Hər iki məclis üçün mövcud olan CADD hesabı üçün biz CADD37 ilə müqayisədə CADD38 ilə bir qədər yüksək xalların tendensiyası müşahidə etdik (Əlavə Şəkil S6). Sistein və lizin kodonları ilə üst-üstə düşən bütün mümkün qeyri-sinonim SNV-lər üçün Spearmanın hesablarının korrelyasiyasını hesabladıq və CpD lizin əvəzetmələri ilə müqayisədə CpD sistein əvəzetmələri üçün zərərlilik proqnozları (Şəkil 3C Dataset EV14) arasında daha yüksək korrelyasiya gördük (Şəkil EV3D). Bütün mümkün qeyri-sinonim variantlar üçün zərərlilik xallarını təmin edən xalların alt çoxluğu üçün biz kemoproteomik tərəfindən aşkar edilmiş və aşkar olunmamış lizinlər və ya sisteinlər üçün xalların korrelyasiyası arasında əhəmiyyətli fərqlər müşahidə etmədik (Əlavə Şəkil S7 Dataset EV15).

Tədqiq olunan xalların bir hissəsi ilə təmin edilən patogenlik hədləri (məsələn, CADD, gizli markov modelləri [fathmm-MKL] vasitəsilə funksional analiz və Neyron Şəbəkələrdən istifadə edərək genetik variantların Zərərli Annotasiyası [DANN]) faydalı kəsmə təmin edir. xüsusi amin turşularında əvəzlənmələrin zülal funksiyasına zərərli olub olmadığını qiymətləndirmək üçün. Buna görə də, daha sonra aşkar edilmiş və aşkar edilməmiş sisteinlər və ya lizinlərdəki əvəzetmələrin zərərli proqnozlaşdırılma ehtimalının daha yüksək olub olmadığını qiymətləndirdik. Biz əvvəlcə sistein və lizin üçün amin turşusu əvəzetmələrini qiymətləndirdik və nəticədə ən böyük kimyəvi xüsusiyyət dəyişikliyi və ya ən yüksək Grantham balı (Grantham, 1974), Cys > Trp və Lys > Ile. CADD38 üçün (Kircher və b, 2014 ), fathmm-MKL kodlaması (Shihab və b, 2014) və DANN (Quang, Chen, & Xie, 2015), aşkar edilməmiş sisteinlərin dəyişdirilməsi ilə müqayisədə aşkar edilmiş sisteinlərin əvəzlənməsinin proqnozlaşdırılan zədələnmə ehtimalı daha az idi (Şəkil 3E, qırmızı Dataset EV16). Bunun əksinə olaraq, aşkar edilmiş lizinlərin dəyişdirilməsinin aşkar edilməmiş lizinlərin əvəzlənməsi ilə müqayisədə zərərli proqnozlaşdırılma ehtimalı daha yüksək idi (Şəkil 3E, mavi Dataset EV16). Sistein və lizin üçün bu tendensiya zərərli hesab zənginləşdirilməsini bütün yanlış məlumat növlərinə şamil etdi (Şəkil EV3A Dataset EV16).

Şəkil EV3. CPD sistein və lizin qalıqları üçün aşkar edilmiş-aşkar edilməmiş və reaktivlik qrupları arasında səhv patogenliyin qiymətləndirilməsi

  • A. 3,840 zülalda aşkar edilmiş və aşkarlanmamış sistein (qırmızı) və lizin (mavi) səhv variantları üçün proqnozlaşdırılan zərərli səhv variantlarının zənginləşdirilməsi. Grantham xalını artırmaq üçün yanlış tiplər. Sistein kodonlarında 0,56 ilə 0,76 arasında olan bütün mümkün sinonim olmayan SNV-lər üçün Odds nisbəti (OR), lizin kodonlarında isə 1,38 ilə 1,80 arasında düşür. 95% etimad intervalları (xətt seqmentləri) və ehtimal nisbətləri (kvadratlar), iki quyruqlu Fisherin dəqiq testi, *P < p kəsmə, və 0,0019 Bonferroni ilə düzəldilmiş (0,05/26).
  • B, C. Orta CADD38 (GRCh38 üçün model) (B) sistein üçün PHRED ballarının paylanması (n = 1,401) və (C) lizin (n = 4,363) izoTOP-ABPP nisbətləri ilə müəyyən edilmiş aşağı, orta və yüksək daxili reaktivliklərin CpDAA-ları, aşağı (R10:1 > 5), orta (2 < R10:1 < 5), yüksək (R10:1 < 2) (Weerapana və b, 2010 Hacker və b, 2017). Reaktivlik qrupu fərqini yoxlamaq üçün Kruskal-Wallis qeyri-parametrik test, cüt müqayisə üçün istifadə edilən Wilcox testi (BH-ə uyğunlaşdırılmışdır) P- dəyərlər, *P. adj = 0.013, ***P. adj = 2.80e-05 və ****P. adj = 5.30e-08). Qutu qutuları aşağı və yuxarı kvartilləri təmsil edir, mərkəzi zolaq median kimi, çentiklər isə median ± 1,58*IQR/sqrt() əsasında inam intervalını göstərir.n) və bığlar kvartilləri ± 1,5*IQR təmin edən müşahidələri qeyd edir.

Biz daha sonra bu tendensiyaların ClinVar verilənlər bazası (Landrum) tərəfindən müəyyən edildiyi kimi, klinik cəhətdən təsdiqlənmiş “patogen” və “ehtimal edilən patogen” səhv mutasiyaları əhatə edib-etmədiyini sınaqdan keçirdik. və b, 2018). ClinVar monogen pozğunluqlarla əlaqəli genomik variantların qızıl standart anbarıdır. Ümumilikdə, süzülmüş ClinVar verilənlər bazası sisteindən (1653 variant) və ya lizindən (572 variant) dəyişən 2225 xəstəliklə əlaqəli səhv variantdan ibarət idi. Aşkar edilməmiş sisteinlərdə xəstəliklə əlaqəli variantlarda əhəmiyyətli bir zənginləşmə tapmadıq (Şəkil 3F, qırmızı Dataset EV17). Bunun əksinə olaraq, aşkar edilmiş lizinlər aşkar edilməmiş lizinlərə nisbətən xəstəliklə əlaqəli variantlar üçün əhəmiyyətli zənginləşmə göstərdi (Şəkil 3F, açıq mavi). Sistein və lizin məlumatlarını birləşdirərək, aşkar edilmiş qalıqları aşkar etdi, çünki 3840 aşkar edilmiş zülalda ekvivalent aşkarlanmamış qalıqlara nisbətən xəstəliklə əlaqəli mutasiyaların olması ehtimalı daha yüksəkdir (Şəkil 3F, tünd göy). Yanlış mənalı variantların dəqiq diaqnozu ilə bağlı çətinlikləri nəzərə alaraq, biz gözləyirik ki, kemoproteomik aşkarlama, xüsusən də lizin qalıqları üçün genetik variantlar üçün patogenlik proqnozlarını yaxşılaşdırmaq üçün əlavə metrik kimi istifadə edilə bilər.

Patogenlik balları ilə birlikdə kemoproteomik məlumatlar funksional qalıqlara üstünlük verməyə kömək edə bilər.

Daha sonra kemoproteomika tərəfindən qiymətləndirildiyi kimi, genetik əsaslı patogenlik hesabı ilə amin turşusu reaktivliyi arasındakı əlaqəni qiymətləndirdik. Qiymətləndirmək üçün optimal hesab kimi CADD-ni seçdik, çünki o, öz modelinə digər nukleotid variantının proqnozlaşdırıcılarını birləşdirir və həm istinad genom birləşmələri, GRCh37 və GRCh38 üçün əlçatandır. Kemoproteomik reaktivlik ölçmələri aşağı, orta və yüksək reaktivlik kateqoriyalarına bölünmüşdür.R10:1 > 5), orta (2 < R10:1 < 5), yüksək (R10:1 < 2) müvafiq olaraq isoTOP-ABPP nisbətləri (Weerapana və b, 2010 Hacker və b, 2017). Bu əmsallar müxtəlif zond konsentrasiyalarında (məsələn, 1× vs 10×) qalığın nisbi etiketlənməsinin kəmiyyətini müəyyənləşdirir. Birə yaxın nisbət etiketləmənin aşağı zond konsentrasiyasında doyduğunu göstərir, bu da daha yüksək daxili reaktivliyə malik sistein və ya lizinə uyğundur.

CADD ballarını nukleotid səviyyəsindən CpDAA-lar üçün amin turşusu səviyyəsinə uyğunlaşdırmaq üçün kodon başına bütün mümkün sinonim olmayan SNV-lər üçün orta və maksimum CADD balı hesablanmışdır (Usullara baxın). Hər iki maksimum (Şəkil 4A) və orta (Şəkil EV3B) CADD kodon skorları üçün yüksək reaktiv sisteinlərin əhəmiyyətli dərəcədə daha yüksək proqnozlaşdırılan zərərlilik göstərdiyini gördük. Bunun əksinə olaraq, lizin reaktivliyi proqnozlaşdırılan patogenlik ilə əlaqəli deyildi (Şəkil 4B və EV3C).

Şəkil 4. Amin turşusu reaktivliyi və CADD hesabı arasında əlaqə

  • A, B. (A) sistein üçün maksimum CADD38 PHRED (GRCh38 üçün model) ballarının paylanması (n = 1,401) və (B) lizin (n = 4,363) izoTOP-ABPP nisbətləri ilə müəyyən edilmiş aşağı, orta və yüksək daxili reaktivliklərin CpDAA-ları, aşağı (R10:1 > 5), orta (2 < R10:1 < 5), yüksək (R < 2) (Weerapana və b, 2010 Hacker və b, 2017). Reaktivlik qrupları fərqini yoxlamaq üçün Kruskal-Wallis qeyri-parametrik test və ikili müqayisələr üçün Wilcox testi (BH-ə uyğunlaşdırılmış) P- dəyərlər, *P. adj = 0.04, **P. adj = 0,0037 və ***P. adj = 0,00013). Qutu qutuları alt və yuxarı kvartilləri təmsil edir, mərkəzi zolaq median kimidir. Çentiklər median ± 1,58*IQR/sqrt() əsasında inam intervalını göstərir.n) və bığlar kvartilləri ± 1,5*IQR təmin edən müşahidələri qeyd edir. Reaktiv qruplar üçün yüklənmiş 95% inam intervalları ilə median CADD38 maksimum kodon xalları aşağı CpD Cys 27.3 (26.9, 28.0), orta CpD Cys 28.55 (27.80, 29.05), yüksək CpD Cys 31 (23D5, aşağı) təşkil edir. 29.3, 29.6), orta CpD Lys 29.25 (28.85, 29.50), yüksək CpD Lys 29.05 (28.50, 29.55).
  • C. CASP8-in (UniProt ID Q14790) 220-479 qalıqlarında qeyri-sinonim SNV-lər üçün CADD38 maksimum kodon ballarını göstərir. Kəsik üfüqi xətt zərərli həddi 25-i göstərir.
  • D. C360 və C409-u vurğulayan CASP8-in kristal quruluşu (PDB ID: 3KJN). Bağlanmış kovalent inhibitor B93 sarı rəngdə, Cys409 ilə Angstroms ilə ölçülən bağlı inhibitor arasındakı məsafə. Zülal səthinin rəngi CADD38 maksimum kodon ballarını təmsil edir. PyMOL-da yaradılan şəkil (DeLano, 2002).
  • E. Rekombinant kaspaz-8 zülalının aktivliyi fluorogenik IETD-AFC substratından istifadə edilərək təhlil edilir. Orta ± SD olaraq üç təkrar eksperiment, çubuqlar və xəta çubuqları üçün vəhşi tipli (WT) zülala nisbətən göstərilən faiz aktivliyi.

Köhnə sistein reaktivliyi məlumat dəsti nisbətən kiçik olduğundan (ümumilikdə 94 yüksək reaktivlik sistein), biz daha böyük məlumat dəstindən istifadə edərək, daha sonra bu təəccüblü korrelyasiyaları yoxlamağa çalışdıq. Bunun üçün biz ölümsüzləşdirilmiş insan T-limfosit Jurkat hüceyrə xəttindən lizatları izoTOP-ABPP reaktivlik profilinə məruz qoyaraq, əvvəllər təsvir edildiyi kimi sistein etiketini 10 və ya 100 μM yodoasetamid alkin zondu ilə müqayisə etdik (Weerapana). və b, 2010). Ümumilikdə, beş təkrar təcrübədə 4291 sistein müəyyən etdik (

(Weerapana və b, 2010 )), o cümlədən 322 yüksək, 1448 orta və 2247 aşağı reaktivlik qalıqları. Yeni məlumat dəstimizdə bildirilən dəyərlərlə əvvəllər bildirilənlər arasında güclü korrelyasiya (Pirson korrelyasiya əmsalı = 0,5) müşahidə edildi (Əlavə Şəkil S9). Bu zəngin verilənlər bazası (Dataset EV18) yüksək reaktiv CpDAA-ların kodonlarının yüksək patogenlik balları üçün zənginləşdirildiyinə dair tapıntımızı daha da təsdiqləməyə imkan verdi. Sevindirici haldır ki, ilkin tapıntımız bu yeni və daha böyük verilənlər bazası (Əlavə Şəkil EV3B və C) ilə təkrarlandı və bu, həm yanaşmamızın etibarlılığını, həm də tapıntılarımızın möhkəmliyini dəstəkləyir.

Genetik əsaslı patogenlik proqnozlarının CpDAA reaktivlik ölçüləri ilə inteqrasiyasının faydasını araşdırmaq üçün ilk nümunə araşdırması olaraq, biz yaxşı xarakterizə olunan əsas ferment qlükoza-6-fosfat dehidrogenazına (G6PD) müraciət etdik. 160-dan çox müxtəlif genetik mutasiya ilə əlaqəli olan G6PD çatışmazlığı ən çox yayılmış genetik enzimopatiyalardan biridir (Hwang və b, 2018). G6PD çatışmazlığı həm kəskin, həm də xroniki hemolitik anemiya ilə əlaqəli olduğundan (Porter) və b, 1964 Miwa & Fujii, 1996 ) (OMIM #300908) və malyariya müqaviməti ilə (Luzzatto, Usanga, & Reddy, 1969) (OMIM #611162), G6PD-də funksional əhəmiyyətli qalıqların müəyyən edilməsi G6PD-asso-nun diaqnozu və müalicəsini məlumatlandırmalıdır. genetik pozğunluqlar. Zülal ardıcıllığının uzunluğu boyunca CADD patogenlik skorlarını vizuallaşdırmaq üçün biz G6PD-də ilk 300 amin turşusunu, əvvəlki kemoproteomik tədqiqatlarda müəyyən edilmiş bütün 15 qalığın mövqeləri daxil olmaqla, maksimum CADD GRCh38 ballarını izləyən xətlərlə tərtib etdik (Şəkil EV4A). Bizim üçün xüsusi maraq kəsb edən K171 və K205 idi, onların hər ikisi fermentin aktiv sahəsinin proksimalında yerləşir (Şəkil EV4B). K171 və K205 çox fərqli daxili reaktivliyə malik olsa da (R10:1 = 1.3 və R10:1 = 9.2, müvafiq olaraq), hər ikisi yüksək maksimum CADD balları göstərdi (müvafiq olaraq 28.8 və 32, Şəkil EV4A). Müşahidə olunan yüksək CADD ballarına uyğun olaraq, K205-də kimyəvi modifikasiyanın (məsələn, aspirin tərəfindən) G6PD fəaliyyətini blokladığı aşkar edilmişdir (Jeffery, Hobbs, & Jörnvall, 1985 Ai və b, 2016) və K171-də mutasiyalar anemiyaya (Hirono) səbəb olmuşdur. və b, 1989 Av və b, 2000). Bu əvvəlki məlumatlar, CADD və reaktivlik ölçmələrimizin təhlili ilə birləşdirildikdə, lizinlərin elektrofilik zondlarla reaksiyaya meylinin, lakin onların daxili zondu reaktivliyində ölçülməyən fərqlərin proqnozlaşdırılan patogenlik ilə əlaqəli olduğu qənaətimizi dəstəkləyir (Şəkil 3E və F və EV3A). və C).

Şəkil EV4. G6PD-də reaktiv lizinin funksional təsdiqi

  1. G6PD (UniProt ID P11413) qalıqları 1-350 üçün CADD38 maksimum kodon səhv hesablarını göstərir. CpD K205 zülaldakı bütün mövqelər arasında ən yüksək nəticəyə malikdir. CADD38 zərərli hədddən yuxarı olan CpDAA mövqelərinə (boz tire xətti) K47, K89, C158, K171, K205 və C294 daxildir.
  2. G6PD-nin kristal quruluşu (PDB ID: 2BH9) fermentin aktiv yerində yerləşən K205 və K171-i göstərir. NADP + kofaktor sarı rəngdə göstərilir. Səth CADD38 maksimum kodon səhv hesabları ilə rənglənir. PyMOL-da yaradılan şəkil (Smith və b, 2019 ).

Daha sonra biz genetik əsaslı patogenlik proqnozlarının CpDAA reaktivlik tədbirləri ilə inteqrasiyasının faydasının aşağıdakılara qədər uzana biləcəyini müəyyən etməyə çalışdıq. de novo funksional qalıqların aşkar edilməsi. Sistein-aspartik turşusu proteaz (kaspaza) ailəsinin üzvü və xarici apoptozun əsas təşəbbüskarı olan yaxşı xarakterizə olunan kaspaz-8 fermentinə müraciət etdik. Kaspaza-8-də patogen mutasiyalar otoimmün limfoproliferativ sindromla nəticələnir (ALPS, OMIM# 607271) (Chun) və b, 2002 Kanderova və b, 2019 ) və müəyyən xərçəng növləri ilə əlaqələndirilir. Kemoproteomik reaktivlik məlumat dəstimiz (Dataset EV18 və Fig EV5A) kaspaza-8-in iki yodoasetamid alkin-reaktiv sisteini ehtiva etdiyini ortaya qoydu: katalitik sistein (Cys360, R10:1 = 3.8) və ikinci katalitik olmayan sistein (Cys409, R10:1 = 2.9). Katalitik nukleofil kimi funksiyasına uyğun olaraq, Cys360-ın kodonunun orta CADD balı (29,3) yüksək olduğu halda, Cys409-un kodonunun daha aşağı CADD balı (21,4) var ki, bu da Cys409-u dəyişdirən mutasiyaların kaspaza daha az zərər verməli olduğunu göstərir. 8 (Şəkil 4C). Cys409 çevik döngədə yerləşir

CASP8 rentgen strukturuna maksimum CADD kodon xallarının proyeksiyamız tərəfindən aşkar edildiyi kimi aktiv sahədən 11.8 Å (Şəkil 4D). Bildiyimizə görə, Cys409 mutasiyalarının funksional təsiri qiymətləndirilmədiyi üçün biz Cys409-dakı mutasiyaların zülal funksiyasına təsir edib-etməyəcəyini yoxladıq, bunu yüksək ölçülmüş reaktivliklə göstərdik, lakin orta CADD hesabını yox. Fəaliyyət təhlilləri göstərdi ki, Cys409-da mutasiyalar həqiqətən protein funksiyasına təsir edir, proteolitik aktivliyi tamamilə bloklayır (Şəkil 4E Dataset EV19). Birlikdə götürüldükdə, bu təhlillər funksional və patogen qalıqların təbəqələşməsini yaxşılaşdırmaq üçün kemoproteomik tədbirlərin patogenlik proqnozları ilə inteqrasiyasının faydalılığını vurğulayır.

Şəkil EV5. 2019 Sistein kemoproteomikası məlumatları qalıq reaktivliyini və zərərlilik reytinqini dəstəkləyir

  • A, B. Sistein reaktivliyi etiketləri ilə CADD38 (GRCh38 üçün model) arasında assosiasiya aşağı (n = 2,247), orta (n = 1,448) və yüksək (n = 322) izoTOP-ABPP nisbətləri ilə müəyyən edilmiş daxili reaktivliklər, aşağı (R10:1 > 5), orta (2 < R10:1 < 5), yüksək (R10:1 < 2) (Weerapana və b, 2010 Hacker və b, 2017). Ya səhv dəyişikliyə görə maksimum CADD balı kodona təyin edilmişdir (BH-ə uyğunlaşdırılmışdır P-dəyərlər, aşağı vs orta ***P. adj = 0,00099, aşağı və yüksək ***P. adj = 0,00086) (A) və ya həmin kodonda bütün səhv xalların ortası (BH-ə uyğunlaşdırılmışdır) P-dəyərlər, aşağı vs orta ***P. adj = 4.0e-04, orta və yüksək *P. adj = 0,023, aşağı və yüksək ****P. adj = 3.90e-05) (B). Kruskal-Wallis qeyri-parametrik testi və ikili müqayisələr üçün istifadə edilən Wilcox testi ilə qiymətləndirilən reaktivlik qrupu fərqləri.
  • C. 2019 izoTOP-ABPP tədqiqatında 4017 ümumi profilli qalıqdan 3590-ı üçün sistein reaktivlik əmsallarının qrafiki. 322 yüksək, 1448 orta və 1820 aşağı eşik sisteinləri təmsil olunur.

Saytda qorunma balı saytın təkamül sürətinə uyğundur. Amin (nuklein) turşuları arasında təkamül sürəti sabit deyil: bəzi mövqelər yavaş-yavaş təkamül edir və adətən "konservləşdirilmiş", digərləri isə sürətlə inkişaf edir və "dəyişən" adlanır. Dərəcə dəyişiklikləri bu saytlarda fəaliyyət göstərən təmizləyici seçimin müxtəlif səviyyələrinə uyğundur. Məsələn, zülallarda təmizləyici seçim zülalın 3D strukturuna qatlanmasında həndəsi məhdudiyyətlərin, fermentativ fəaliyyətdə iştirak edən amin turşusu yerlərində və ya ligandların bağlanmasında və ya alternativ olaraq, amin turşusu yerlərindəki məhdudiyyətlərin nəticəsi ola bilər. zülal-zülal qarşılıqlı təsirində iştirak edir.

ConSurf-də hər bir sahədə təkamül sürəti ya empirik Bayesian (Mayrose) istifadə edərək hesablanır. və b., 2004) və ya Maksimum Ehtimal (Pupko və b., 2002) paradiqma. Bu metodların hər ikisində ardıcıllığın təkamülünün əsasını təşkil edən stoxastik proses və filogenetik ağac açıq şəkildə nəzərə alınır. Bayes metodunun, xüsusilə hesablamalar üçün az sayda ardıcıllıqdan istifadə edildikdə, Maksimum Ehtimal metodu ilə müqayisədə qoruma ballarının hesablamalarının dəqiqliyini əhəmiyyətli dərəcədə yaxşılaşdırdığı göstərildi (Mayrose və b., 2004). Bayes metodunun əlavə üstünlüyü ondan ibarətdir ki, hər bir nəticə çıxarılmış təkamül qorunma balına etimad intervalı təyin edilir.


2019-nCoV sünbül zülalındakı unikal əlavələrin HIV-1 gp120 və Gag ilə qeyri-adi oxşarlığı

Hazırda 2019-cu il yeni koronavirusun (2019-nCoV) yaratdığı böyük bir epidemiyanın şahidi oluruq. 2019-nCoV-nin təkamülü çətin olaraq qalır. 2019-nCoV üçün unikal olan və digər koronaviruslarda olmayan sünbül qlikoproteində (S) 4 əlavə tapdıq. Əhəmiyyətli odur ki, bütün 4 əlavədəki amin turşusu qalıqları HIV-1 gp120 və ya HIV-1 Gag-da olanlarla eynilik və ya oxşarlığa malikdir. Maraqlıdır ki, əlavələrin ilkin amin turşusu ardıcıllığında kəsikli olmasına baxmayaraq, 2019-nCoV-un 3D-modelləşdirilməsi onların reseptor bağlama yerini təşkil etmək üçün birləşdiyini göstərir. 2019-nCoV-da HİV-1-in əsas struktur zülallarında amin turşusu qalıqları ilə eynilik/oxşarlıq daşıyan 4 unikal əlavənin tapılması təbiətdə təsadüfi ola bilməz. Bu iş 2019-nCoV haqqında hələ naməlum məlumatlar təqdim edir və bu virusun diaqnostikası üçün vacib təsirləri ilə bu virusun təkamülü və patogenliyinə işıq salır.


Materiallar və metodlar

Məlumata giriş

Xam və işlənmiş məlumatlar GSE99990 giriş nömrəsi ilə NCBI Gen İfadə Omnibusuna (GEOhttp://www.ncbi.nlm.nih.gov/geo/) təqdim edilmişdir. Məlumat emalı boru kəmərinin işləyən versiyasını ehtiva edən virtual maşın Docker təsviri kimi mövcuddur https://hub.docker.com/r/gui11aume/epi/. Rəqəmlərin təkrar istehsalı üçün skriptlər Github-da https://github.com/Lcarey/HIS3InterspeciesEpistasis ünvanındadır.

Təhsil dizaynı

His3 geni üç əsas səbəbə görə seçilmişdir, o, qısadır, şərti olaraq vacibdir və zülal-zülal qarşılıqlı təsirində iştirak etdiyi bilinmir. His3-ün 20 220 variantını öyrənmək qeyri-mümkündür, buna görə də biz eksperimental dizaynımızın texniki məhdudiyyətlərini idarə edərkən His3 təkamülünə ən uyğun ərazini aydınlaşdıracaq şəkildə fitnes mənzərəsini araşdırmaq üçün bir yanaşma seçmişik. Biz tam kombinator dəstinə çevrilən maya növlərinə diqqət yetirərək, mövcud növlərdə olan amin turşusu vəziyyətlərini nəzərdən keçirdik.

10 83 unikal genotip. Texniki cəhətdən, tək bir böyümə təcrübəsində 100.000 unikal genotip üçün uyğunluğu ölçmək mümkündür. Buna görə də, biz His3 genini 12 müstəqil seqmentə böldük ki, hər seqmentdə 21 maya növündən mövcud olan amin turşusu vəziyyətlərinin tam kombinator dəsti 10.000 – 100.000 genotip olsun. Daha sonra müstəqil böyümə eksperimentində hər bir seqment üçün kombinator kitabxanasını nəzərdən keçirdik ki, bu da bizə mövcud növləri birləşdirən kosmosun böyük bir hissəsi boyunca trayektoriyaları nəzərdən keçirərkən ardıcıllıq sahəsinin uzanan hissəsini öyrənməyə imkan verdi (Şəkil 1A). Biz bu birləşmələri 12 plazmid kitabxanasında qurduq və onları haploid His3 nokautuna çevirdik. S. cerevisiae gərginlik. His3-də müxtəlif mutasiyaları daşıyan mayanın böyümə sürəti (yararlılığı) histidin olmadıqda seriyalı partiya kulturasından istifadə etməklə ölçüldü.

His3 zülalının strukturuna aqnostik şəkildə His3 gen ardıcıllığını seqmentlərə ayırdıq (S1A Şek). Texniki səbəblərə görə, seqment aralarında sabit bir bölgə olan iki dəyişən bölgədən ibarət idi (S1B və S2A Şek). Fərqli seqmentlər üzrə fitnes dəyərlərinin normallaşdırılması üçün edilən hər bir seqmentdən məhdud genotiplər qrupu üzrə bir təcrübə istisna olmaqla, bütün böyümə təcrübələri hər bir seqment üçün müstəqil olaraq həyata keçirilmişdir (S4 Şək).

Nəzarət olaraq artım sürətini ölçdük S. cerevisiae onun bütün His3 gen ardıcıllığı başqa bir uzaq növdən gəldi. His3-ün bütöv bir gen ardıcıllığının dəyişdirilməsinin vəhşi növ artım templərinə səbəb olduğunu aşkar etdik. S. cerevisiae hətta His3 ardıcıllığı çox uzaq mayalardan gələndə belə S. pombe (S4 Şək). Buna görə də His3 fitnes landşaftının müstəqil vahidi kimi görünür və təcrid olunmuş genin fitnes mənzərələrinin öyrənilməsi üçün yaxşı modeldir.

Fitnesin ölçülməsi

Plazmid konstruksiyası.

His3 açıq oxu çərçivəsi S. cerevisiae 126 və 127 primerlərdən istifadə etməklə, açıq oxu çərçivəsinin (ORF) yuxarı hissəsindəki 622 baza cütündən (ORF) 237 bp-ə qədər promotor və transkripsiya terminatoru bölgələrini daxil etmək üçün PCR gücləndirildi (bax). S2 Köməkçi Məlumat) vəhşi tipli prototrof ştamından FY4. PCR məhsulu Gibson montajından (NEB, E2611S) istifadə edərək pRS416 vektoruna klonlaşdırıldı. Digər növlərdən His3 ortoloqları dizayn edilmiş primerlərdən istifadə etməklə genomik DNT-dən gücləndirilmişdir (S1 Köməkçi Məlumat) və ORF-ni əvəz edərək pRS416_his3 vektoruna klonlaşdırıldı S. cerevisiae Gibson montajı (NEB, E2611S). His3 ortoloqundan bəri A. nidulanlar bir intron ehtiva edir, bütün açıq oxu çərçivəsi əvvəlcə vektora klonlaşdırıldı və sonra intron bu ardıcıllıq olmadan bütün plazmidin PCR-gücləndirilməsi, ardınca isə resirkulyarizasiya yolu ilə çıxarıldı.

Genomik DNT çıxarılması.

Göbələklərdən genomik DNT (Saccharomyces cerevisiae, Saccharomyces bayanus, Candida glabrata, Saccharomyces castellii, Kluyveromyces lactis, Eremotheciumgossypii, Debaryomyces hansenii, Lodderomycese longosporus, Aspergillus nidulans, Schizosaccharomyces pombe, Candida guilliermondii, Saccharomyces kluyveri, Kluyveromyces waltii) istehsalçının göstərişlərinə (Epicentre, MPY80200) uyğun olaraq MasterPure Maya DNT Təmizləmə Kitindən istifadə edərək çıxarılmışdır.

Mutant kitabxana tikintisi.

Hər biri His3-ün müxtəlif bölgələri üçün on iki müstəqil mutant kitabxanası (S2 Dəstəkləyici Məlumat), 392 His3 ortoloqunun çoxsaylı uyğunlaşdırılmasının nəticələrinə əsasən yaradılmışdır. Düzəliş MEGA 6.0 proqram paketinin [55] ClustalW alignment funksiyasından istifadə edilməklə qurulmuş və istifadəçi tərəfindən düzəldilmişdir.

Mutant kitabxanalar sabit bir bölgə ilə ayrılmış iki dəyişən bölgəni tərk edərək füzyon-PZR ilə quruldu. Hər bir kitabxana üçün iki bitişik His3 fraqmenti 1 μg istifadə edərək müstəqil olaraq gücləndirildi. S. cerevisiae (FY4 ştammı) GC tamponunda ayrıca Phusion polimeraza reaksiya qarışıqlarında (Thermo Fisher Scientific, F530S) genomik DNT. Hər bir PCR üçün primerlərdən biri füzyon-PZR üçün tələb olunan 5' ucunda sabit hissəsi olan degenerasiya olunmuş oliqonukleotid idi, digər primer ya 126, ya da 127 idi. Degenerativ primer yanaşması mövcud olmayan amin turşusunun inteqrasiyasına gətirib çıxardı. genetik kodun artıqlığına görə ardıcıllıqlar. Phe amin turşusunu nəzərdən keçirək S. cerevisiae TTT kodonu ilə kodlanır. Mövcud ortoloji dövlət Trp (TGG) daxil edildikdə, TTG (Leu) və TGT (Cys) kodonlarını yaradan iki müstəqil T-> G nukleotid mutasiyası birləşdiriləcəkdir. Bu iki amin turşusu digər növlərdə tapılmasaydı, onlar mövcud olmayacaqdılar və onların məlumat dəstimizə daxil edilməsinin qeyri-təsadüfi təbiətinə görə bu işdə mövcud olmayan vəziyyətlər amin turşusu dəyişikliklərinin təsadüfi dəstini təmsil etmir. . PCR üçün dövriyyə şərtləri 30 saniyə üçün 98°C, 20 saniyə üçün 98°C, 30 saniyə üçün 60°C və 1 dəqiqə (25 dövr) üçün 72°C və 5 dəqiqə ərzində 72°C idi. Məhsullar sütunla təmizlənmiş (QIAGEN, QIAquick PCR təmizləmə dəsti, 28104), 50 μl-də elüt edilmiş və ekvimolyar nisbətdə qarışdırılmışdır. Fusion-PCR, 10 μl qarışığı GC buferində 25 μL standart Phusion polimeraza reaksiya qarışığına qədər seyreltməklə həyata keçirildi. Füzyon-PZR-nin dövriyyə şərtləri 30 saniyə üçün 98 ° C, 30 saniyə üçün 98 ° C, 2 dəqiqə üçün 60 ° C və 1 dəqiqə (25 dövr) üçün 72 ° C və 5 dəqiqə üçün 72 ° C idi. Füzyon məhsulu agaroz geldən (Qiagen, MinElute Gel Ekstraksiya Kiti, 28604) təmizləndi və 10 μl suda yuyuldu. 10 μl məhsul, 126 və 127 primerlərindən istifadə edərək GC buferində Phusion polimeraza reaksiya qarışığında (Thermo Fisher Scientific, F530S) əlavə 5 dövr PZR reaksiyası üçün şablon kimi istifadə edilmişdir. Dönmə şərtləri aşağıdakı kimi idi: 98°C üçün. 30 s 98 ° C 20 s, 60 ° C 30 s və 72 ° C 1 dəqiqə (5 dövr) və 72 ° C 5 dəqiqə. Məhsul sütunla təmizlənmişdir (QIAGEN, QIAquick PCR təmizləmə dəsti, 28104) və Gibson montajı üçün əlavə kimi istifadə edilmişdir.

His3 mutantlarının kitabxanasını yaratmaq üçün pRS416 plazmidi 128 və 129-cu primerlərdən istifadə etməklə gücləndirilmişdir. Əlavə Gibson montajından (NEB, E2611S) istifadə edərək vektora klonlaşdırılmışdır. Bağlanmış məhsullar (200-300 ng/μL) 13 mm diametrli, Type-VS Millipore membranından (Merck Millipore, VSWP01300) istifadə edərək damcı dializ yolu ilə duzsuzlaşdırılmışdır. 20 μL ElectroMAX DH10B səlahiyyətli hüceyrələr (Invitrogen, 18290015) 3 μL bağlanmış məhsullarla elektroporasiya edildi.Elektroporasiya edilmiş bakteriyaların 0,01%-i kitabxananın mürəkkəbliyini qiymətləndirmək üçün ampisilin tərkibli mühitə qoyuldu, qalan mədəniyyət bir gecədə 100 ml maye mühitdə yetişdirildi və ertəsi gün plazmid ekstraksiya edildi. Hər bir kitabxana üçün yaradıla bilən protein ardıcıllığının maksimum sayı hesablanmışdır. Kitabxanalar ümumi mürəkkəblik bu dəyərin ən azı 3 qatına çatana qədər yaradıldı.

Maya transformasiyası və maya kitabxanası nəsli.

Hər seqment üçün maya süzgəcindən LBCY47 (onun3:KanMXleu2Δ0 görüşdü 15Δ0 ura3Δ0, BY4741-dən alınmışdır) litium asetat transformasiyasından istifadə edərək 50 μg pRS416_His3 mutant kitabxanası ilə transformasiya edilmiş və urasil olmayan qlükoza sintetik tam boşalma plitələrinə örtülmüşdür. 30°C-də 40 saatlıq böyümədən sonra, təxminən 0,5 milyon maya koloniyası lövhələrdən çıxarıldı, bir-birinə qarışdırıldı və 2 dəfə 100 ml PBS ilə yuyuldu.

Toplu rəqabət.

4x10 9 hüceyrə histidin biosintezindən asılı olmayaraq aşağı uyğunluğu olan klonları aradan qaldırmaq üçün 200 mq/L G418 ilə urasil olmayan 500 ml qlükoza sintetik tam buraxılma mühitinə aşılanmış və 30°C-də 220 rpm-də 6-8 saat ərzində yetişdirilmişdir. . Hüceyrələr daha sonra peletlənmiş və 50 ml PBS ilə yuyulmuşdur. Təxminən 10 10 hüceyrə histidin olmayan 1 L sintetik tam buraxılma mühitinə aşılandı və darboğazlar arasında 12 saat olmaqla 168 saat ərzində 220 rpm-də 30°C-də böyüdüldü:

10 10 hüceyrə təzə mühitə köçürüldü

Mədəniyyətdən 10 8 hüceyrə verilmiş vaxt nöqtəsi üçün nümunə kimi saxlanıldı. Bioloji dəyişkənliyi nəzərə almaq üçün mutantların hər bir kitabxanası üçün toplu rəqabət iki təkrarda aparıldı.

NGS kitabxanasının hazırlanması.

Maya mutantlarının nisbi bolluğu 3 nümunədə ölçüldü: 1) seçim tətbiq edilməzdən əvvəl ilkin populyasiya (t0), 2) selektiv mühitdə 12 saat artımdan sonra populyasiya (t1) və 3) 168-dən sonrakı son populyasiya seçici mühitdə böyümənin h (t14). Plazmid DNT-ni çıxarmaq üçün hər nümunədən 5x10 9 hüceyrə 300 mkL zimoliyaza tamponunda (1 M sorbitol, 0,1 M natrium asetat, 60 mM EDTA (pH 7,0), 2 mq/ml zimoliyaza, 1% 2-Molka) inkubasiya edilmişdir. 37°C-də 3 saat. Plazmid DNT istehsalçının protokoluna uyğun olaraq QIAprep Spin Miniprep Kitindən (QIAGEN, 27104) istifadə edərək əldə edilmiş sferoplastlardan təmizləndi. Əldə edilən DNT aşağıdakı dövriyyə şəraitində demultipleksləşdirmə üçün pilləli primerlərdən istifadə edərək 25 μL Q5 DNT polimeraza reaksiya qarışığında (NEB, M0491S) şablon kimi istifadə edilmişdir: 30s üçün 98°C, 10s üçün 98°C, 60°C üçün 30s və 72°C 30s (18 dövr) və 72°C 2 dəqiqə. PCR məhsulları Agencourt AM Pure XP muncuqları (Beckman Coulter, A63880) istifadə edərək təmizləndi və 40 μL TE tamponunda (pH 8.0) elüt edildi. Texniki dəyişkənliyi nəzərə almaq üçün hər bir nümunə üçün DNT çıxarılması və PCR-amplifikasiyası iki dəfə təkrarlandı.

NGS kitabxanaları istehsalçının təlimatlarına uyğun olaraq Ovation Rapid DR System (Nugen, 0319-32) istifadə edərək 100 ng təmizlənmiş DNT amplikonlarından hazırlanmışdır. Hər bir kitabxana Bioanalizatorda (Agilent Technologies) vizuallaşdırılıb və Kapa Library Quantification Kit (Kapa Biosystems, KK4835) ilə qPCR vasitəsilə kəmiyyəti müəyyən edilib. On iki nümunə 4 nM yekun konsentrasiyada (iki bioloji təkrar, iki texniki təkrar və üç vaxt nöqtəsi nəzərə alınmaqla) birlikdə birləşdirildi və eyni zolaqda ardıcıllıqla sıralandı. Nümunələr v4 ardıcıllıq kimyası ilə HiSeq2500 sequencer (Illumina) üzərində 125-bp qoşalaşmış son oxunuşlar kimi ardıcıllaşdırıldı.

Maya böyüməsi analizi.

Mutant ştammlar bir gecədə urasil olmayan tam buraxılma mühitində yetişdirildi. Kulturalar 0,05 OD 600 nm-ə qədər seyreltildi və eyni mühitdə 5 saat yetişdirildi. Hər bir mədəniyyətdən 6 μL histidin olmayan 125 μL tam buraxma mühitində 96 quyu boşqablara köçürüldü. Ştammların böyüməsi inteqrasiya edilmiş Stacker modulu ilə təchiz edilmiş Tecan Infinite M1000 PRO mikroplate oxuyucusu istifadə edərək hər 10 dəqiqədən bir OD 600 nm ölçülməklə izlənildi.

Fərdi əyrilərin böyümə sürəti OD = 0,135 = eks(-2)-dən OD = 0,368 = eks(-1)-ə qədər böyümə vaxtının tərsi kimi ölçüldü. Əyri 0.368-ə çatmasa, artım 0-a təyin edildi. 0.135 və ya 0.368-i keçən əyrilər xaric edildi. Bir klonun böyümə sürəti 6 müstəqil böyümə təcrübəsinin medianı kimi ölçüldü. Bərk və maye mühitdə böyüməsi arasında uyğunsuzluq olan klonları, ardıcıllıqla müəyyən edilə bilməyən və ya ardıcıllıqla çirklənmə sübutunu göstərən klonları və bütün sinonim klonlarla müqayisədə onların oxunma saylarının Kullback-Leibler divergensiyası olan klonları təhlildən xaric etdik. 0,22-dən çox. Sonrakı meyar seçilmiş klonların eyni zülalı kodlayan digər variantlarla müqayisədə kənara çıxmamasını təmin etdi.

İzolyasiya edilmiş suşların artım templəri

Biz mövcud amin turşusu birləşmələrinin bütün seqment kitabxanalarından 197 ştammı təcrid etdik (hər seqment üçün 9-26 ştam) və ardıcıllığı müəyyən etmək üçün Sanger ardıcıllığından istifadə etdik. Hər bir ştam üçün 6 təkrar artım təhlili apardıq və orta artım sürətini hesabladıq. Rəqabət və böyümə sürətindən əldə edilən fitnes dəyərləri yüksək korrelyasiyaya malikdir (r = 0.82, p = 10 -48). Bütün seçilmiş genotiplərin neytral göründüyü seqment 9 istisna olmaqla, bütün seqmentlər üçün korrelyasiya əhəmiyyətli və 0,6-dan çox idi (S4 Şək).

İlkin məlumatların filtrasiyası

Variantların fərdi ardıcıllığı aşağıdakı addımlarla cüt oxunuşlardan bərpa edildi: iki dəyişən bölgə arasındakı sabit bölgə Seeq kitabxanasının 1.1.2 versiyasından (https:// github.com/ezorita/seeq). Illumina sıralama adapterləri bağlama yolu ilə əlavə edildiyi üçün oxunuşlar yönümlü deyil, buna görə də hər iki oxunuşda daimi bölgələr axtarıldı. Əks oxunuşda uyğunluq aşkar edildikdə, irəli və tərs oxunuşlar dəyişdirildi. Bu, bütün ardıcıllığın eyni oriyentasiyada olmasını təmin etdi. Multipleksləşdirmə məqsədləri üçün nümunə şəxsiyyəti variantları PCR gücləndirmək üçün istifadə edilən sol və sağ primerlərdə kodlaşdırılmışdır. Oxunanları demultipleks etmək üçün biz 20%-ə qədər səhvlərə yol verərək, namizəd primerlərlə qeyri-dəqiq uyğunluqdan istifadə etdik. Oxunuşları birləşdirmək üçün tərs oxunmaların ardıcıllığı tərs tamamlandı və sabit bölgə 20%-ə qədər səhvlərə imkan verən qeyri-dəqiq uyğunluqla axtarıldı. Hər oxunuşda sabit hissənin mövqeyi onların bir-birinə necə tikilməli olduğunu göstərir. Bu yanaşma FLASH [56] istifadə etməkdən daha sürətli və daha az səhvə meyilli idi. Üst-üstə düşmə bölgəsində konsensus ardıcıllığı fastq fayllarının keyfiyyət xəttində göstərildiyi kimi yüksək keyfiyyətli nukleotidin seçilməsi ilə müəyyən edilmişdir. Əgər 'N' son ardıcıllıqla davam edərsə, oxunuşlar atıldı. PCR primerləri elə kəsildi ki, eyni rəqabətin bütün ardıcıllıqları eyni yerdə başlasın və bitsin.

Sabit bölgəyə malik olmayan, istiqamətləndirilə bilməyən və ya demultipleksləşdirilə bilməyən oxunuşlar atıldı. Oxumalarda qalan səhvlər ardıcıl qruplaşma yolu ilə düzəldildi. Biz Starcode versiyası 1.0 [57]-dən standart parametrlərlə istifadə etdik və iki səhvə icazə verdik. Düzəliş edilmiş oxunuşlar genetik koddan istifadə edilərək tərcümə edilmişdir. Eyni zülalları kodlayan variantlar birləşdirilməyib, aşağı axın analizləri üçün ayrı saxlanılıb. Bütün prosesi təkrarlamaq üçün şərh edilmiş skriptləri olan işləyən Docker virtual maşını https://hub.docker.com/r/gui11aume/epi/ ünvanından endirilə bilər.

DNT ardıcıllığının variant tezliyinin hesablanması və məlumatların süzülməsi

12 seqment, 3 vaxt nöqtəsi və 4 replika üçün oxunmaların ümumi sayı göstərilir S2 Köməkçi Məlumat. Genotip tezlikləri müəyyən bir genotip üçün oxunanların sayının həmin replikatdakı oxunmaların ümumi sayına bölünməsi kimi müəyyən edilir. Orta tezlik əlavə təhlildə istifadə edilmək üçün 4 replika üzərində hesablanmışdır. Bununla belə, kənar göstəricilərin təsirini aradan qaldırmaq üçün orta və median arasındakı mütləq fərq median dəyərdən böyükdürsə, orta əvəzinə median götürülür. Yalnız hər iki bioloji replikanın hər iki texniki replikasında mövcud olan, hər birində ən azı on oxunuş (bütün zaman nöqtələri üzrə cəmlənmiş) olan genotiplər saxlanılmışdır.

Sıralama xətasının təxmini

Seqmentin uzunluğu elə qurulmuşdur ki, hər dəyişən bölgə iki dəfə oxunsun (S2A Şek). Bu strategiya ardıcıllıqla səhv nisbətinin əhəmiyyətli dərəcədə azalmasına səbəb oldu, çünki iki oxunuş arasındakı uyğunsuzluqlar daha yüksək keyfiyyətli çağırışla nukleotidlə düzəldildi.

Xam Illumina sıralama xətası dərəcəsi irəli və tərs oxunuşlar arasında uyğunsuzluqların tezliyini ölçməklə təxmin edilmişdir. Bu təxminin əsası ondan ibarətdir ki, hər bir uyğun gəlməyən nukleotid oxunuşların ən azı biri üçün ardıcıllıq xətası olmalıdır. Variant çağırma xətası dərəcəsi sabit bölgədə yalnız bir nukleotidlə fərqlənən oxunuş qruplarının toplanması ilə təxmin edilmişdir (S2A Şek). Dəyişən bölgələr eyni olduğundan, belə oxunuşlar eyni variantdan gəlir və sabit bölgədəki fərqli nukleotid çağırış xətasından (mutasiyalar) yaranmalıdır. S. cerevisiae cüzidir, çünki onlar daha aşağı sürətlə baş verir). Bu cür oxunmaların tezliyi hər nukleotid variantını çağıran xəta dərəcəsini təxmin etmək üçün istifadə edilmişdir. Xam Illumina xəta dərəcəsi xüsusi Python skriptləri ilə hesablanmış və bir nukleotidlə fərqlənən oxunuşlar maksimum 1 məsafədə Starcode-un “kürə” klasterləşdirmə variantından istifadə etməklə toplanmışdır (bax: Məlumata giriş kod depoları üçün bölmə). Nəticələr S2 Dəstəkləyici Məlumatda ümumiləşdirilmişdir.

Dizayn strategiyası və aşağı səhv nisbəti bizə kitabxanaya daxil edilmiş variantları təsadüfi ardıcıllıq səhvlərindən ayırmağa imkan verir. Hər bir kitabxanada 10 5 fərdi ardıcıllıq variantı var ki, hər bir kitabxana variantı ardıcıllıq səhvləri ilə yaradılan variantlardan bir neçə dəfə yüksək tezlikdə tapılsın. Məsələn, 7-ci seqment üçün nukleotid variantlarının sayı bu variantların 31.815.448 mümkün tək mutantları ilə 176.879 idi. 7-ci seqmentdə səhv nisbəti hər nukleotid üçün 0,04% təşkil etmişdir ki, bu da oxunuşların 2,4%-nin səhv adlandırılması deməkdir. Beləliklə, müəyyən yanlış çağırılmış variantın gözlənilən tezliyi 0,024 / 31,815,448 ≈ 8x10 -10 təşkil edir, real variantların gözlənilən tezliyindən 0,976 / 176,879 ≈ 6x10 -6 səviyyəsindən xeyli kiçikdir. His3-ün bütün seqmentləri üçün kitabxana variantlarının təxmin edilən tezlikləri S2 Dəstəkləyici Məlumatda bildirilir.

Son variant zəng xətası nisbəti göstərilən rəqəmlərdən kiçik idi S2 Köməkçi Məlumat çünki səhvlər Starcode istifadə edərək ardıcıl qruplaşma ilə daha da düzəldildi (bax İlkin məlumatların filtrasiyası bölmə). Yuxarıdakı əsaslandırmaya uyğun olaraq, aşağı tezlikli səhv oxunuşlar maksimum 2 Levenshtein məsafəsində ən yaxın yüksək tezlikli varianta çevrilir.

PCR rekombinasiya dərəcəsinin təxmini

Məlumdur ki, PCR şablon keçidi ilə yeni genotiplər yarada bilər [58]. Bu effektin böyüklüyünü yoxlamaq üçün biz variantların iki bloklu dizaynından istifadə etdik və sol və sağ dəyişən bölgələr arasında rekombinasiya tezliyini təxmin etdik. Oxunmaların strukturu belə göstərilə bilər: AAAAAA-------BBBBBB. Bu misalda “A” seqmentin dəyişən bölgəsinin sol hissəsini, “-” dəyişməz bölgəni, “B” isə dəyişən bölgənin sağ hissəsini təmsil edir. İki və ya daha çox nukleotidin daxil edilməsi kitabxana sintezi zamanı səhvlər nəticəsində yaranan nadir hadisələrdir, ona görə də variantın sol yarısına eyni daxiletmə sağ yarıdakı bir neçə variantla əlaqələndirilirsə, bu, çox güman ki, şablon keçidinin baş verməsidir (eyni variantın sağ yarısına əlavələr üçün uyğundur). Məsələn, A*AAA*AA-------BBBBBB olan, burada “*” silinməni təmsil edən bölgə B seqmentinin bir neçə fərqli variantı ilə tapılarsa, belə vəziyyət çox güman ki, şablon keçidini təmsil edir. Seçmənin təsirinin qarşısını almaq üçün ilkin vaxt nöqtəsinə diqqət yetirərək, sol və ya sağ tərəfdə iki və ya daha çox əlavə ilə cəmi 11,454 variant saydıq. Bunlardan 76-sı başqa variantla eyni əlavəyə malik idi. Bu o deməkdir ki, variantların > 98,6%-i şablon keçidindən azaddır. Məlumat toplusunun qalan hissəsinə ekstrapolyasiya etsək, bu o deməkdir ki, variantlar arasında oxunmaların “sızması” müşahidə olunan epistazın miqyasından əhəmiyyətli dərəcədə aşağıdır və biz bu artefaktı nəticələrimiz üçün potensial izahat kimi istisna edə bilərik. İstənilən halda, şablon keçidi də daxil olmaqla, eksperimental boru kəmərimizdəki bütün səhvlər, biz saxta kəşf dərəcəsini hesablayarkən nəzərə alınır.

Səs-küyün qiymətləndirilməsi

Genotip tezliyinin ölçülməsində səs-küyə səbəb olan əsas amillər nümunə götürmə xətaları, PCR gücləndirmə xətaları və rəqabət zamanı genetik sürüşmədir. Bütün bu amillər üçün səhvin miqdarı genotip tezliyindən asılıdır. Buna görə də biz ölçmə xətalarını genotip tezliyinin funksiyası kimi qiymətləndirdik.

Verilmiş seqment, vaxt nöqtəsi və hər bir genotip üçün bir cüt bioloji və ya texniki replika üçün biz bu iki replikadan orta tezlik və tezliklərin kvadrat fərqini hesabladıq. Genotipləri orta tezliyə görə çeşidlədik və onları elə qruplaşdırdıq ki, hər qutuda 5000 genotip var. Hər qutuda orta tezlik və orta kvadrat fərqi hesabladıq. Əlavə olaraq, 0 tezliyi üçün kvadrat xəta bərabər olaraq təyin edildi, burada NiNj replikalarda ümumi oxunan ədədlərdir ij. Nəhayət, xətti interpolyasiya ilə kvadrat fərqlərin tezlik funksiyası kimi asılılıqlarını əldə etdik, burada ij müxtəlif replikalardır.

Replikaların ikili müqayisəsindən kvadrat fərqlərdən istifadə edərək, dörd replika üzərində orta tezliyin variasiyasını təxmin edə bilərik. 1, 2, 3, 4-cü replikaları sayaq, burada 1, 2 birinci bioloji təkrarın texniki surətləri, 3, 4 isə ikinci bioloji təkrarın texniki surətləridir. Rəqabətdən gələn xətalar (məsələn: genetik sürüşmə) 1, 2 replika və 3, 4 replikaları üçün paylaşılır. Gəlin onları müvafiq olaraq və və onların variasiyaları və adlandıraq. Populyasiyadan və PCR-dən nümunə götürmə zamanı texniki səhvlər hər bir replika üçün unikaldır. Gəlin onları və onların fərqliliklərini adlandıraq. Bütün variasiyalar tezliyin funksiyasıdır və yazarkən biz fərz edirik.

Təqdim edilmiş qeydlərdə 4 replika üzərində orta tezlik belədir: harada f* həqiqi tezlikdir. Dispersiyanın əsas xassələrinin, orta tezliyin dispersiyasının tətbiqi:

Təxmin etmək üçün yuxarıda hesablanmış replikaların ikili müqayisəsindən kvadrat fərqlərdən istifadə etdik:

Buna görə də orta tezliyin variasiyası f aşağıdakı kimi tapıla bilər: Dispersiya və kvadrat fərqlərin tezliyin funksiyası olduğunu xatırladaraq: Hər bir seqment və zaman nöqtəsi üçün ədədi funksiyanı hesabladıq. σ 2 (f). Sonra orta tezlikli hər bir genotip üçün fx kimi onun dispersiyasını qiymətləndirdik σ 2 (fx)

Amin turşusu genotiplərinin birləşməsi

Eyni amin turşusu ardıcıllığına uyğun gələn nukleotid genotiplərini birləşdirdik və onların tezliklərini və variasiyalarını cəmlədik. Bütün genotipləri süzdük x aşağıdakı nümunələrdən hər hansı birinə malik idi:

və ya . Belə genotiplərin payı S9 istisna olmaqla bütün seqmentlər üçün <0,5% təşkil etmişdir ki, onlar üçün 4,5% olmuşdur.

Əlavə təhlil üçün bu amin turşusu məlumat dəsti müəyyən edildiyi hallar istisna olmaqla istifadə edilmişdir.

Fitness qiymətləndirilməsi

Müəyyən genotipli hovuzdakı hüceyrələrin sayı x vaxt intervalından sonra t harada eksponent olaraq artır sx mütləq fitnesdir. Genotipin tezliyi x həmçinin əlavə multiplikativ amil ilə mütləq uyğunluqdan eksponensial asılıdır: harada N tN 0, 0 və zaman nöqtələrində hovuzdakı ümumi hüceyrə nömrələridir t. Faktor əhalinin ümumi artımını əks etdirir, zamanla dəyişir, lakin bütün genotiplər üçün eynidir. Buna görə də, genotip tezliyini vaxtında yenidən yaza bilərik t kimi: harada

Hər bir genotip üçün ölçülmüş verilənlər bazasında x bizdə 3 tezliyin ölçülməsi və onların səhvləri var. Genotip uyğunluğunu qiymətləndirmək üçün biz uyğunluq funksiyası kimi eksponensial uyğunluğun nisbi kvadrat səhvlərini minimuma endirdik sx və ilkin tezlik: (1)

Bu düstur bir seqmentin bütün genotipləri üçün ümumi olan dörd parametri ehtiva edir: . Bundan sonra biz fitnes dəyərlərinin əlavə dəyişdirilməsi və miqyasını həyata keçirəcəyik (növbəti bölməyə baxın), buna görə də ümumiliyi itirmədən təyin edə bilərik və t1 = 1. İdeal olaraq, t2/t1 14-ə bərabər olmalıdır, lakin biz bu nisbətin bir çox seqmentlər üçün uyğun olmadığını və uyğun olduğunu gördük k = t2/t1 14 dəyərini istifadə etmək əvəzinə verilənlərdən.

Xüsusi və tapmaq üçün k hər bir seqment üçün yüksək tezlikli genotipləri seçdik t0 (t0>25∙10 −6 ) uyğun gəlir

Hər texniki təkrar üçün 500-1000 oxunuş. Hər seqmentdə bu kriteriyaya cavab verən 10 3 -10 4 genotip var. Biz minimuma endirdik. (1) seçilmiş genotiplər üçün ( ) bütün mümkün kombinasiyalarını sınayan şəbəkədən 0.01 addımı və [1,14] 0.1 addımı ilə və minimum (*) verən ( ) seçin.

Nəhayət, tapdığımız hər bir seqment üçün ( ) verilmişdir sx hər bir genotip üçün. Fitnes dəyərləri üçün səhvlər, , ən uyğun parametrin standart xətası kimi qiymətləndirilmişdir.

Tezliyə malik genotiplər üçün (1) tənliyinə uyğunluq nümunəsi əldə edilə bilməz. Buna görə də, biz onların uyğunluq dəyəri üçün yuxarı sərhədi müəyyən etdik, burada zaman nöqtəsində ümumi oxunan nömrələr var t1 in i-ci replika.

Fitnesin yenidən ölçülməsi

Biz fitnes səviyyəsini elə miqyaslaşdırdıq ki, öldürücü genotiplər uyğunluq 0, neytral genotiplər isə uyğunluq 1-ə malik olsun. Biz güman etdik ki, stop-kodon və ya çərçivə sürüşməsi olan genotiplər öldürücüdür. Beləliklə, hər bir seqment üçün uyğunluq paylanmasını xətti olaraq dəyişdirdik ki, cəfəng mutasiyalara malik genotiplərin 95%-nin uyğunluğu 0-a bərabər olsun və mövcud amin turşuları olan genotiplərin uyğunluq paylanmasının yerli maksimumu 1 olsun. Yerli maksimum ətrafında miqyaslama. ölçülmüş vəhşi tip ştammlarla müqayisədə 12 seqmentin hər birində fitnes dəyərlərinin +/- 0,025-dən az dəyişməsinə gətirib çıxardı və nəticələrimizə təsir göstərmədi (miqyas üçün biz amin turşusunun dəyişməsini qeyri-neytral adlandırdıq, əgər onun fitnessə təsiri > 0,4 idi). 0-dan kiçik olan bütün fitness dəyərləri 0-a təyin edildi.

Keyfiyyətə nəzarət və sinonim ardıcıllıqların müqayisəsi

Biz daxili nəzarət kimi nukleotidlərin sinonim ardıcıllığından istifadə etdik. Bir amin turşusu ardıcıllığının uyğunluğunun ölçülməsi üçün səhv dərəcəsi sinonim ardıcıllığın sayından asılıdır, n, bunu qiymətləndirmək üçün istifadə edilmişdir. Buna görə də, yanlış kəşf dərəcələrini olan kateqoriyalar üçün ayrıca qiymətləndirdik n = 1. 10 variantlar. Daha çox olan hər bir amin turşusu genotipi üçün n sinonim variantları təsadüfi birləşməni birləşdirdik n onun nukleotid genotipləri və təxmin edilən uyğunluğu. Daha sonra bu uyğunluq ilə müvafiq amin turşusu ardıcıllığının uyğunluğu arasındakı fərqi hesabladıq. Fərq <-0,4 olarsa, işi “yanlış uyğun olmayan”, fərq >0,4 olarsa, “yanlış uyğun” kimi təsnif etdik.Bu cür halların bir hissəsi bizə genotiplərin olması üçün yanlış kəşf nisbətləri verir n sinonim variantları. Hər bir seqment üçün ümumi yalan kəşf dərəcələrini əldə etmək üçün biz müxtəlif seqmentlər üçün “yanlış uyğun olmayan” və “yanlış uyğunluq” dərəcələrini ortaladıq. n olan amin turşusu verilənlər bazasında genotiplərin fraksiyalarına bərabər çəkilərlə n sinonim variant (S2 Köməkçi Məlumat). Bioloji replikalar arasında yüksək korrelyasiya (S2 Köməkçi Məlumat) 9-cu seqment istisna olmaqla, yüksək məhsuldarlıq təcrübələrimizin yüksək dəqiqliyini təsdiqləyir.

Müxtəlif fonlarda amin turşularının əvəzedici təsirlərinin təhlili

Hər bir amin turşusu dəyişdirilməsi üçün biz onun müxtəlif fonlarda fitnes effektini hesabladıq. Biz əvəzetmənin zərərli, faydalı və neytral təsir göstərdiyi fonların hissəsini təxmin etdik. Neytral effektli fonların bir hissəsini əldə etmək üçün biz Sarkisyanın qarışığın paylanması təhlili yanaşmasından istifadə etdik. və b. [10]. Biz güman edirik ki, neytral dəyişdirmələr sinonim əvəzetmələrin uyğunluq effektləri ilə eyni paylanmaya malikdir və ölçmə səs-küyündən qaynaqlanır. Daha sonra biz mutasiyaların neytral təsirə malik olduğu fonların hissəsini sinonim mutasiyaların paylanması ilə fitnes effektlərinin müxtəlif fonlar arasında paylanması arasında üst-üstə düşmə kimi hesabladıq. Qalan fonlarda amin turşularının dəyişdirilməsinin neytral olmayan təsir göstərməsi çağırıldı. Onların arasında fitnes effekti < -0,4 və fitnes effekti > 0,4 olduqda faydalı olan zərərli mutasiyalar da daxil olmaqla, güclü fitnes effektləri olanları saydıq. Belə bir nəticəyə gəldik ki, müəyyən bir amin turşusu dəyişdirilməsi bəzi fonda güclü zərərli və ya faydalı təsir göstərir, əgər belə fonların bir hissəsi saxta kəşf nisbətini keçərsə.

Dərin öyrənmə ilə fitnesin proqnozlaşdırılması

Mövcud amin turşusu vəziyyətlərinin əlavə töhfəsinə əsaslanan birölçülü fitnes funksiyasını proqnozlaşdırmaq üçün biz sadə neyron şəbəkəsi arxitekturası ilə belə praktiki olaraq hər hansı funksiyanı qura bilən maşın öyrənmə texnikası olan dərin öyrənmədən istifadə etdik [59] (Şəkil 4B). Amin turşusu ardıcıllığını ikili xüsusiyyət matrisinə çevirmək üçün hər bir xüsusiyyətin (matrisdəki sütun) müəyyən bir amin turşusu vəziyyətinin mövcudluğunu və ya olmamasını göstərən bir qaynar kodlaşdırma strategiyasından istifadə etdik. Neyron şəbəkənin tətbiqi üçün TensorFlow kitabxanasından istifadə edilmişdir (www.tensorflow.org/about/bib).

Dəqiqlik/həddən artıq uyğunlaşma nisbətini optimallaşdırmaq üçün biz neyron şəbəkə arxitekturasının və parametrlərinin müxtəlif kombinasiyalarını sınaqdan keçirdik. Başlanğıc nöqtəsi olaraq, məlumatlarımızı təsvir edən, lakin çox sayda parametrlərinə görə həddindən artıq uyğunlaşmaya meylli olan bir sıra mürəkkəb arxitekturaları seçdik. Daha sonra, dəqiqliyə empirik nəzarət edərkən, həddindən artıq uyğunluğu azaltmaq üçün təbəqələrin və neyronların sayını tədricən azaltdıq.

Son arxitekturamız üç təbəqədən və ümumilikdə 22 neyrondan ibarətdir (Şəkil 4). Hər bir neyron girişin xətti transformasiyasını həyata keçirir və nəticədə sonradan qeyri-xətti sigmoid aktivasiya funksiyasını tətbiq edir. Birinci təbəqənin çıxışı xüsusiyyət vektorunun xətti çevrilməsinin tək sigmoididir, yəni. harada x xüsusiyyət vektorudur, c1 əmsalların vektorudur, b1 qərəzdir və σ(t) = (1+et ) −1. İrəliyə baxaraq, bunun genotipin fitness potensialı olduğunu müşahidə edin x (əsas mətnə ​​baxın). İkinci qat gizli qeyri-xətti təsviri 20 siqmoidə ayırır, onların birləşməsi üçüncü təbəqənin yeganə neyronu ilə daha da xətti şəkildə çevrilir və başqa bir sigmoid funksiyaya bükülür: Yuxarıdakı düsturda, c2,i n-ci təbəqədə i-ci neyronun əmsalıdır və b2,i ikinci təbəqədəki i-ci neyronun əyriliyidir (birinci və üçüncü təbəqələrin yeganə neyronlarının meylləri b1b3, müvafiq olaraq).

Bizim yanaşmamızın əsas ideyası ondan ibarətdir ki, neyron şəbəkəsinin birinci qatındakı neyronların sayı variantın uyğunluğunu proqnozlaşdırmaq üçün istifadə olunan mutasiyaların (və ya fitnes potensiallarının) xətti kombinasiyalarının sayını müəyyən edir. Başqa sözlə, birinci təbəqədəki hər bir neyron verilənlər bazasındakı hər bir amin turşusu vəziyyətinə vahid unikal çəki təyin edir (Şəkil 4). Beləliklə, arxitekturanın birinci təbəqəsindəki neyronların sayı modeldəki epistazın ölçülməsidir (i.e. bu halda bir). Fitnes potensialları daha sonra neyron şəbəkənin 22 neyronu tərəfindən qurulan qeyri-xətti faza dəyişmə funksiyası ilə çevrilir.

Arxitekturanın sadəliyi həddən artıq uyğunlaşmanı minimuma endirir, bunun da qarşısı verilənlərin 10%-ni sınaq dəsti kimi saxlamaqla (modelin heç vaxt görmədiyi məlumatların bir hissəsində nə qədər yaxşı performans göstərdiyini görmək üçün) və erkən dayandırma (təlim idi test dəqiqliyi 10 dövr ərzində yaxşılaşmadıqda dayandırıldı). Optimallaşdırılan itki funksiyası qabarıq deyil, bu da müxtəlif yerli minimumlarda ilişib qalma ehtimalının yüksək olmasına gətirib çıxarır. Təkrarlanma qabiliyyətini təmin etmək üçün modellərimizin hər biri təsadüfi qatar-test bölmələrindən istifadə etməklə on müstəqil dəfə qurulmuşdur. 10 qurulmuş modelin dəqiqliyi ən çox 2% dəyişdi.

Hər bir model itki funksiyası kimi orta kvadrat xətadan istifadə edərək 100-dən az dövr üçün təlim keçmişdir. Geoffrey Hinton, RMSProp tərəfindən təklif edilən adaptiv öyrənmə dərəcəsi metodu optimallaşdırıcı kimi istifadə edilmişdir [60]. Bu alqoritm cari olanları normallaşdırmaq üçün son qradiyentlərin qradiyent böyüklüyündən istifadə edən mini-toplu stoxastik qradiyent enişinin versiyasıdır. Bütün çəkilər Xavier normal başlatıcısı [61] istifadə edərək başlanğıc vəziyyətinə gətirildi.

Uyğun genotip cütləri arasındakı yollar

Təhlil üçün Şəkil 7D, biz əvvəlcə iki uyğun “valideyn” genotipini, biri təsadüfi seçilmiş genotipi (məsələn: ABE) və digər valideyn genotipini seçirik. S. cerevisiae yabanı tip genotip (seqmentlararası) və ya verilənlərdəki başqa təsadüfi uyğun genotip (seqmentdaxili) (məsələn: abe). Bu nümunədəki iki genotip Hamming məsafəsi 3-dür (HD = 3). Sonra bütün (2 HD -2) ara genotipləri hesablayırıq (məsələn: AbC, aBc, və s) və eksperimental olaraq ölçülən alt çoxluğu qoruyun. Biz iki valideyn genotipini və bütün ölçülmüş ara genotipləri hər bir genotipin təpə olduğu istiqamətsiz qrafik kimi təqdim edirik. Bir amin turşusu əvəzedicisi olan bütün genotiplər çəkisiz kənar ilə bağlanır. Verilmiş genotip cütü üçün mümkün olan ən qısa yol HD uzunluğundadır. Genişlik-ilk axtarışından istifadə edərək iki valideyn genotipi arasında bütün ən qısa yolları tapırıq. Biz daha sonra yararsız olan bütün təpələri (genotipləri) çıxarırıq və iki valideyn genotipi arasında ən qısa olanların sayını yenidən hesablayırıq. Məsələn, in Şəkil 7A, bütün genotipləri nəzərə alsanız, uzunluğu üç olan altı yol var, ancaq yalnız uyğun genotipləri nəzərə alsanız, uzunluğu üç olan yalnız üç yol var.

Uyğun olmayan genotiplərin ardıcıllıq məkanında toplanması

Təhlil üçün Şəkil 7E, biz əvvəlcə iki valideyn genotipini və bütün ölçülmüş ara genotipləri hər bir genotipin bir təpə olduğu istiqamətsiz bir qrafik kimi təqdim edirik. Bir amin turşusu əvəzedicisi olan bütün genotiplər çəkisiz kənar ilə bağlanır. Sonra hər bir təpə (genotip) üçün dərəcəni (bir məsafənin genotiplərinin sayı) hesablaya bilərik. Biz bunu bütün ölçülmüş genotiplərdən təsadüfi şəkildə çəkirik və yalnız yararsız genotiplərdən istifadə edirik və ya eyni sayda, lakin təsadüfi seçilmiş genotiplərdən istifadə edirik. Təsadüfi seçilmiş genotiplər üçün dəyər orta hesabla 1000-dən çox qaçışdır.

İşarə epistazının kəmiyyəti

Hər bir amin turşusu dəyişdirilməsi üçün (məsələn: 141-ci mövqedə C -> S) biz yalnız böyük effektli amin turşularının dəyişdirilməsi dəstindən ibarət böyük fitnes effekti (abs. fərq > 0.4) nümayiş etdirənləri nəzərdən keçirdik. Hər bir amin turşusu dəyişdirilməsi üçün biz genetik fonları iki kateqoriyaya ayırdıq: dəyişdirmənin fitnesdə > 0,4 artıma səbəb olduğu və dəyişdirmənin fitnesdə > 0,4 azalmasına səbəb olduğu fonlar. Bir amin turşusunun dəyişdirilməsi iki mümkün səbəbə görə bəzi fonlarda fitnessdə böyük artıma və digərlərində böyük azalmaya səbəb ola bilər: işarə epistazı və ya eksperimental səhv. İki halı fərqləndirmək üçün biz uyğunluqda böyük artımların böyük azalmalara nisbətini əhəmiyyətli dərəcədə dəyişdirən ikincil amin turşusu əvəzedicilərini müəyyən etdik (Fisher'in dəqiq sınağı, Bonferroni düzəliş p-dəyəri < 0.05). İşarə epistazının tezliyini statistik cəhətdən əhəmiyyətli şəkildə dəyişdirən ikinci bir sahə varsa, biz bir saytı işarə epistazı altında hesab edirik, yəni. gözləniləndən daha tez-tez təsadüfən.

Ata-baba dövlətinin yenidən qurulması

PAML 4-ün CODEML proqramında həyata keçirilən maksimum ehtimal yanaşmasından istifadə edərək ata-baba amin turşusu vəziyyətlərini yenidən qurduq [62].

Struktur təhlili

Struktur proqnozu.

İlkin model I-TASSER serveri ilə əldə edilmişdir [63]. I-TASSER tərəfindən seçilmiş ən yaxşı 10 PDB struktur şablonunun siyahısına imidazolegliserol-fosfat dehidratazanın yüksək keyfiyyətli kristal strukturları daxildir. Arabidopsis thalianaCryptococcus neoformans. Əlavə təhlil üçün ən yüksək bal toplayan modelin koordinatlarından (C-balı = 0.21, təxmin edilən TM-balı = 0.74±0.11, təxmin edilən RMSD = 5.1±3.3Å) və proqnozlaşdırılan normallaşdırılmış B faktoru [64] istifadə edilmişdir. Model keyfiyyət göstəricisinin dəyəri (TM-balı >0.5) düzgün topologiya modelini göstərir. Struktur olaraq son modelə yaxın olan zülallar (RMSD 0.6–1.7Å PDB ID-ləri 4MU0, 4GQU, 1RHY, 5DNL və 2AE8-dir. Arabidopsis thaliana, Mycobacterium tuberculosis, Cryptococcus neoformans, Pyrococcus furiosusStaphylococcus aureus.

Güclü işarə epistazı nümayiş etdirən qalıq cütləri arasında məsafələrin (angstromlarda) paylanmasını ölçdük (S2 Köməkçi Məlumat, ReallyPositivePair == TRUE) və onu qalıqlar arasında cüt məsafələrin paylanması ilə müqayisə edib, verilmiş cütün işarə epistazı göstərmədiyinə əmin olmaq üçün kifayət qədər məlumatımız var (S2 Köməkçi Məlumat, ReallyNegativePair == DOĞRU).

ΔΔG proqnozu.

ΔΔG proqnozları üçün Rosetta 2017.08.59291 versiyasından Cartesian_ddg tətbiqi [65] istifadə edilmişdir. Ən yüksək nəticə göstərən I-TASSER modeli bayraqlarla ikili boşluqda [67] Relax [66] tətbiqindən istifadə edərək əvvəlcədən minimuma endirilib: -relax:dualspace true -ex1 -ex2 -use_input_sc -flip_HNQ -no_optH false -relax:min_typelbfgs_otmijo - qeyri-ideal. 1000 struktur arasından ən yaxşı bal modeli seçilmişdir. Talaris_2014 xal funksiyası və -fa_max_dis 9.0 bayrağı ilə 4-ə qədər mutasiyanın (ümumilikdə 54.500 genotip) təsiri Kartezian fəzasında qiymətləndirilmişdir. ΔΔG hər mutant və vəhşi tip xal üçün 3 müstəqil qaçış üçün orta xal fərqi kimi qiymətləndirilmişdir.


Şimpanzelər və insanlar üçün DNT analizi qoxu, maddələr mübadiləsi və eşitmə genlərində heyrətamiz fərqləri ortaya qoyur.

Tədqiqatçıların bizi ortaq əcdaddan ayıran 6 milyon il ərzində “həyat tərzi” dediyi dəyişikliklər olmasaydı, genetik quruluşda təxminən 99 faiz eyni ola bilərdi. Xüsusilə, iki əsas fərq insanların və şimpanzelərin qoxuları necə qəbul etmələri və yediyimiz şeydir.

Jurnalın son sayında iki Cornell Universitetinin aliminin iştirak etdiyi böyük bir gen müqayisəsi layihəsi Elm (12 dekabr 2003), bu və bir çox digər fərqləri insanların və şimpanzelərin genetik tarixində sürətlənmiş təkamül və müsbət seçmə sübutları axtararkən tapdı.

İki primat arasındakı genetik fərqlərin bu günə qədərki ən əhatəli müqayisəsində genomik analitiklər qoxu alma prosesində iştirak edən genlərdə müsbət seçimin və ya qoxular haqqında məlumatı hiss etmək və emal etmək qabiliyyətinə dair sübutlar tapdılar. Molekulyar biologiya və genetika üzrə Kornell professoru, təkamülçü genetik Andrew G. Clark deyir: "İnsan və şimpanze ardıcıllığı o qədər oxşardır ki, biz bu cür analizin informativ olacağına əmin deyildik". "Ancaq biz insan əcdadlarında baş verən adaptiv təkamülə uyğun ardıcıl dəyişiklik modelini göstərən yüzlərlə gen tapdıq." Bu genlər iybilmə, həzm, uzun sümüklərin böyüməsi, tüklülük və eşitmə ilə əlaqədardır. Klark deyir: "Bu, insan və şimpanzenin inkişafı və fiziologiyasının daha diqqətli müqayisəsi ilə sınanacaq ideyalar xəzinəsidir".

Şimpanzenin DNT ardıcıllığı, şirkət tədqiqatçıları Michele Cargill və Mark Adams tərəfindən başçılıq etdiyi insan variasiyasının daha geniş tədqiqatının bir hissəsi olaraq, Rockville, Md. Celera Genomics tərəfindən həyata keçirildi.

Celera təxminən 18 milyon DNT ardıcıllığı "oxuması" və ya insan genomunun ilk ardıcıllığı üçün tələb olunanın təxminən üçdə ikisini yaratdı. Statistik modelləşdirmə və hesablamalar Klark və Kornellin bioloji statistika və hesablama biologiyası üzrə köməkçi professoru Rasmus Nielsen tərəfindən aparılmışdır. Siçan genomunu da müqayisə edən bəzi analizlərdə Kornel Nəzəriyyə Mərkəzindəki superkompüter klasterindən istifadə edilib. Clark izah edir: "İnsan və şimpanzenin gen ardıcıllığını siçanlarınki ilə uyğunlaşdıraraq, insanlarda xüsusilə sürətlə inkişaf edən genləri tapa biləcəyimizi düşündük. Bu üsul müəyyən mənada soruşur: Genlər hansılardır? Daha doğrusu, insanlarla şimpanzelər arasında fərq yaratmaq üçün təbii seçmə yolu ilə hansı genlər seçilib?" Tədqiqat təxminən 23.000 genlə başladı, lakin doğru insan, şimpanze və siçan genlərinin uyğun olduğundan əmin olmaq ehtiyacı səbəbindən bu rəqəm 7.645-ə düşdü.

Klarkın fikrincə, bütün məməlilər müxtəlif maddələrin qoxusunu xüsusi olaraq tanımağa imkan verən geniş qoxu reseptorları, genlər repertuarına malikdir. Klark deyir: "Müsbət seçmə imzası həm insanlarda, həm də şimpanzelərdə qoxu hissini tənzimləmək üçün çox güclüdür. Bu, yəqin ki, qida və bəlkə də yoldaş tapmaqda əhəmiyyətinə görədir". Klarkın fikrincə, qoxu qavrayışında böyük fərqlə yanaşı, amin turşusu metabolizmasındakı fərqlər də şimpanzelərin və insanların pəhriz zülalını həzm etmə qabiliyyətlərinə təsir göstərir və ilk insanların daha çox ət yeməyə başladığı dövrə gedib çıxır. Antropoloqlar bunun təxminən 2 milyon il əvvəl, böyük bir iqlim dəyişikliyi ilə birlikdə baş verdiyinə inanırlar.

Klark deyir: "Bu tədqiqat həm də daha mürəkkəb bir fərqə -- dildə danışmaq və anlamaq qabiliyyətinə cəlbedici ipuçları verir". “Ola bilsin ki, insanlara nitqi başa düşməyə imkan verən bəzi genlər təkcə beyində deyil, həm də eşitmə ilə məşğul olur”. Buna sübut daxili qulağın tekktorial membranında qaranlıq bir protein kodlayan gen üzərində hərəkət edən xüsusilə güclü seleksiya əlaməti idi. İnsanlarda anadangəlmə karlığın bir formasına alfa tektorin adlanan bu genin mutasiyaları səbəb olur.

Alfa tektorinin mutasiyaları qulağın zəif tezlik reaksiyasına səbəb olur və nitqi başa düşməyi çətinləşdirir. "Bu, Stradivarius skripkasının səs lövhəsini kontrplak parçası ilə əvəz etmək kimi bir şeydir" deyə Klark qeyd edir. Onun sözlərinə görə, alfa-tektorində insanlar və şimpanzelər arasında böyük fərq, insanların eşitmə duyğusunun xüsusi atributları üçün zülalı tənzimləməsi lazım olduğunu göstərə bilər. Bu, Klarkı düşünməyə vadar edir ki, şimpanzelərə insan nitqini başa düşməyi öyrətməkdə çətinliklərdən biri onların eşitmə qabiliyyətinin tam uyğun olmamasıdır. Şimpanzenin eşitmə qabiliyyətinə dair tədqiqatlar aparılsa da, onların keçici reaksiyasının ətraflı sınaqları aparılmamışdır.

Klark vurğulayır ki, belə bir araşdırma insan və şimpanzelərin biologiyasının bu və ya digər genə görə fərqləndiyini sübut edə bilməz. "Ancaq bu, DNT ardıcıllığında yalnız 1 faiz fərqin niyə bizi bu qədər fərqli heyvanlara çevirdiyini başa düşmək üçün sınaqdan keçirilə bilən bir çox fərziyyə yaradır" deyir.

Tədqiqatda həmçinin Applied Biosystems (Foster City, Calif.), Celera Diagnostics (Alameda, Calif.) və Klivlenddəki Case Western Reserve Universitetinin tədqiqatçıları da əməkdaşlıq ediblər. The Elm hesabat “İnsan-şimpanze-siçan ortoloji gen triosundan qeyri-neytral təkamülün təxmin edilməsi” adlanır.


Cavablar Araşdırma Jurnalı

2011-ci cild 4

Ən müasir yaradıcılıq tədqiqatı. Pulsuz. Answers Research Journal (ARJ) bibliya çərçivəsində son Yaradılış və qlobal Daşqın nöqteyi-nəzərindən fənlərarası elmi və digər müvafiq tədqiqatların nəşri üçün peşəkar, nəzərdən keçirilən texniki jurnaldır.

  • Elm
  • Elm nədir?
  • Astronomiya
  • Biologiya
  • kimya
  • Ətraf Mühit elmi
  • Fosillər
  • Genetika
  • Geologiya
  • İnsan bədəni
  • Riyaziyyat
  • Fizika

Sənədi təqdim edin

Üçün yüksək keyfiyyətli kağızlar Cavablar Araşdırma Jurnalı, Yaradılışda cavablar tərəfindən maliyyələşdirilən, təqdim olunmağa dəvət olunur.

  1. Müəlliflər üçün Təlimat kitabçasını (PDF) oxuyun.
  2. Təlimatda qeyd olunan e-poçt ünvanına sənədləri, diaqramları, cədvəlləri və s.

Yaradılışdakı cavablar üzr istəmək üçün bir nazirlikdir, xristianlara imanlarını müdafiə etməkdə və İsa Məsihin xoş xəbərini təbliğ etməkdə kömək etməyə həsr edilmişdir.


Videoya baxın: Natural ədədin sadə vuruqların ayrılmasına aid 4 QIZIL QAYDA. (Iyul 2022).


Şərhlər:

  1. Atu

    Belə maraqlı mətnlər yazmağı necə bacarırsınız?

  2. Louden

    Səhv etdiyinizə inanıram. Bunu müzakirə etməyi təklif edirəm.

  3. Meccus

    the phrase Beautiful and timely

  4. Haden

    İçində bir şey var. Many thanks for the information. You have appeared are right.

  5. Deron

    Hamımız nə qədər çalışsaq da, yenə də kainatın nəzərdə tutduğu kimi olacaq. Oxuyanda beynim ölüb.

  6. Kelleher

    Hesab edirəm ki, səhv edirsiniz. Bunu müzakirə etməyi təklif edirəm. PM-də mənə yaz.



Mesaj yazmaq