Məlumat

Bir zülalın quruluşunu təmin edən bir operonda bir gen yoxdursa, o zaman bu zülal düzgün hazırlanmayacaqmı?

Bir zülalın quruluşunu təmin edən bir operonda bir gen yoxdursa, o zaman bu zülal düzgün hazırlanmayacaqmı?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Anladığım qədər, operon tək bir promotor tərəfindən tənzimlənən bir sıra genlərdir. Bir çox hallarda operondakı genlər zülalın alt bölmələrini əmələ gətirir.

Tədqiqatımda bir genom əldə etdim və metabolik yolun bir hissəsini təşkil edən genləri axtardım və sonunda bir operondakı genlərdən birinin əskik olduğunu tapdım.

Bu, operondakı həmin genlərdən hazırlanan zülalın düzgün hazırlanmayacağını və ya digər genlərin itkini kompensasiya edəcəyini nəzərdə tutur?


Anladığım qədər, operon tək bir promotor tərəfindən tənzimlənən bir sıra genlərdir. Bir çox hallarda operondakı genlər zülalın alt bölmələrini əmələ gətirir.

Operondakı genlər bacarmaq zülal alt bölmələrini kodlayır, lakin onlar ayrıca zülalları da kodlaya bilirlər. Tez-tez bir operon bir əsas funksiyadan məsul olan bir neçə genə sahib olacaq, digər köməkçi genlər də bu funksiyanı tənzimləməyə və ya gücləndirməyə kömək edə bilər. Bəzən genlər birləşərək çoxlu alt bölmələri tək bir gendə birləşdirirlər. Digər hallarda, alt bölmələr digər vahidlər olmadıqda əlaqəli funksiyalara malik ola bilər.

Məsələn, ArsAB kompleksi bakteriya hüceyrələrindən arseni vurmaq üçün ATP-dən istifadə edərək müqavimət göstərir. Lakin bir çox bakterial Ars operonları yoxdur arsA gen. Bu alt bölməni nəzərə almasaq, ArsB daşıyıcısı hələ də ATP yandırmaq əvəzinə protonun hərəkətverici qüvvəsindən istifadə edərək daha az səmərəli şəkildə arseni hüceyrədən çıxarmaq funksiyasını yerinə yetirir.

... bir operondakı genlərdən birinin əskik olduğunu tapdı.

Bu, operondakı həmin genlərdən hazırlanan zülalın düzgün hazırlanmayacağını və ya digər genlərin itkini kompensasiya edəcəyini nəzərdə tutur?

Əgər gen həqiqətən əskikdirsə, onu transkripsiya etmək mümkün deyil və sonrakı zülal hazırlana bilməz, lakin qalan genlər yəqin ki, hələ də işləyəcək. Mən operonun funksiyasının nə olduğunu soruşmaqla başlayardım və sonra itkin genin bu funksiya üçün vacib olub-olmadığını nəzərdən keçirərdim (işarə: Əgər o, əskikdirsə və operonun qalan hissəsi hələ də oradadırsa, yəqin ki, vacib deyil). Əgər bu vacibdirsə, onun həqiqətən itkin olub-olmadığını düşünün. Operonda oxşar funksiyaya malik bir şeyi kodlaya bilən başqa açıq oxu çərçivələri varmı? Orqanizmdə eyni operonun bir neçə nüsxəsi ola bilərmi (ehtimal ki, plazmiddə tapıla bilər)?


SRY geni

The SRY gen cinsi təyin edən bölgə Y zülalı adlı bir zülal hazırlamaq üçün təlimat verir. Bu zülal kişi cinsi inkişafında iştirak edir və bu, adətən bir insanın malik olduğu xromosomlarla müəyyən edilir. İnsanların hər hüceyrəsində adətən 46 xromosom olur. X və Y kimi tanınan 46 xromosomdan ikisi cinsi xromosom adlanır, çünki onlar bir insanın kişi və ya qadın cinsi xüsusiyyətlərini inkişaf etdirəcəyini müəyyən etməyə kömək edir. Qızlarda və qadınlarda adətən iki X xromosomu (46,XX karyotip), oğlan və kişilərdə isə bir X xromosomu və bir Y xromosomu (46,XY karyotip) olur.

The SRY gen Y xromosomunda olur. Bu gendən istehsal edilən cinsi təyin edən bölgə Y proteini transkripsiya faktoru kimi çıxış edir, yəni DNT-nin xüsusi bölgələrinə bağlanır (bağlanır) və xüsusi genlərin fəaliyyətini idarə etməyə kömək edir. Bu zülal dölün kişi cinsiyyət vəzilərinin (testislər) inkişafına səbəb olan və qadın reproduktiv strukturlarının (uşaqlıq və fallopiya boruları) inkişafına mane olan prosesləri işə salır.


Operon

T.M. Picknett, S. Brenner, Genetika Ensiklopediyasında, 2001

Tipik bir operon bir neçə növ gendən ibarətdir:

Amin turşusunun biosintezi kimi metabolik yolda iştirak edən ferment zülallarının ilkin strukturlarını kodlayan struktur genlər (S1-Sn).

Promotor (P), başlanğıc nöqtəsi kimi fəaliyyət göstərən və RNT polimerazanın bağlandığı qısa DNT ardıcıllığı. Promotor ətraf mühitin stimullarına cavab verən müxtəlif tənzimləyici elementlər tərəfindən idarə olunur.

Promotorun yanında tapılan qısa DNT seqmentindən ibarət operator (O) transkripsiyanı sıxışdıra və ya aktivləşdirə bilən tənzimləyici zülalı bağlayan nəzarət elementidir.


Nəticələr

Variantların 3D zülal məkanına uyğunlaşdırılması

Zülal fəzasında genetik variantların 3D koordinatlarını əldə etmək üçün ilk növbədə eksperimental olaraq müəyyən edilmiş protein strukturlarını nəzərdən keçiririk. Əgər eksperimental struktur yoxdursa, biz hesablama yolu ilə proqnozlaşdırılan strukturları nəzərdən keçiririk. Biz Zülal Məlumat Bankında (PDB, http://www.rcsb.org/) bütün insan zülal strukturlarının asimmetrik vahidlərindəki bütün tək zəncirli girişlər üçün 3D koordinatları çıxarırıq [33]. Bütün strukturlar üçün alternativ atom mövqeləri daxil edilmir. Nüvə maqnit rezonans spektroskopiyasından alınan çoxsaylı modelləri olan struktur faylları ilk bildirilmiş modellə təmsil olunur. Zülalların dinamik təbiətinə və daha böyük zülalların strukturlarının aydınlaşdırılmasında çətinliklərə görə, zülalların bəzi bölgələri mövcud struktur modellərdə olmaya bilər və ya bir çox modeldə fraqmentlərə bölünə bilər. Müəyyən bir zülal üçün struktur məlumatı natamam olduqda, struktur məlumatı olan qalıqlarla əlaqələndirilməyən variantlarda çatışmayan koordinatlar olur. Bir zülalın müxtəlif hissələrini təmsil edən çoxsaylı strukturlar halında, fraqmentləri proteom geniş miqyasda vahid modeldə etibarlı şəkildə birləşdirmək həmişə mümkün olmur. Növbəti bölmədə biz skan pəncərələrini təyin edərkən xəritələnməmiş variantları və çoxsaylı strukturları necə idarə etdiyimizi təsvir edirik.

Eksperimental olaraq müəyyən edilmiş strukturlar insan proteomunun yalnız təxminən 30%-i üçün mövcud olduğundan [32], biz Modbase boru kəməri [34] tərəfindən yaradılan hesablama üsulu ilə əldə edilmiş modelləri daxil edirik. Bu 3D modellər, modelləşdirilmiş zülalla yaxından əlaqəli zülalların eksperimental olaraq müəyyən edilmiş strukturlarının koordinatlarından istifadə etməklə proqnozlaşdırılır. Hesablama yolu ilə əldə edilən strukturları nəzərə alsaq, 3D struktur məlumatı olan insan zülallarının sayını iki dəfədən çox artırır. Real məlumatlara tətbiqlərimizdə genlərin 80%-dən çoxu öz ardıcıllığının ən azı bir hissəsi üçün struktur modellərə malikdir. Biz “NHLBI exome sequencing layihə məlumatlarına tətbiq” bölməsində hesablama strukturlarının skan testlərimizə rəhbərlik etmək üçün kifayət qədər dəqiq olduğunu nümayiş etdiririk.

Eksperimental olaraq müəyyən edilmiş struktur modellər üçün maraq doğuran bütün qeyri-sinonim variantları əvvəllər təsvir edilmiş PDBMap metodundan istifadə edərək zülal strukturları ilə əlaqələndirilir [32]. Qısaca olaraq, bu boru kəməri genetik variantları onların təsir etdiyi mRNT transkriptlərinə, sonra əldə edilən zülal ardıcıllığına və nəticədə mövcud protein 3D strukturlarına uyğunlaşdırır. O, əvvəlcə Ensembl Variant Effect Predictor (GRCh37.24) [35] v82 istifadə edərək kodlaşdırma variantlarının transkript səviyyəsində təsirlərini şərh edir. Bu transkript ardıcıllıqları daha sonra Uniprot verilənlər bazasından müvafiq protein ardıcıllığı ilə əlaqələndirilir [36]. Nəhayət, bu zülal ardıcıllığının variantları SIFTS (Funksiya, Taksonomiya və Ardıcıllıqla Struktur İnteqrasiyası) hizalamaları vasitəsilə zülal 3D strukturlarındakı mövqelərə uyğunlaşdırılır [37]. Sinonim variantları strukturdakı mövqelərinə uyğunlaşdırmaqla da nəzərdən keçirmək olar, lakin onların sinonim olmayan variantlara nisbətən səbəb əlaqəsi olma ehtimalı az olduğundan, biz onları burada nəzərdən keçirmirik. Modbase-dən hesablama ilə proqnozlaşdırılan 3D strukturları birbaşa transkript ardıcıllığından yaradılır, buna görə də zülal ardıcıllığını Modbase model koordinatlarına çevirmək üçün heç bir uyğunlaşma tələb olunmur.

3D zülal məkanında çevik formalı pəncərələrin müəyyən edilməsi

Xromosom, pəncərə kimi 1D parametrində skan testlərini həyata keçirmək üçün [t,t+w] sabit ölçüdə w potensial klaster bölgələrini müəyyən etmək üçün xromosom boyunca hərəkət edir. Bütün mümkün dəyərlər arasında tw, ən böyük test statistikasını yaradan biri qeydə alınır və assosiasiyanın əhəmiyyətini qiymətləndirmək üçün onun sıfır hipotezi altında paylanması ilə müqayisə edilir.

3D zülal məkanında "pəncərəni" təyin etmək üçün bir çox mümkün yanaşma var. Məsələn, pəncərə əvvəlcədən müəyyən edilmiş bucağı olan sferik [38, 39], düzbucaqlı [40] və ya elliptik [41] bölgədəki variantların alt çoxluğu kimi müəyyən edilə bilər. Tətbiqimizdə bu cür pəncərə tərifləri ilə bağlı əsas problem onların əvvəlcədən müəyyən edilmiş formaya malik olmasıdır, halbuki potensial xəstəliklərlə əlaqəli klasterlərimiz 3D zülal qatlanmasından asılı olaraq müxtəlif və mürəkkəb formalara malik ola bilər. Ənənəvi skan testlərində başqa bir problem odur ki, pəncərələrin sayı adətən formaların müxtəlif yerləri və ölçüləri nəzərə alınmaqla çox böyük olur ki, bu da skan testini hesablama baxımından intensiv edir və çoxsaylı sınaqların düzəldilməsi üçün yüksək cəzaya məruz qalır.

Bu məhdudiyyətləri aradan qaldırmaq üçün siqnal bölgələrinin çevik formalara malik olmasına imkan verən yeni məkan skan testləri hazırlanmışdır [42-44]. Bu metodların işığında biz zülal məkanında variant yerlərinin topologiyasına uyğunlaşa bilən skan yanaşmasını təklif edirik. Konkret olaraq, icazə verin C1,…,Cm zülaldakı variantların 3D koordinatlarını qeyd edin. Sabit bir pəncərə ölçüsü üçün w>0, biz qrafik müəyyən edirik (mathcal (w)) kənarları ilə <(i,j):dijw,1≤im,ijm>, harada dij yerlər arasındakı Evklid məsafəsini ifadə edir CiCj. Bu qrafikdə variantlar ij onların Evklid məsafəsindən kiçik olduqda bağlanırlar w. (mathcal qrafikində iki variant arasında yol varsa, iki variantın eyni pəncərədə olduğunu deyirik. (w)) . Ölçü dəyişdirərək w, bir sıra qrafiklər və əlaqəli pəncərələr yaradılır. Baxmayaraq ki w sonsuz sayda qiymət ala bilər, mümkün qrafiklərin sayı məhduddur, çünki qrafik (mathcal (w)) olduqda eyni qalır w cüt məsafələrin çeşidlənmiş siyahısında iki ardıcıl dəyər arasındadır dijs. Üstəlik, qrafikə yeni kənarlar əlavə edilsə də (mathcal (w)) nə vaxt w sonrakılara çatır dij, qrafikin əlaqəli komponentlər dəsti (yəni pəncərələr) eyni qala bilər. Beləliklə, skan prosedurunda nəzərdə tutulan mümkün pəncərələrin sayı azdır.

Şəkil 1-də pəncərənin tərifini göstərmək üçün 2D məkanında sadə bir nümunə təqdim edirik. Tutaq ki, 1-dən 12-yə qədər rəqəmlərlə kodlanmış 12 variantımız var. 66 cüt məsafənin olmasına baxmayaraq, müxtəlif pəncərələr verən cəmi 12 qrafik var. Bu qrafiklərdən 23 mümkün pəncərə əldə edə bilərik: <1>, <2>, <3>, <4>, <5>, <6>, <7>, <8>, <9>, <10> , <11>, <12>, <7,8>, <4,6>, <9,10>, <2,3>, <7,8,11>, <4,5,6>, < 2,3,4,5,6>, <2,3,4,5,6,7,8,11>, <2,3,4,5,6,7,8,9,10,11> , <2,3,4,5,6,7,8,9,10,11,12>, <1,2,3,4,5,6,7,8,9,10,11,12> . Pəncərənin formalaşması Şəkil 2-də ağac diaqramından istifadə etməklə vizuallaşdırıla bilər. Verilmişdir m variantlarda bu prosedur 2× yaradırm−1 mümkün pəncərə (şəkil 2-də ağacdakı qovşaqlarla təmsil olunur). Bu rəqəm ənənəvi məkan skanlama yanaşmalarından əhəmiyyətli dərəcədə kiçikdir. Əlavə fayl 1: Şəkil S1-də biz eyni nümunədən istifadə edərək ənənəvi sferik-region skan yanaşmasında [38, 39] pəncərələrin tərifini nümayiş etdiririk. Bu yanaşma 87 sferik pəncərə yaradır və başqa bir forma qəbul olunarsa, pəncərə tərifi dəyişəcək.

2D məkanında pəncərə tərifinin nümunəsi. Hər bir alt rəqəm skan prosedurunda yaradılan unikal qrafikə uyğundur. Windows hər bir qrafikdə əlaqəli komponentlərdən müəyyən edilir. Hər bir qrafikdən yeni təqdim edilmiş pəncərə(lər) başlıqda verilmişdir. PSCAN-da koordinatlar 3D zülal məkanında variantların yerləri ilə müəyyən edilir

Pəncərənin formalaşmasının ağac təsviri. Ağacdakı hər bir qovşaq bir pəncərəni təmsil edir. Terminal qovşaqları fərdi variantlardır. Boz qovşaqları olan pəncərələr aşağı məcmu kiçik allel saylarına görə buraxılmışdır. Digər pəncərələr dəsti əsaslı testin böyüklüyünü əks etdirən qırmızı rəngdədir səh-dəyərlər

Bizim skan yanaşmamız qeyri-müntəzəm formalı klasterləri aşkar edə bilir, ənənəvi yanaşmalar isə potensial klasterləri tutmaq üçün sabit formalı pəncərələrdən istifadə edir. Əlavə fayl 1: Şəkil S2-də SORL1 zülalının fraqmentində variant koordinatlarından istifadə etməklə başqa bir nümunə göstəririk. Bu misalda bizim skan yanaşmamız zolaqlı bölgədə qruplaşmanın bir neçə variantını ehtiva edən bir pəncərə yaradır. Bu, bizim yanaşmamızda skan pəncərələrinin zülal məkanında variant klasterlərinin müxtəlif topologiyalarını yerləşdirmək üçün necə uyğunlaşdırıldığını göstərir.

Əvvəlki hissədə təsvir edildiyi kimi, bir zülalın bəzi bölgələr üçün çatışmayan struktur modelləri və müxtəlif bölgələri əhatə edən, lakin etibarlı şəkildə birləşdirilə bilməyən çoxlu struktur modelləri ola bilər. Skan metodumuzda biz hər bir struktur üçün ayrıca pəncərə dəstini müəyyənləşdiririk, xəritələnməmiş variantları (yəni, struktur modelləri olmayan regionlardakı variantlar) daxil etmək üçün əlavə pəncərə yaradırıq və nəhayət, bütün pəncərələri birləşdirərək qlobal pəncərə yaradırıq.

Hər pəncərədə set-based testlər

Pəncərələr müəyyən edildikdən sonra biz hər bir pəncərədə olan variantların xəstəliklə əlaqəsini yoxlayırıq. Müəyyən bir bölgədə variantları birləşdirmək üçün bir çox dəst əsaslı assosiasiya testləri təklif edilmişdir. Xüsusilə, yük testləri variantları çökdürməklə və sonra yük xallarının orta təsirlərini sınaqdan keçirməklə yük xalları yaradır. Birləşdirilmiş variantlar oxşar təsirlərə malikdirsə, yük testləri yaxşı gücə malikdir. Digər tərəfdən, əgər bəzi variantlar müsbət təsirlərə malikdirsə, digərləri isə mənfi təsirlərə malikdirsə və/yaxud çox sayda neytral variantlar varsa, birləşmələr assosiasiya siqnallarını azalda bilər. Bu ssenaridə, SKAT-da olduğu kimi, təsirlərin variasiyasını yoxlamaq, orta dəyəri yoxlamaqdan daha güclüdür. Bu mövcud dəst-əsaslı assosiasiya testlərinin işığında biz PSCAN çərçivəsində iki test hazırlayırıq: orta göstəricini yoxlamaq üçün PSCAN-M və dispersiyanı yoxlamaq üçün PSCAN-V. Bu testlər ictimai portallarda tez-tez mövcud olan tək variantlı xal statistikasından istifadə etməklə həyata keçirilə bilər. Fərdi səviyyəli məlumatların birləşdirilməsini tələb edən metodlarla müqayisədə, ümumi statistikaya əsaslanan metodlar daha geniş tətbiq edilir, tədqiqat iştirakçısının məxfiliyini daha yaxşı qoruyur və hesablama üstünlükləri təklif edir. Variant səviyyəli xülasə statistikasından istifadə etməklə yük və SKAT testlərinin yerinə yetirilməsi təfərrüatları Metodlarda verilmişdir. Analitik səh-Testlər çox az kiçik allelləri əhatə edərsə, toplu əsaslı testlərin dəyərləri qeyri-dəqiqdir. Buna görə də, biz 10-dan az kumulyativ kiçik allelləri ehtiva edən pəncərələri nəzərə almırıq.

PSCAN gen səviyyəli assosiasiya testləri

PSCAN-ın məqsədi bir gendəki genetik dəyişkənliyin maraq əlaməti ilə əlaqəli olub olmadığını aşkar etməkdir (yəni, gen səviyyəsində sıfır fərziyyəni sınaqdan keçirmək) və əgər varsa, assosiasiyanı idarə edən siqnal bölgəsini(lərini) müəyyən etməkdir. Biz bu bölmədə gen səviyyəli sıfır fərziyyənin sınaqdan keçirilməsinə və növbəti hissədə siqnal bölgələrinin müəyyən edilməsinə diqqət yetiririk.

Tarama üsulu hər bir pəncərədə axtarış aparır və birləşmənin ən güclü sübutunu təmin edən pəncərəni seçir. (oldsymbol > = <>>_^) zülal məkanında müəyyən edilmiş bütün mümkün pəncərələr toplusunu ifadə edir. Gen səviyyəli assosiasiya testi üçün skan statistikasının təbii seçimi minimum dəst-əsaslıdır səh-bütün pəncərələr üzrə dəyər

burada (p(Q_)<>>)) edir səh-dəst-əsaslı test statistikasının dəyəri (Q_<>>) pəncərəsində Vj. (Q_<>>) PSCAN-M-də orta test statistikası və ya PSCAN-V-də variasiya testi statistikasıdır. Bir çox pəncərələr bir-biri ilə üst-üstə düşdüyü üçün (Q_<>>) 's güclü korrelyasiya və dəqiq paylanmasıdır Qmin əldə etmək çətindir. Minimum əhəmiyyətini qiymətləndirmək səh-dəyər skan statistikası, biz Monte Karlo simulyasiyasından (Metodlar) istifadə edərək onun empirik null paylanmasını qururuq. Simulyasiyaya əsaslanan yanaşmalar korrelyasiyaları birləşdirmək və minimumun əhəmiyyətini qiymətləndirmək üçün istifadə edilə bilər. səh-dəyər testi, onlar hesablama baxımından bahadır, xüsusən insan genomundakı bütün genləri sınaqdan keçirərkən tələb olunan əhəmiyyət səviyyəsi üçün.

Geniş genom tətbiqlərimizdə bu problemi həll etmək üçün çoxlu dəst-əsaslı birləşdirmək üçün Cauchy metodundan [45] istifadə edirik. səh- pəncərələr arasında dəyərlər. Minimum kimi səh-dəyər metodu, Cauchy metodu bir neçə ən kiçikə diqqət yetirir səh-dəyərlər. Koşi metodunun minimumdan üstünlüyü səh-dəyər üsuludur ki, Cauchy səh-dəyərlərin birləşməsi fərdi testlərin korrelyasiyasının uçotunu tələb etmir. Xüsusilə, Cauchy metodu test statistikasını olaraq təyin edir

burada (|oldsymbol >|) pəncərələrin ümumi sayıdır. The səh- dəyəri Qcauchy dəqiqliklə ( frac <1> <2>- frac ight)>. ) Koşi metodu bu yaxınlarda müxtəlif nadir variant assosiasiya testlərini birləşdirmək üçün assosiasiya analizində qəbul edilmiş və minimumdan daha üstün performansa malik olduğu göstərilmişdir. səh-genom miqyaslı assosiasiya tədqiqatlarında dəyər metodu [46].

Siqnal bölgələri üçün PSCAN axtarış alqoritmi

Xəstəliklə əlaqəli bir gen nəzərə alınmaqla, gendə potensial səbəbli variantları daha dəqiq müəyyənləşdirmək vacibdir. Pəncərələrdən istifadə edərək zülal məkanını bölmək bizə mənalı bioloji kontekstdə yerli siqnal bölgələrini müəyyən etməyə imkan verir. Siqnalın aşkarlanması mərhələsində biz adətən yalnız bir neçə məlum xəstəliklə əlaqəli genləri təhlil edirik, ona görə də genom miqyaslı assosiasiya tədqiqatında olduğu kimi nominal tip I xəta üzərində ciddi nəzarətə ehtiyacımız yoxdur. Buna görə də minimumu qəbul etmək mümkündür səh-dəyər skan statistikası (1) və əhəmiyyət həddi (Metodlar) əldə etmək üçün Monte Karlo simulyasiyasından istifadə edin.

Biz Metodlarda 1-ci Alqoritmdə siqnal bölgələrinin müəyyən edilməsi üçün PSCAN prosedurunu ümumiləşdiririk. Xüsusilə, biz əvvəlcə set-based testi olan pəncərələr kimi namizəd siqnal bölgələrini seçirik səh-əhəmiyyət həddindən az olan dəyərlər. Namizəd siqnal bölgələri arasında çoxlu üst-üstə düşməyən bölgələri müəyyən etmək üçün iterativ alqoritmdən istifadə edirik. Hər turda ən kiçik olan bölgəni seçirik səh-bütün namizəd bölgələr arasında dəyər verin və seçilmiş bölgə ilə üst-üstə düşən bölgələri namizədlər hovuzundan çıxarın. Şəkil 2-də fərz edək ki, bizdə <4,6>, <4,6,5>, <7,8>, <7,8,11>, <2,3,4,5,6, 7,8,11>əhəmiyyət həddini keçən, onların arasında <7,8,11> ən kiçik olan səh-dəyər. Alqoritm ilk turda siqnal bölgəsi kimi <7,8,11>seçəcək və <7,8>və <2,3,4,5,6,7,8,11>i siləcək, çünki onlar <7 ilə üst-üstə düşür ,8,11>. Qalan namizədlər arasında, fərz edək ki, <4,6> daha kiçikdir səh-dəyər <4,6,5>. Alqoritm ikinci turda başqa bir siqnal bölgəsi olaraq <4,6> seçəcək, <4,6,5>-i siləcək və axtarışı bitirəcək.

1D-də skan üsullarının qurulmasında bu siqnal aşkarlama yanaşması siqnallar kifayət qədər güclü olduqda və siqnal bölgələri yaxşı ayrıldıqda asimptotik optimallığa nail ola bilər [24, 47] (yəni əsl siqnal bölgəsini səs-küydən etibarlı şəkildə ayırmaqda). Bununla belə, siqnalların nisbətən zəif olduğu və/yaxud siqnal bölgələrinin iç-içə yerləşdiyi vəziyyətlə məşğul olmaq üçün alternativ siqnal bölgəsinin identifikasiyası yanaşması işlənib hazırlanmışdır [48, 49]. Bu prosedur yalnız əvvəlcədən müəyyən edilmiş üst-üstə düşən fraksiyadan daha çox üst-üstə düşən pəncərələri silir f. Nə vaxt f=1, bu alqoritm mahiyyət etibarı ilə hər bir bölgəni aşkar edilmiş siqnal bölgələri kimi əhəmiyyət həddini keçəndə saxlayır. Bu yazıda biz üst-üstə düşməyən pəncərə axtarış alqoritminin qiymətləndirilməsinə diqqət yetiririk, lakin proqram təminatımız alternativ yanaşmanı özündə birləşdirir (bax. Əlavə fayl 1: Alqoritm S1).

Simulyasiya tədqiqatları

PSCAN I tip xətanı idarə edir və gücü yaxşılaşdırır

Gen səviyyəsində assosiasiya testində və siqnal bölgəsinin aşkarlanmasında PSCAN-ın performansını araşdırmaq və mövcud üsullarla müqayisə etmək üçün geniş simulyasiyalar həyata keçirdik. Xüsusilə, biz PSCAN-M və -V gücünü xromosomdakı variant mövqeyinə (Metodlar) əsaslanan SCAN1D-M və -V 1D skan testləri və standart yük və SKAT testləri ilə müqayisə etdik. Genotip və fenotip simulyasiya strategiyası Metodlarda ətraflı təsvir edilmişdir. Qısacası, hər bir simulyasiya üçün biz Avropa mənşəli demoqrafik model əsasında 5000 subyekt üçün genotiplər yaratdıq və siqnal dispersiya səviyyələri və effekt ölçüsü paylamalarının geniş diapazonu altında variant 3D yerləri və genetik effektləri simulyasiya etdik. PSCAN gen səviyyəli assosiasiya testləri və siqnal bölgəsinin aşkarlanması üçün I tip səhv dərəcələrini qiymətləndirdik. Assosiasiya testində biz nominal əhəmiyyət səviyyəsini təyin etdik α 10 −4 , 10 −5 və 2.5×10 −6-da və sıfır model altında empirik tip I xəta dərəcəsini qiymətləndirmək üçün 50 milyon təkrardan istifadə edilmiş empirik güc əhəmiyyət səviyyəsində qiymətləndirilmişdir. α 10 3 təkrar əsasında 10 −6. Siqnal bölgəsinin aşkarlanmasında biz nominal əhəmiyyət səviyyəsini təyin edirik α 0,05 və 0,01-də və 10 3 təkrar istifadə edilmişdir.

I tip xəta dərəcələri üçün nəticələr Cədvəl 1-də göstərilmişdir. Gen səviyyəli assosiasiyaları yoxlamaq üçün PSCAN-M və -V düzgün idarə olunan I tip xətaya malikdir. PSCAN-V testi bir qədər mühafizəkardır, çünki hər bir pəncərədə aparılan dəst-əsaslı variasiya testi nadir variantların mövcudluğunda mühafizəkardır [13]. Tip I xəta dərəcəsi siqnal bölgələrinin aşkarlanması üçün PSCAN-M və -V prosedurlarında da qorunur.

Gücü qiymətləndirmək üçün, biz təsadüfi olaraq, seyrək və sıx siqnalları əks etdirməyə səbəb ola biləcək variantların 10% və ya 50% -ni seçdik. Bundan əlavə, iki təsir istiqaməti ssenarisini nəzərdən keçirdik: (1) bir istiqamətli təsirlər – bütün səbəbli variantlar əlamət dəyərini artırır və (2) iki yönlü təsirlər – səbəb variantlarının yarısı əlamət dəyərini artırır, qalan yarısı isə əlamət dəyərini azaldır. Nəhayət, səbəb variantlarının müxtəlif məkan dispersiya səviyyələrini nəzərdən keçirdik. Neytral variantlar üçün koordinatlar standart normal paylanmadan seçilmişdir. Səbəb variantları üçün koordinatlar standart sapma ilə sıfır orta normal paylanmadan seçilmişdir. ρ. Aşağı, orta və ya yüksək dispersiya səviyyələrini təyin etməklə simulyasiya etdik ρ=0,1, 0,25 və ya 1. Aşağı ρ (aşağı dispersiya) səbəb-nəticə variantlarını demək olar ki, heç bir neytral variantdan ibarət olmayan kiçik bir bölgədə yerləşdirir və ρ=1 (yüksək dispersiya) səbəbli variantları neytral olanlarla tamamilə qarışdırır. Əlavə fayl 1: Şəkil S3 nümunə simulyasiya edilmiş məlumat dəstləri əsasında müxtəlif siqnal dispersiya səviyyələri üçün 2D-də variant koordinatlarını göstərir.

Fərqli ssenarilər üzrə nəticələr Şəkil 3-də göstərilmişdir. PSCAN-M testi təsirlər bir istiqamətli olduqda və səbəb variantları məkan baxımından qruplaşdırıldıqda PSCAN-V-dən daha güclüdür. PSCAN-V testi təsirlər iki istiqamətli olduqda və ya səbəb variantları məkan olaraq dağıldığında PSCAN-M-dən daha güclü olur. Seyrək siqnal qəbulunda PSCAN-M və PSCAN-V bütün digər üsullardan əhəmiyyətli dərəcədə daha güclüdür, hətta səbəbli variantlar neytral olanlarla tamamilə qarışdırılsa belə (ρ=1) SCAN1D-M və SCAN1D-V testləri yük və SKAT testlərindəki analoqlarından daha güclüdür. Sıx siqnal qəbulunda, təsirlər bir istiqamətli olduqda, PSCAN-M və PSCAN-V gücü yük testinin gücünə bənzəyir. ρ=1. SCAN1D testləri bu ssenaridə yük testindən daha az güclüdür (yəni, gen bölgəsinə bərabər şəkildə yayılan sıx bir istiqamətli siqnallar), çünki ən təsirli pəncərə bütün gen bölgəsi olduqda bir çox pəncərələri sınaqdan keçirmək üçün yüksək cərimə ödəyirlər. Təsirlər iki istiqamətli olduqda, PSCAN-V digər testlərdən asılı olmayaraq daha güclüdür ρ, və PSCAN-M-in gücü SCAN1D-V və SKAT testlərinin gücünə bənzəyir.

PSCAN-M, PSCAN-V, SCAN1D-M, SCAN1D-V, yük və SKAT testlərinin güc müqayisələri. Hər bir çubuq nisbəti kimi təxmin edilən empirik gücü təmsil edir səh-10 −6-dan kiçik dəyərlər. Sol panel biristiqamətli genetik təsirləri, sağ panel isə iki istiqamətli effektləri qəbul edir, yuxarı panel variantların 10%-nin səbəb olduğunu, aşağı panel isə variantların 50%-nin səbəb olduğunu güman edir. Hər bir konfiqurasiya üçün aşağı (ρ=0,1), orta (ρ=0,25) və yüksək (ρ=1) siqnal variantlarının dispersiya səviyyələri nəzərə alınır

PSCAN simulyasiya edilmiş siqnal bölgələrini dəqiq aşkarlayır

Sonra, yuxarıda təsvir edilən ssenarilərdən simulyasiya edilmiş xəstəliklə əlaqəli genlərdə potensial səbəbli variantların aşkarlanması üçün PSCAN prosedurunun düzgünlüyünü qiymətləndirdik. Biz PSCAN prosedurunu SCAN1D və tək variant (SV) siqnal aşkarlama prosedurları ilə müqayisə etdik və həssaslıq və spesifiklikdən istifadə edərək hər bir metodun performansını kəmiyyətcə qiymətləndirdik (Şəkil 4). PSCAN-M və PSCAN-V metodları səbəb variantları məkan baxımından qruplaşdırıldıqda həssaslıq və spesifiklik baxımından öz analoqlarını, SCAN1D-M və SCAN1D-V-dən üstündür (ρ≠1) və səbəb variantları neytral olanlarla tamamilə qarışdıqda 1D testləri ilə oxşar performansa malikdir (ρ=1). İki istiqamətli təsirlərin qurulmasında PSCAN-V PSCAN-M-dən daha çox səbəbli variantları aşkar edir. Biristiqamətli effektlərin qəbulu zamanı siqnal sıx olarsa, PSCAN-M nədən asılı olmayaraq PSCAN-V-dən daha çox səbəbli variantları aşkar edir. ρ siqnal seyrəkdirsə, səbəb variantları dağılmağa meylli olduqda PSCAN-V PSCAN-M-dən daha çox səbəbli variantları aşkar edir (ρ artır). SV demək olar ki, həmişə bütün ssenarilərdə ən aşağı həssaslığa malikdir. Spesifiklik baxımından, PSCAN və SCAN1D SV-dən bir qədər aşağı dəyərlərə malikdir, xüsusən də səbəb variantları məkan olaraq səpələnmiş olduqda. Bu təəccüblü deyil, çünki skan üsulları, onların məcmu effektləri bəzi neytral variantların daxil edilməsini aradan qaldırmaq üçün kifayət qədər böyük olduqda, daha çox səbəb-nəticə variantları ehtiva edən bölgələri seçməyə meyllidir.

PSCAN-M, PSCAN-V, SCAN1D-M, SCAN1D-V və tək variant (SV) analizinin siqnal aşkarlama dəqiqliyi müqayisəsi. Siqnal aşkarlama üsullarının performansını ölçmək üçün həssaslıq və spesifiklik hesablanmışdır α=0,05 səviyyə. Hər bir ölçüdə, sol panel bir istiqamətli genetik təsirləri, sağ panel isə iki istiqamətli effektləri qəbul edir, yuxarı panel variantların 10%-nin səbəb olduğunu, aşağı panel isə variantların 50%-nin səbəb olduğunu güman edir. Hər bir konfiqurasiya üçün aşağı (ρ=0,1), orta (ρ=0,25) və yüksək (ρ=1) siqnal variantlarının dispersiya səviyyələri nəzərə alınır

NHLBI ekzom ardıcıllığı layihəsi məlumatlarına tətbiq

PSCAN lipid xüsusiyyətləri ilə əlaqəli daha çox gen müəyyən edir

Biz ilk olaraq NHLBI ekzom ardıcıllığı layihəsindən (ESP) ümumi nümunə ölçüsü 3,665 (Metodlar) olan ardıcıllıq və xüsusiyyət məlumatlarına PSCAN tətbiq etdik. Biz yüksək sıxlıqlı lipoprotein səviyyələrini (HDL) və trigliseridlərin (TRIG) xüsusiyyətlərini nəzərdən keçirdik. Bütün ümumi və nadir sinonim olmayan variantlar təhlilə daxil edilmiş və bütün üsullar eyni variantlar toplusunu təhlil etmişdir. Məlumatların emalı və ümumi statistikanın əldə edilməsi ilə bağlı təfərrüatlar Metodlarda təsvir edilmişdir. 15 242 gen arasında 12 447 (82%) ardıcıllığının ən azı bir hissəsi üçün zülal struktur modelləri mövcuddur. Zülal məkanındakı variantlar üçün 3D koordinatlar mövcud olduqda eksperimental olaraq müəyyən edilmiş strukturlardan [33] (genlərin 34%-i), əks halda hesablama ilə proqnozlaşdırılan strukturlardan [34] əldə edilmişdir. Müəyyən bir gen üçün bəzi variantlarda natamam protein struktur məlumatı səbəbindən məkan koordinatları olmaya bilər. Əlavə fayl 1: Şəkil S4 12,447 gen arasında xəritələnmiş variantların faizinin paylanmasını göstərir. “3D zülal məkanında çevik formalı pəncərələrin müəyyən edilməsi” bölməsində təsvir olunduğu kimi, biz bu xəritəsiz variantları daxil etmək üçün əlavə pəncərə yaratdıq və PSCAN-da qlobal pəncərə yaratmaq üçün bu pəncərəni xəritələnmiş variantlar üçün digər pəncərələrlə birləşdirdik.

Hər bir test üçün 5% yanlış kəşf nisbətində HDL/TRIG ilə əhəmiyyətli dərəcədə əlaqəli genləri müəyyən etdik. Əksər müəyyən edilmiş genlər üçün PSCAN gen səviyyəli testlər daha əhəmiyyətli nəticələr verdi səh-yükü/SCAN1D-M və ya SKAT/SCAN1D-V analoqları ilə müqayisədə dəyərlər (Cədvəl 2 və Əlavə fayl 1: Şəkil S5). Bundan əlavə, PSCAN daha spesifik siqnal variantlarını müəyyən etdi. PSCAN səh-qiymət kvantil-kvantil (QQ) qrafikləri yaxşı kalibrlənmişdir və genomik-nəzarət lambda dəyərləri 1-ə yaxındır (Əlavə fayl 1: Şəkil S5). Əksər genlər üçün PSCAN siqnal bölgələrində yalnız bir neçə variant var, lakin NCK1, APOC3 və CYP2C9-da demək olar ki, bütün variantlar siqnal variantları kimi aşkar edilir. Nəticədə PSCAN səh-dəyərlər həmişə bu genlər üçün yük/SCAN1D-M və SKAT/SCAN1D-V analoqlarından daha əhəmiyyətli deyil.

PSCAN zülal strukturlarında bioloji cəhətdən müvafiq siqnal bölgələrini vurğulayır

PSCAN tərəfindən aşkar edilən siqnal pəncərələrini göstərmək üçün Şəkil 5 3D zülal strukturlarını, variant yerlərini, PSCAN pəncərələrini və əlaqəli pəncərələri göstərir. səh-iki zülal üçün qiymətlər: Trombosit qlikoprotein 4 (CD36) və Fosfoqlükutaza-1 (PGM1). CD36 çoxfunksiyalı transmembran qlikoproteindir, bir çox liqandlar üçün reseptor kimi çıxış edir və yağ turşularının mübadiləsində, anadangəlmə immunitetdə və angiogenezdə iştirak edir. Lipoproteinlər və uzun zəncirli yağ turşuları ilə qarşılıqlı əlaqədə olur. CD36 mutasiyaları trombosit qlikoprotein IV çatışmazlığına [50] səbəb ola bilər və koroner ürək xəstəliyi riskini artıra bilər [51]. PSCAN CD36-da HDL ilə əhəmiyyətli dərəcədə əlaqəli olan iki variantı (Y325* və Y348F) müəyyən edir. Bu siqnal variantları oksidləşmiş aşağı sıxlıqlı lipoproteinlərin bağlanmasında iştirak edən zülalın bir bölgəsini vurğulayır və həmçinin malyariya PfEMP1 zülalları ilə qarşılıqlı təsirlərə dolayı təsir göstərə bilər [52, 53]. Bu iki variant zülal məkanında bir-birinə bitişikdir (şək. 5a), lakin onlar xromosomda 825 bp ayrıdır (hg19.chr7:80300449 və hg19.chr7:80301274) aralarında digər iki variant var. Nəticədə, SCAN1D-V CD36 üçün PSCAN-V-dən daha çox variantı özündə birləşdirən böyük siqnal pəncərəsini müəyyən etdi, lakin səh-pəncərə ilə əlaqəli dəyər oxşar səviyyəyə malikdir (Əlavə fayl 1: Cədvəl S1).

CD36 və PGM1-də əhəmiyyətli lipid əlaməti siqnal variantlarının məkan yerləri və müəyyən edilmiş pəncərələr üçün ağac diaqramları və əlaqəli səh-dəyərlər. a CD36-da (Y325*, Y348F PDB: 5LGD) əhəmiyyətli dərəcədə HDL ilə əlaqəli iki variant oksidləşmiş aşağı sıxlıqlı lipoproteinlərin bağlanmasında iştirak edən siqnal bölgəsindədir. Bu variantlar zülal məkanında yaxınlıqdadır, lakin onlar arasında iki variant olan xromosomda (hg19.chr7:80300449 və hg19.chr7:80301274) 825 bp fərq var. b TRIG ilə əhəmiyyətli dərəcədə əlaqəli olan PGM1-də (Y420H, V525F, M535V PDB: 6BJ0) üç variant C-terminal "domen 4"-ün periferiyasındadır, bu da substrat fosfatının bağlanmasını nəzərdə tutur ki, onlar fəaliyyəti modulyasiya edə bilər, lakin bağlanmanı tamamilə pozmur. Bu variantlar zülal məkanında yaxındır, lakin onlar xromosom boyunca 10 kb-dən çox məsafədədirlər (hg19.1:64114301, hg19.1:64120111, hg19.1:64125260), bu intervalda onların arasında üç başqa variant var. Zülal strukturlarında (sol panel) bənövşəyi kürələr siqnal variantlarını, mavi kürələr isə siqnal olmayan variantları təmsil edir. Sağ paneldə müəyyən edilmiş pəncərələri təmsil edən ağac diaqramları göstərilir. Boz qovşaqları olan pəncərələr buraxılmışdır, çünki onların məcmu kiçik allel sayı 10-dan azdır. səh-orta effektləri sınaqdan keçirən dəyərlər. PSCAN-M tərəfindən aşkarlanan siqnal bölgələrinə uyğun qovşaqlar bənövşəyi ulduzlarla işarələnir.

PSCAN həmçinin PGM1-də üç variantı (Y420H, V525F, M535V) ehtiva edən TRIG ilə əlaqəli siqnal bölgəsini müəyyən etdi. PGM1, qlükoza 1-fosfatın qlükoza 6-fosfata geri çevrilməsini həyata keçirən vacib bir qlükoza emal fermentidir. Bu, karbohidratların biosintezi və metabolizminin bir çox aspektlərində mərkəzi addımdır. PGM1-dəki missense variantlarının PGM1 çatışmazlığı adlanan, bifid uvula, yarıq damaq və kardiomiopatiya [54] daxil olmaqla geniş spektrli simptomlarla özünü göstərən anadangəlmə maddələr mübadiləsi səhvinə səbəb olduğu bilinir. Mutations that cause PGM1 deficiency are found throughout the structure of PGM1 with specific hotspots in the C-terminal “domain 4” that binds the phosphate group of the substrate [55, 56]. The three variants in the signal region identified by PSCAN are all present in domain 4, but are on the periphery, suggesting that they may modulate the active site, but not entirely disrupt binding. It is also possible that they influence interactions between domain 4 and other proteins, like LDB3. These variants are nearby in protein space (Fig. 5b), but they are more than 10 kb apart on the chromosome (hg19.1:64114301, hg19.1:64120111, hg19.1:64125260), with three other variants between them in this interval. The SCAN1D tests did not identify any significant signal regions in PGM1.

Computationally predicted structures are sufficiently accurate for PSCAN

In the ESP data analysis, computationally predicted structures were used for 66% of the genes, since their experimentally determined structures were not available. Thus, it is essential to evaluate how the use of computationally derived models affects the performance of PSCAN tests. To this end, we computed and compared test results for proteins with both experimental and computational structural models. For direct comparison, we focused on variants that have valid coordinates in both experimentally and computationally derived structures. Although the variant coordinates and resolution are different between experimental and computational structures, our window definition procedure is likely robust to some uncertainty about variant locations since the tested windows are the same if the connected components in the series of graphs defined on pairwise distances remain unchanged. Indeed, in this analysis, on average 95% of the windows defined using experimentally determined structures were identical using the computationally predicted structures, supporting the robustness of our approach to realistic differences in resolution. Additional file 1: Figure S6 shows the comparison of the PSCAN səh-values on experimental and computational structures. The results based on the computationally predicted structures are very similar to those based on the experimentally determined structures (Pearson correlations of 0.99). However, we note that proteins with both experimental and computational models may not be representative of all proteins with computational models. Nonetheless, the strong correlation suggests that computationally predicted structures often have sufficient resolution for use in PSCAN association analyses.

Application to the Alzheimer’s disease sequencing project data

To further explore the potential of the PSCAN approach to identify and refine rare variant associations, we applied PSCAN-M and PSCAN-V to whole exome sequencing data from 5740 late-onset Alzheimer disease (AD) cases and 5,096 cognitively normal controls of European and Caribbean Hispanic ancestry from the Alzheimer’s Disease Sequencing Project (ADSP). Following recent work [57], we performed ancestry-stratified association analysis on missense variants with MAF < 0.05 using common covariates and combined the summary statistics from both populations using a fixed-effect meta-analysis [14] (Methods).

We identified genes significantly associated with AD for each test at 5% false discovery rate (Table 3 and Additional file 1: Figure S7). PSCAN-M identified BCAM, CBLC, CBX3, SORL1, and TREM2. Each of these genes has previously been associated with AD however, the type and strength of evidence varies across these genes [57, 58]. In contrast, SCAN1D, burden and SKAT tests that did not consider structural information only identified BCAM, CBLC and TREM2 as associated with AD.

Furthermore, the structure-aware PSCAN tests identified sets of signal variants that highlight coherent functional sub-regions of the proteins. For example, PSCAN-M identified an AD signal region of 34 variants (out of a total of 214 considered) in SORL1, sortilin-related receptor (Fig. 6 and Table 3). SORL1 is a sorting receptor protein involved in the intracellular trafficking of many peptides with propensity for beta-sheet formation, including amyloid-beta precursor protein and amyloid-beta itself [59]. SORL1 contains a ten-bladed beta-propeller domain, called Vps10p, with a large tunnel at the center that binds peptides and a dynamic 10CC domain that wraps around the propeller (Fig. 6a) [59]. SORL1 has been associated with AD through both genetic and biochemical studies [57]. However, the mechanisms underlying this association are not fully understood, and there is great interest in prioritizing genetic variants of unknown significance in SORL1 [60].

Spatial and chromosome locations of significant Alzheimer’s disease signal variants in SORL1. PSCAN-M identified an AD signal region of 34 variants (out of a total of 214 considered) in SORL1. a SORL1’s structure contains a ten-bladed beta-propeller domain with a large tunnel at the center that binds peptides (PDB: 3WSY), top view (left) and side view (right). SORL1 binding of peptides, including amyloid-beta, is mediated by the L1 (dark orange) and L2 (green) loops from different blades near to the entrance of propeller binding tunnel. The dynamic 10CC domain wraps around the propeller upon binding the 10CC-b region is colored blue. Signal region variants (purple spheres) cluster in 3D space in two functional sub-regions of SORL1: one side of the peptide binding tunnel and the 10CC region. Non-signal variants are indicated by cyan spheres. b Many of the signal variants are in close proximity to the ligand (yellow sticks) the side-chains of residues in contact with the ligand are shown as sticks. c Positions of the SORL1 variants on the segment of chromosome 11 for the SORL1 gene. Signal and non-signal variants are in purple and cyan, respectively

The variants in the signal region cluster in 3D space in two functional sub-regions of the SORL1 protein: the peptide binding tunnel and the dynamic 10CC region (Fig. 6a). SORL1 peptide binding is mediated by two loops (L1 and L2) from different blades near to the entrance of propeller binding tunnel. The signal region includes variants in and near the L2 loop on the side of the binding tunnel nearest to the likely location of amyloid-beta binding (Fig. 6b). The signal region also contains many variants in the flexible 10CC domain, in particular in 10CC-b, which exhibits large conformational change when peptide binding occurs. This suggests that genetic variation in these sub-domains may modulate binding activity in ways that are functionally relevant to the development of AD.

The chromosome positions of the 34 signal variants are listed in Additional file 1: Table S2 and displayed in Fig. 6c. These variants are scattered across a wide region of over 80 kb on the chromosome (position hg19.chr11:121340744 to hg19.chr11:121421364), with 24 other non-signal variants in the interval. The relative positions of these variants on a fragment of the protein and the associated PSCAN window are shown in Additional file 1: Figure S2. These 34 variants form a banded cluster in protein space. This example illustrates the flexibility of our windowing approach to find 3D signal regions beyond simple predefined shapes and that reflect biological domains that are not obvious from the linear sequence context.


Müzakirə

Whole gene synthesis is rapidly becoming a powerful and cost effective technology for creating novel proteins and improving protein expression. To capitalize on the availability of low cost synthetic genes, we have created a database software package called Gene Composer™ that facilitates the information-rich design of protein constructs and their nucleic acid coding sequences. This user friendly software package enables the facile design of totally novel nucleic acid sequences which are codon engineered for improved protein production in heterologous expression systems. We believe that computer aided design software will allow researchers to efficiently design protein constructs and synthetic genes which they can order according to their own design (not just the design provided by any given synthetic gene vendor). The prospect of increasingly affordable synthetic genes opens the opportunity to explore the effects of synonymous gene sequence engineering for improved protein production, or in some cases reduced protein production [39]. Our efforts in building Gene Composer for synthetic gene design are geared towards the development of software that allows the user to have total control over numerous gene design parameters and to have the software be responsible for planning out all of the required DNA (oligos, PCR products, vectors) manipulations to be handled by liquid handling robots. Gene Composer is not just a design tool but also an informatics engine for manufacturing constructs. In this way, researchers can spend more time designing improved constructs, and less time having to think about how to make the construct.

Another goal in developing Gene Composer is to aid the dissemination of synthetic DNA technology to even very small labs with modest investments in recombinant DNA equipment (PC computer, thermal cycler, agarose gel electrophoresis, UV illumination box, microcentrifuge, and temperature controlled environments). We have shown that our PCA method for synthetic gene assembly from Oligo-sets defined by Gene Composer works reliably for both highly engineered synthetic gene sequences and native cDNA sequences, with reasonably low error rates of 1–2 mutations per 2 Kbp. Thus, Gene Composer can aid even the smallest lab to produce synthetic genes in any location where oligonucleotides can be made or ordered for delivery.

Several companies now offer synthetic gene production services (DNA 2.0, http://www.dna20.com Codon Devices, http://www.codondevices.com Blue Heron, http://www.blueheronbio.com Geneart, http://www.geneart.com BioBasic, http://www.biobasic.com GenScript, http://www.genscript.com Top Gene Technologies, http://www.topgenetech.com, and others) and competitive technology development is expected to continually drive prices lower. In general, most synthetic gene production companies also offer limited gene design services, for example to design genes with preferred codons of a selected expression system. However, we anticipate that the design parameters for improved protein production through synonymous gene sequence engineering of open reading frames will ultimately require a more sophisticated user driven approach. For this reason, we have intentionally enabled Gene Composer to accept numerous user defined settings for gene design parameters.


NƏTİCƏLƏR

The findings presented here reveal strong, universal connections between the structures of an mRNA and the encoded protein. The observation that these correlations are pronounced for predicted ordered parts of proteins but are much weaker or non-existent in the predicted disordered parts suggests that mRNA stability affects co-translational protein folding. Furthermore, we found that the folding energy of the most stable segment of an mRNA correlates with protein compactness stronger than the mean folding energy. These observations lead to the experimentally testable model in which elements with highly stable secondary structure that are typically located in the portions of mRNAs that encode structured protein parts, function as control devices for co-translational protein folding. This hypothesis is compatible with the demonstration of the RNA-level selection which correlates with RNA folding energy and protein compactness. The connection between mRNA and protein structures is more pronounced in prokaryotes compared to eukaryotes, conceivably due to the greater power of selection in the former.


İcra

The COGNAT web server enables comparative analysis of genomic neighborhoods of evolutionary related genes from the manually curated representative set of 711 completely sequenced prokaryotic genomes, on which the most recent release of the Clusters of Orthologous Groups of proteins (COGs) database (http://www.ncbi.nlm.nih.gov/COG/) [1] is based.

Annotating proteins from the representative set of prokaryotic genomes

We obtained annotations of COGs and Pfam domains for proteins encoded in the representative set of 711 prokaryotic genomes by searching profile hidden Markov models (HMMs) against the set of amino acid sequences with the HMMer software (http://hmmer.org/ [2]) (Fig. 1). Namely, the profile HMMs from the release 30.0 of the Pfam protein families database [3] and the profile HMMs of COGs [1] were used. The set of profile HMMs of COGs was obtained as described in [4] and contained 4534 entries in total.

A scheme of obtaining annotations of COGs and Pfam domains for proteins from 711 prokaryotic genomes (see the main text for details)

The search with the profile HMM against the set of amino acid sequences yields a list of regions in any sequence from the set, whose similarity to the profile HMM appears to be non-random (regions are termed as “hits”). We ignored a hit if its score was less than 25.0 bits or if its length was less than 25% of the profile HMM length. Therefore, significant hits were found in 1,974,859 proteins encoded in 711 prokaryotic genomes, and 419,609 proteins did not obtain a valid annotation. In many proteins, several significant Pfam domain hits were found. In order to assign such proteins to a particular architecture of Pfam domains, overlapping hits were filtered according to the following criteria:

if a lower-scored hit was overlapped by a higher-scored hit for more than 50%, such a lower-scored hit was ignored

if two overlapping hits had an equal score, we normalized the length of each hit on the length of the respective profile HMM, and we preferred the hit that had a greater normalized length

if two overlapping hits had an equal score and an equal normalized length, we preferred the longer hit.

Some proteins were attributed to several COGs if the respective hits overlapped, they were filtered according to the criteria described above.

Visualizing genomic neighborhoods

Each gene is represented in the COGNAT as an arrow, and each intergenic region is represented as a single line. The direction of the arrow indicates on which DNA strand the gene is encoded relatively to the target gene which is always represented by an arrow that points to the right. The lengths of each arrow and each line correspond to the length of the respective gene and the respective intergenic region. An arrow can be colored in accordance with the annotation of the gene product specific colors are assigned to each COG and each Pfam domain. In particular, all the Pfam domains that belong to the same Pfam clan [3] are colored identically.

User interface of the COGNAT

The main panel of the COGNAT is shown in Fig. 2. A user is expected to specify a COG identifier (e.g. COG0001) or a Pfam domain accession number (e.g. PF00001) in order to run the server. In the case of a COG identifier, genomic neighborhoods of all genes, whose products were attributed to the particular COG by Galperin and colleagues [1], are visualized. In the case of a Pfam domain accession number, genomic neighborhoods of all genes, whose products contain the Pfam domain (according to the annotation procedure described above), are depicted.

A screenshot of the COGNAT main window running in the COG mode. (a), Request field and options panel (b), two high-level taxonomy units for each nucleotide record (c), genetic neighborhoods where genes are colored according to the panel (d) (d), the color code and domain annotation for the panel (c) (e), a detailed annotation for a clicked gene

By default, genomic neighborhoods of the target genes are sorted in accordance with the multiple sequence alignment of the respective amino acid sequences built with the MUSCLE software (default parameters are used, except the number of iterations being set to two) [5]. This type of sorting allows to group genomic neighborhoods of closely related genes, which is particularly interesting for predicting new protein complexes. Genomic neighborhoods of the target genes can also be sorted in accordance with the prokaryotic taxonomy if an organism has several target genes, their genomic neighborhoods are listed under each other. This type of sorting is useful in estimating the overall distribution of the members of a COG or a Pfam domain among the representative set of 711 prokaryotic genomes and could be helpful for the analysis of paralogous genes in particular genomes.

The size of a neighborhood could be chosen in the range from 3 to 15 genes. Neighboring genes are automatically colored in accordance with the occurrence-percentage threshold (from 1% to 100%). For example, if the threshold value was set to 20%, and the server is running for the COG3002, then genomic neighborhoods of 115 target genes are visualized. In order not to miss possible important neighbors, we suggest to use the minimal 1% threshold first, and then raise it if necessary. The genes of the proteins that are attributed to the COG1009 occur within the neighborhoods more than 22 times, even if the size of a neighborhood was set to 3 genes, and therefore are automatically colored. This option is useful for identification of co-localized genes. A color legend is given below the main figure and provides a list of domain descriptions taken from the original COG or Pfam database [1, 3].

Annotations of each gene and each intergenic region of the neighborhood are available by clicking on an arrow or a line, respectively. An annotation of a gene comprises a description of the protein, references to the UniProt database [6], the genomic coordinates of the gene, the taxonomy of the organism, the annotations of both the COGs and Pfam domains, the protein sequence, and the gene sequence. A list of hits for both COGs and Pfam domains with their parameters (coordinates, scores, e-values) is also shown for each gene. An annotation of an intergenic region comprises the genomic coordinates of the intergenic region, the taxonomy of the organism, the nucleotide sequence, and the reverse complement sequence.

The main output of the COGNAT can be downloaded to the local computer as a PDF file.

Comparison with other web-based servers for comparative genomics of prokaryotes

The possibility to compare gene neighborhoods in prokaryotic genomes is incorporated in such web servers as MicrobesOnline [7], PSAT [8], and STRING [9]. In case of MicrobesOnline [7], a phylogenetic tree-based genome browser visualizes genomic neighborhoods for homologous genes that are searched by using the FastBLAST routine [10]. The maximal number of genomic neighborhoods is 400, so that distant homologs are either ignored or could be shown in the form of clusters. In contrast to this approach, COGNAT does not cluster sequences and is not limited to the number of hits, so that all proteins attributed to a particular COG or Pfam domain are shown (this is specifically important for big protein families which frequently occur in large taxonomic groups, e.g. Proteobacteria). This feature might be helpful upon studies where the peculiarities of genomic contexts should be inspected on a case-to-case basis.

The PSAT web server [8] identifies, for each gene in a reference genome, the three top-scored hits in each comparison genome by launching the protein BLAST routine [11] the genomic neighborhoods are clustered in accordance with the number of genes surrounding a given homolog in a conserved order. For proteins that belong to multiCOG superfamilies, approaches that are based on the BLAST search would not allow to analyze a particular COG. By contrast, COGNAT starts from a pre-defined set of proteins (either provided by the COG database [1] or obtainable, for each Pfam domain, by using the procedure described in [4]). Our approach enables the analysis of a complete COG, including its truncated or “weak” members, which are likely to get lost during a cut-off procedure of the PSAT web server. Such COG members could be important as non-standard versions of a protein, e.g. upon establishing relatedness to other COG(s).

The web server of the STRING database [9] is focused on the evidences of functional associations between proteins it does not provide either the sequences of genes and intergenic regions or the detailed annotation of COGs and Pfam domains in a protein.


How much protein does a person need?

Protein is an important part of every diet. The amount of protein an individual needs depends on their age and sex.

Protein is a part of every cell in the body. It helps the body to build and repair cells and tissues. Protein is a major component of the skin, muscle, bone, organs, hair, and nails.

According to the Food and Drug Administration (FDA), most people in the United States get enough protein from their diets to meet their needs.

This article looks at protein, its function, sources, and how much protein different groups of people need each day.

Protein is one of three macronutrients, which are nutrients the body needs in larger amounts. The other macronutrients are fat and carbohydrates.

Protein is made up of long chains of amino acids. There are 20 amino acids. The specific order of amino acids determines the structure and function of each protein.

The 20 amino acids that the body uses to create protein are:

  • alanine
  • arginine
  • asparagine
  • aspartic acid
  • cysteine
  • glutamic acid
  • glutamine
  • glycine
  • histidine
  • isoleucine
  • leucine
  • lysine
  • methionine
  • phenylalanine
  • proline
  • serine
  • threonine
  • tryptophan
  • tyrosine
  • valine

There are nine essential amino acids that the human body does not synthesize, so they must come from the diet.

Proteins may be either complete or incomplete. Complete proteins are proteins that contain all essential amino acids. Animal products, soy, and quinoa are complete proteins.

Incomplete proteins are proteins that do not contain all essential amino acids. Most plant foods are incomplete proteins, including beans, nuts, and grains.

People can combine incomplete protein sources to create a meal that provides all essential amino acids. Examples include rice and beans, or peanut butter on whole wheat bread.

What does protein do in the body?

Protein is present in every body cell, and an adequate protein intake is important for keeping the muscles, bones, and tissues healthy.

Protein plays a role in many bodily processes, including:

  • qan laxtalanması
  • maye balansı
  • immune system responses
  • vision
  • hormones
  • fermentlər

Protein is important for growth and development, especially during
childhood, adolescence, and pregnancy.

According to the Dietary Guidelines for Americans 2015–2020 , a healthful eating pattern includes a variety of foods containing protein. Both animal and plant foods can be excellent sources of protein.

The guidelines classify the following foods as protein foods:

  • dəniz məhsulları
  • lean meats and poultry
  • yumurta
  • legumes, which include beans and peas
  • qoz-fındıq
  • seeds
  • soy products

Dairy products, such as milk, cheese, and yogurt, also contain protein. Whole grains and vegetables contain some protein, but generally less than other sources.

Animal products tend to contain higher amounts of protein than plant foods, so people following a vegetarian diet or a vegan diet may need to plan their meals to ensure they meet their protein needs.

The FDA advise that people can tell if a food product is high or low in protein by checking the label.

Foods that provide 5% or less of a person’s daily value (DV) are considered low in protein.

Foods with 20% DV or more are considered high in protein.

A person does not need to consume foods containing all the essential amino acids at each meal because their body can use amino acids from recent meals to form complete proteins. Eating a variety of protein foods throughout the day is the best way for a person to meet their daily protein needs.

The FDA recommend that adults consume 50 grams (g) of protein a day, as part of a 2,000-calorie diet. A person’s daily value may be higher or lower depending on their calorie intake.

The Dietary Guidelines for Americans 2015–2020 provide the following recommended daily amounts (RDA) for protein by sex and age group:

YaşProtein RDA
child aged 1–313 g
child aged 4–819 g
child aged 9–1334 g
female teen aged 14–1846 g
male teen aged 14–1852 g
female adult aged 19+46 g
male adult aged 19+56 g

Many factors can affect how much protein a person needs, including their activity level, weight, height, and whether they are pregnant.

Other variables include the proportion of amino acids available in specific protein foods and the digestibility of individual amino acids.

The USDA provide a calculator to help people work out how much protein and other nutrients they need.

Protein and calories

Protein is a source of calories. Generally, protein and carbohydrates contain 4 calories per gram. Fats contain 9 calories per gram.

The Dietary Guidelines for Americans recommend that between 10–35% of an adult’s daily calories should come from protein. For children, it is 10–30%.

Most people in the U.S. meet their daily protein needs. On average , men get 16.3% of their calories from protein, and women 15.8%.

Some diets recommend eating more protein in order to lose weight.

Aa 2015 review suggests that following a particular type of high-protein diet may encourage weight loss, but researchers need to do further studies to establish how to implement such a diet effectively.

When increasing protein intake, it is important to make sure that the diet still contains adequate amounts of fiber, such as fruit, vegetables, and whole grains.

Replacing processed foods and sources of unhealthful fats or sugar in the diet with protein can promote a healthful diet.

Before making significant changes to their diet, it is a good idea for a person to talk to their doctor about the best strategies and tips.

Protein deficiency due to a low intake of protein in the diet is unusual in the U.S.

However, a lack of protein in other countries is a serious concern, especially in children. Protein deficiency can lead to malnutrition, such as kwashiorkor and marasmus, which can be life threatening.

Protein deficiency can arise if a person has a health condition, including:

  • an eating disorder, such as anorexia nervosa
  • certain genetic conditions
  • advanced stages of cancer
  • difficulty absorbing nutrients due to a health issue such as irritable bowel syndrome (IBS) or gastric bypass surgery

Very low protein intake can lead to:

  • weak muscle tone or swelling due to fluid retention
  • thin, brittle hair
  • skin lesions
  • in adults, a loss of muscle mass
  • in children, growth deficits
  • hormone imbalances

Protein shakes and protein powders contain high amounts of protein. Protein powders may contain 10–30 g of protein per scoop. They may also contain added sugars, flavorings, vitamins, and minerals.

Protein in protein shakes or powders can come from:

Building and repairing muscle requires protein. Many athletes and bodybuilders use protein products to boost muscle growth.

A wide range of protein supplements is currently available, many claiming to encourage weight loss and increase muscle mass and strength.

A 2018 review reported that taking protein supplements significantly improved muscle size and strength in healthy adults who do resistance exercise, such as weight lifting.

However, protein shakes and powders count as dietary supplements, and so they are not regulated by the Food and Drug Administration (FDA). This means people cannot guarantee that the products contain what the manufacturer claims they do.

Some supplements may also contain banned or unhealthy substances, such as heavy metals or pesticides.

Many protein products are high in added sugar and calories, which can lead to spikes in blood sugar and weight gain, so it is important to check the labels.

Most people, including athletes, can get enough protein from a balanced diet without supplements. Getting too much protein consistently can cause serious health problems.

Some people may benefit from using protein powder to address health concerns, including those with:

  • a reduced appetite, which may result from older age or cancer treatment
  • a wound that is not healing well, as protein can help the body repair and replace cells
  • a medical condition, such as a serious burn, that requires additional calories and protein

For most people, a varied and healthful diet will provide enough protein. For the best health benefits, people can get their protein from a variety of sources. These include fish, meat, soy, beans, tofu, nuts, and seeds.

Here are some suggestions for adding more protein to diet:

  • Replace regular snacks with high protein snacks, such as nuts, roasted chickpeas, and peanut butter.
  • Add beans and peas to soups, side dishes, or salads. These also make great main dishes.
  • Include one high protein food with each meal.
  • Replace a source of carbohydrate with a source of protein, such as swapping out a piece of toast for an egg in the morning.
  • Before adding protein bars to the diet, check the labels, as they can be high in sugar.

To limit fat intake while increasing protein intake, choose lean meat, poultry, and dairy products, or trim the fat before eating. Try using cooking methods that do not add extra fat, such as grilling.

Avoid processed meats and other processed foods, as these can have negative health effects. Choose nutrient-rich foods instead of processed foods when possible.

Protein is an important part of every diet. The FDA recommend that adults consume 50 grams (g) of protein per day as part of a 2,000-calorie diet, though a person’s specific needs depend on their age, sex, activity levels, and other factors.


Inheritance Patterns in Genetic Disease

Genetic diseases are heritable, meaning they may be passed from parent to child. A disease gene is called resessiv if both copies of the gene must be defective to cause the disease. Loss-of-function mutations are often recessive. If the second copy of the gene is healthy, it may be able to serve adequately even if the first copy suffers a loss-of-function mutation. In this case, the carrier of the disease gene will not have the disease.

All humans are thought to carry a number of such defective genes. Close relatives are likely to carry similar genes and gene defects, and are therefore more likely to bear children with recessive genetic diseases if they mate. Because of this, a prohibition against marriage of close relatives is found in virtually every culture in the world.

A disease gene is called dominant if inheriting one copy of it causes the disease. Toxic gain-of-function mutations often create dominant genes, as in the case of Huntington disease.

If having one defective gene causes a different condition than having two, the gene is called incompletely dominant. In familial hypercholesterolemia, having two disease genes leads to very high blood cholesterol levels and death in childhood or early adulthood. Having one disease gene and one normal gene leads to less-elevated cholesterol and a longer but still reduced life span.

Most genes are carried on autosomes, the twenty-two pairs of chromosomes that do not determine sex. Males and females are equally likely to inherit disease genes on autosomes and develop the related diseases, called autosomal disorders. Unlike autosomes, the pair of chromosomes that determine sex (called X and Y) have almost no genes in common. While the Y carries very few genes, the very large X chromosome contains many genes for proteins unrelated to sex determination. Males have one X and one Y, and are more likely than females to develop diseases due to recessive X-linked genes, since they do not have a backup copy of the normal gene. Such disorders are termed X-linked disorders. Females have two X chromosomes, and so usually do not develop recessive X-linked disorders. Duchenne muscular dystrophy, for instance, is an X-linked condition due to a defective muscle protein. It affects boys almost exclusively. Females are carriers for the condition, meaning they have the gene but seldom develop the disease.

The cell energy orqanoidlər çağırdı mitoxondriya also contain a small number of genes. Mitochondria are inherited only from the mother, and so mitochondrial gene defects show maternal inheritance. Leber's hereditary optic neuropathy is a maternally inherited mitochondrial disorder causing partial blindness.

In some diseases, not every person who inherits the gene will develop the disease. Such genes are said to show incomplete penetrance. For instance, fragile X syndrome does not affect about one-fifth of boys who inherit it. This syndrome is due to a large increase in the number of CCG nucleotides at the tip of the X chromosome and leads to characteristic facial features, mental retardation, and behavioral problems.


Point Mutations

A point mutation—the change of a single nitrogen base in a DNA sequence—is usually the least harmful type of DNA mutation. Codons are a sequence of three nitrogen bases in a row that are "read" by messenger RNA during transcription. That messenger RNA codon is then translated into an amino acid that goes on to make a protein that will be expressed by the organism. Depending on the placement of a nitrogen base in the codon, a point mutation may have no effect on the protein.

Since there are only 20 amino acids and a total of 64 possible combinations of codons, some amino acids are coded for by more than one codon. Often, if the third nitrogen base in the codon is changed, the amino acid won't be affected. This is called the wobble effect. If the point mutation occurs in the third nitrogen base in a codon, then it has no effect on the amino acid or subsequent protein and the mutation does not change the organism.

At most, a point mutation will cause a single amino acid in a protein to change. While this usually is not a deadly mutation, it may cause issues with that protein's folding pattern and the tertiary and quaternary structures of the protein.

One example of a point mutation that is not harmless is the incurable blood disorder sickle cell anemia. This happens when a point mutation causes a single nitrogen base in a codon for one amino acid in the protein glutamic acid to code for the amino acid valine instead. This single small change causes a normally round red blood cell to instead be sickle-shaped.


Elektron əlavə material

13062_2009_161_MOESM1_ESM.xls

Əlavə fayl 1: Zülalları ehtiva edən bütün müəyyən edilmiş PIWI domenlərinin siyahısı və onların ən yaxın qonşuluğu. Təqdim olunan məlumatlar bu işdə daha sonra təhlil edilmiş zülalları ehtiva edən bütün müəyyən edilmiş PIWI domenlərinin siyahısını təqdim edir. (XLS 654 KB)

13062_2009_161_MOESM2_ESM.ali

Əlavə fayl 2: Zülal ehtiva edən tam uzunluqlu PIWI domeni üçün çoxlu düzülmə. Təqdim olunan düzülmə PIWI zülallarının fərqli qrupunu göstərir. (ALI 157 KB)

13062_2009_161_MOESM3_ESM.ali

Əlavə fayl 3: N-terminal nukleaza domenini ehtiva edən və PIWI zülalları ilə əlaqəli zülalların xarakterik olmayan C-terminal domeninin çoxsaylı uyğunlaşdırılması. Təqdim olunan düzülmə PIWI zülalları ilə əlaqəli əvvəllər aşkarlanmamış domeni göstərir. (ALI 20 KB)

13062_2009_161_MOESM4_ESM.ali

Əlavə fayl 4: C-terminal nukleaza domenini ehtiva edən və PIWI zülalları ilə əlaqəli zülalların xarakterik olmayan N-terminal domeninin çoxsaylı uyğunlaşdırılması. Təqdim olunan düzülmə PIWI zülalları ilə əlaqəli əvvəllər aşkarlanmamış domeni göstərir. (ALI 4 KB)

13062_2009_161_MOESM5_ESM.xls

Əlavə fayl 5: Antifag müdafiəsində iştirak edən bütün COG-lərin siyahısı. Təqdim olunan məlumatlar Fisher Omnibus testi üçün istifadə edilən dörd fərqli sistemin faq müdafiə COG-lərinin siyahısını əks etdirir. (XLS 491 KB)


Videoya baxın: Diabetik Nefropatiya Sidikdə zülal - Nağdəliyev (Iyul 2022).


Şərhlər:

  1. Benjiro

    Boşluğu doldurmaq mümkündürmü?

  2. Kigaramar

    This matter of your hands!

  3. Henri

    Congratulations, great idea

  4. Zulkikasa

    This seems to do the trick.

  5. Farran

    Siz nişanı vurdunuz. Bunda da bir şey var, mənə yaxşı fikir kimi görünür. Mən səninlə razıyam.

  6. Heallstede

    Instead I have tried to decide this problem.

  7. Kaseeb

    Bu, Konvensiyadır, nə də daha böyük, nə də azdır

  8. Tadeo

    Tamamilə sizinlə razıyam. I think it's a good idea.



Mesaj yazmaq