Məlumat

4.3.2: GWAS - Biologiya

4.3.2: GWAS - Biologiya


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Öyrənmə Məqsədləri

  • GWAS vasitəsilə mürəkkəb əlamətlərə töhfə verən genləri müəyyən etmək üçün molekulyar markerlərin və əlaqənin necə istifadə oluna biləcəyini izah edin.
  • GWAS-ın müəyyən etdiyini başa düşərək Manhetten süjetini şərh edin xromosom bölgələri fenotiplərlə əlaqəlidir. Elm adamları bu məlumatlardan istifadə edərək, həmin genlərin fenotipdə rolunun olub-olmadığını müəyyən etmək üçün həmin ərazilərdə genlər üzərində təcrübələr aparırlar.
  • Genom geniş assosiasiya tədqiqatları hansılardır?

Gördük ki, əlaqə genləri xəritələşdirmək üçün istifadə edilə bilər. Lakin bu yanaşma uyğun deyil. Bu amilləri nəzərdən keçirin:

  • Bəzi hallarda, xüsusilə insan genetikası, yönəldilmiş xaçlar (test xaçları) praktik və etik deyil!
  • Mürəkkəb əlamətlər üçün fenotip bir spektr boyunca dəyişə bilər.
  • Mürəkkəb əlamətlər üçün çoxlu xromosomlardakı genlərin allelləri, ehtimal ki, fenotipə kömək edir.

Bunun əvəzinə, genom geniş assosiasiya tədqiqatları, markerlərin fenotiplə harada dəyişdiyini soruşmaq üçün fenotipi olan və olmayan bir çox fərddən genom üzrə markerləri müqayisə edir.

GWAS-ı başa düşmək üçün vacib şərtlər

  • SNP: tək nukleotid polimorfizmləri mövqelərdir
  • Əlaqə: lokuslar bir xromosom boyunca bir-birinə kifayət qədər yaxındırlar ki, onlar arasında homoloji rekombinasiya proqnozlaşdırılandan daha az baş verir.
  • Haplotip: birlikdə miras alına bilən SNP dəsti

Cari Tədqiqat Əlaqəsi:

New England Journal of Medicine jurnalında 2020-ci il məqaləsi "Tənəffüs Çatışmazlığı ilə Ağır Covid-19-un Genomewide Dərnəyinin Tədqiqi" haqqında məlumat verir (https://www.nejm.org/doi/full/10.1056/NEJMoa2020283).

Kağızla bağlı aşağıdakı sualları nəzərdən keçirin:

  • Neçə xəstə cəlb edildi və xəstələr haqqında hansı məlumatlar toplandı?
  • Tədqiqatla bağlı hər hansı etik mülahizələr var idimi? Əgər belədirsə, bunun səbəbini izah edin.
  • Neçə SNP genotipləndi və metod nə idi (yuxarıdakı videoya baxın) və neçə SNP (və ya variant) statistik əhəmiyyət kəsb etdi?
  • Alimlər əlaqəli SNP (və ya digər variant) və potensial genlərdən necə hərəkət edirlər?
  • Namizəd gen(lər)in rolunu araşdırmaq üçün növbəti təcrübələr nə olmalıdır?

İstinadlar

Ellinghaus D, Degenhardt F, Bujanda L, et al. Ağır Covid-19 GWAS Qrupu. Genomewide Dərnəyi Tənəffüs Çatışmazlığı ilə Ağır Covid-19 Araşdırması. N Engl J Med. 17 iyun 2020: NEJMoa2020283. doi: 10.1056/NEJMoa2020283. Epub çapdan qabaq. PMID: 32558485; PMCID: PMC7315890.


Histon lizin metiltransferazalarda və demetilazlarda mutasiyalar

Sara Weirich, Albert Jeltsch, Xərçəng Ensiklopediyasında (Üçüncü Nəşr), 2019

SMYD PKMT Ailəsi

SMYD PKMT protein ailəsi SMYD1-5 adlı beş üzvdən ibarətdir. SMYD zülalları yaxşı xarakterizə edilmir, onların arasında SMYD2 və SMYD3 ən yaxşı şəkildə öyrənilir. Onlar daxil edilmiş MYND (Myeloid, Nervy və DEAF-1) domenini daşıyan split SET domenini ehtiva edən oxşar domen arxitekturasına əsasən qruplaşdırılmışdır. MYND domeni zülal-zülal qarşılıqlı əlaqəsinə cavabdehdir və bölünmüş SET domeni digər SET domen fermentlərində olduğu kimi katalitik elementləri ehtiva edir. SMYD2-nin histon və qeyri-histon zülallarında bir neçə lizin qalıqlarını monometilləşdirdiyi bildirilmişdir. Əvvəlcə H3K36-nı metilləşdirdiyi göstərildi, lakin sonra HSP90α ilə qarşılıqlı əlaqənin H3K4-ə doğru spesifikliyini dəyişdirdiyi bildirildi. Əlavə tədqiqatlar göstərdi ki, SMYD2 həmçinin estrogen reseptor alfasının K266-nı, p53-ün K370-ini və retinoblastoma (RB) zülalının K810 və K860-ını metilləşdirir. SMYD3 əvvəlcə H3K4 di- və trimetiltransferaza kimi müəyyən edilmişdir. Sonrakı hesabatlar göstərdi ki, SMYD3 həm də substrat kimi dimetilatlanmış lizinə üstünlük verməklə H4K20-ni metilləşdirə bilər və K5-də H4 histonunu trimetilləşdirir. Bundan əlavə, SMYD3 həmçinin K831-də damar endotelial böyümə faktoru reseptoru 1 (VEGFRI) kimi histon olmayan zülalları metilləşdirir ki, bu da onun kinaz fəaliyyətini artırır. Bütövlükdə, SMYD3-ün metilasiya sahələri hələ də qeyri-müəyyəndir və substrat zülallarının tam spektri yaxşı məlum deyil.


1. Giriş

İnsan sağlamlığında genom miqyaslı assosiasiya tədqiqatları (GWAS) tək nukleotidli polimorfizmlərin (SNP) diabet və ya xərçəngin bəzi formaları kimi mürəkkəb xəstəliklərə necə meylli olduğunu ölçmək məqsədi daşıyır [1]. Bu məqsədlə, tipik bir GWAS-da minlərlə əlaqəsi olmayan nümunələr genotiplənir: maraqlandıran xəstəlikdən əziyyət çəkən hallar və ümumi əhalidən götürülən nəzarətlər. Sonra, hər bir SNP və fenotip arasında əlaqənin statistik testi (məsələn, logistik reqressiya əsasında) aparılır. Mühafizəkar Bonferroni həddindən aşağı P-dəyəri olan SNP-lər müstəqil kohortlarda gələcək tədqiqatlar üçün namizədlərdir. Risk SNP-ləri aşkar edildikdən sonra, onlar riskin qiymətləndirilməsi və xəstəlik haqqında anlayışımızı dərinləşdirmək üçün istifadə edilə bilər.

GWAS bir çox ümumi xəstəliklərin altında yatan minlərlə variantı uğurla müəyyən etmişdir [2]. Bununla belə, bu eksperimental şərait həm də özünəməxsus çətinliklər yaradır. Onların bəziləri problemin yüksək ölçülü olmasından irəli gəlir, çünki bu günə qədər hər bir GWAS nümunələrin genotiplənməsindən daha çox variantı öyrənir. Bu, eksperimentin statistik gücünü məhdudlaşdırır, çünki o, yalnız daha böyük effektli variantları aşkar edə bilir [3]. Bu, xüsusilə problemlidir, çünki üstünlük təşkil edən fikir, əksər genetik arxitekturaların kiçik effektli bir çox variantı ehtiva etməsidir [3]. Əlavə olaraq, yanlış pozitivlərin qarşısını almaq üçün GWAS-ların əksəriyyəti konservativ çoxsaylı test korreksiyasını, adətən əvvəllər qeyd olunan Bonferroni korreksiyasını tətbiq edir. Bununla belə, GWAS-da olduğu kimi, statistik testlər korrelyasiya olduqda Bonferroni korreksiyası həddindən artıq konservativ olur [4]. Digər açıq məsələ nəticələrin şərhidir, çünki ən çox yayılmış variantların funksional nəticələri məlum deyil. Üstəlik, son böyük nümunəli tədqiqatlar göstərir ki, sonsuz kiçik modelə uyğun olaraq genom boyu yayılmış çoxsaylı lokuslar istənilən mürəkkəb əlamətə müəyyən dərəcədə kömək edir [5]. Bu yaxınlarda təklif edilən omnigenik model [6] bir izahat təqdim edir: genlər bir-biri ilə güclü şəkildə bağlıdır və bir-birinin funksiyasına təsir göstərir, bu da əksər genlərdə baş verən dəyişikliklərin birbaşa xəstəliyin mexanizmində iştirak edən “x0201ccore” genlərinin alt qrupuna təsir göstərməsinə imkan verir. Beləliklə, bioloji məlumatların strukturunu əhatə edən hərtərəfli statistik çərçivə yuxarıda göstərilən problemlərin həllinə kömək edə bilər.

Bu səbəbdən bir çox müəlliflər xəstəliyə səbəb olan biomolekulların kompleks qarşılıqlı təsirini idarə etmək üçün şəbəkə biologiyasına müraciət edirlər [7, 8]. Adından da göründüyü kimi, şəbəkə biologiyası biologiyanı bir şəbəkə kimi modelləşdirir, burada öyrənilən biomolekullar, çox vaxt genlər düyünlərdir və seçilmiş funksional əlaqələr onları birləşdirən kənarlardır. Bu əlaqələr, məsələn, genlərin bioloji funksiyaya birgə töhfə verdiyini, ifadələrinin korrelyasiya etdiyini və ya məhsullarının zülal-zülal qarşılıqlı əlaqəsini yaratdığını sübut edən sübutlardan irəli gəlir. Bu fikrə görə, mürəkkəb xəstəliklər tək dəyişdirilmiş genin nəticəsi deyil, bir-birindən asılı olan çoxsaylı molekulların qarşılıqlı təsirinin nəticəsidir [9]. Əslində, bioloji şəbəkələrin tədqiqi göstərir ki, xəstəlik genləri diferensial xüsusiyyətlərə malikdir [9, 10]: onlar şəbəkədə mərkəzi yerləri tutmağa meyllidirlər (ən mərkəzi olanlar olmasa da) eyni patoloji üçün xəstəlik genləri modullarda toplanır və çox vaxt onlar modulları birləşdirən darboğazlardır.

Şəbəkəyə əsaslanan kəşf üsulları GWAS məlumatlarından istifadə edərək xəstəlik genlərini müəyyən etmək üçün yuxarıda təsvir edilən diferensial xassələrdən istifadə edir [11, 12]. Əslində, hər bir gen, GWAS məlumatlarından hesablanan xəstəliklə əlaqəli bir xal və əvvəlki biliklərə əsaslanan şəbəkə tərəfindən verilən bioloji əlaqələr toplusu alır. Sonra problem funksional olaraq yüksək bal toplayan genlər toplusunun tapılmasına çevrilir. Bu problemə çox vaxt müxtəlif riyazi çərçivələrdən və optimal həllin necə göründüyünə dair mülahizələrdən irəli gələn çoxsaylı həllər təklif edilmişdir. Məsələn, bəzi üsullar problemi xüsusi alt şəbəkə növləri ilə məhdudlaşdırır. Bu, “star” alt şəbəkələrinə, yəni həm genin, həm də onun birbaşa interaktorlarının xəstəliklə əlaqəli olduğu hallara diqqət yetirən LEAN [13] vəziyyətidir. dmGWAS [14] və heinz [15] kimi digər alqoritmlər belə güclü məhdudiyyətlər qoymur və yüksək assosiasiya xalları olan genləri birləşdirən alt şəbəkələri axtarır. Bununla belə, onlar aşağı qiymətli qovşaqların daxil edilməsinə və həllin topologiyasına qarşı dözümlülükləri ilə fərqlənirlər. Nəhayət, digər üsullar şəbəkənin topologiyasını da nəzərdən keçirir, yalnız yüksək ballı deyil, həm də bir-biri ilə sıx bağlı olan qovşaq qruplarına üstünlük verir, məsələn HotNet2 [16], SConES [17] və SigMod [18].

Bu işdə biz bu altı şəbəkə metodunu GWAS məlumatlarına tətbiq etməklə şəbəkə əsaslı yanaşmaların genetika ilə bağlılığını öyrəndik. Onlar omnigenik modelin müxtəlif şərhlərindən istifadə edir və sahənin təmsilçi görünüşünü təmin edirlər. Biz GENESIS verilənlər bazası [19] üzərində işlədik, Fransa əhalisi arasında ailəvi döş xərçəngi ilə bağlı araşdırma apardıq. Klassik GWAS yanaşmasından sonra əlavə döş xərçənginə həssaslıq genlərini müəyyən etmək üçün bu şəbəkə üsullarından istifadə etdik. Nəhayət, müxtəlif üsullarla əldə edilən həlləri müqayisə etdik və çatışmazlıqlarını aradan qaldıran ailə döş xərçənginə meylliliyin konsensus həllərini əldə etmək üçün onların kəsişməsini öyrəndik.


Cüzepina Kasu

Giuseppina Casu 1994-cü ildə Sassari Universitetində Biotibbi Laboratoriya Texniki dərəcəsi almışdır, hazırda 1996-cı ildən IRGB-CNR-də texniki assistent kimi çalışır. Onun tədqiqatları demək olar ki, həmişə multifaktorial xəstəliklərin (böyrək) öyrənilməsinə yönəlmişdir. daşlar, hipertoniya) təcrid olunmuş Sardiniya populyasiyalarında. 2008-ci ildən 2018-ci ilə qədər, IRGB ilə Sassari Universitetinin Baytarlıq Fiziologiyası İnstitutu arasında bağlanmış müqavilədən sonra o, Sardiniyada keçi irsinin yaxşılaşdırılması və mühafizəsi ilə bağlı layihədə iştirak etmişdir. Bundan əlavə, o, eyni zamanda V İetnamda talassemiyaya yönəlmiş bir araşdırmada əməkdaşlıq etdi.

Onun fəaliyyəti əsas molekulyar biologiya üsullarının tətbiqinə əsaslanırdı, məsələn: şoran üsulu ilə və Qiagen dəsti ilə DNT çıxarılması, PCR ilə DNT-nin gücləndirilməsi, ABI PRISM 3130 XL Genetik Analizator avtomatik sekvensator və DNT ilə DNT ardıcıllığı məhdudlaşdırıcı endonükleazlarla parçalanma.

2020-ci ildən o, PyroMark Q24 Qiagen 2.0.6 versiyası ilə Pyrosequencing texnologiyasından istifadə edərək xolangiokarsinoma və tiroid xəstələrinin parafinlə gömülü şiş toxumasından çıxarılan DNT-nin genetik mutasiyalarının aşkarlanması və kvantlanması üzərində işləyir.

Ən əhəmiyyətli nəşrlər:

Doro, Maria G Casu, Giuseppina Frogheri, Laura Persico, Ivana Triet, Le Phan Minh Hoa, Phan Thi Thuy Hoang, Nguyen Huy Pirastru, Monika Mereu, Paolo Cucca, Francesco Masala, Bruno

Hemoqlobin, 41 (2), s. 96-99, 2017, ISSN: 1532-432X 0363-0269.

Doro, Maria Grazia Piras, Daniela Leoni, Covanni Giuseppe Casu, Cüzepina Vaccargiu, Simona Parracciani, Debora Naitana, Salvatore Pirastu, Mario Novelletto, Andrea

PloS One, 9 (4), səh. e95969, 2014, ISSN: 1932-6203.

Piras, Daniela Doro, Maria Grazia Casu, Cüzepina Melis, Paola Maria Vaccargiu, Simona Piras, Ignazio Parracciani, Debora Stradoni, Roberta Frongia, Bruno Lai, Graziano Sale, Salvatore Cattari, Walter Piras, Roberto Deorg, Ombret Piras, Roberto Deorg, Cuberio Sanber Atzori, Franco Mancosu, Marco Marchiori, Francesca Cammelli, Rossana Spiga, Alessandra Loddo, Pier Paolo Pili, Gianfranco Boi, Roberto Argiolas, Cüzeppe Mereu, Paolo Leoni, Covanni Cüzeppe Naitana, Salvatore Pirastu, Mario Novelletto, Andrea

PloS One, 7 (2), səh. e30785, 2012, ISSN: 1932-6203.

Tore, S Casula, S Casu, G Concas, MP Pistidda, P Persico, I Sassu, A Maestrale, GB Mele, C Caruso, M R Bonerba, B Usai, P Deiana, I Thornton, T Pirastu, M Forabosco, P

Məlum damazlıq strukturu ilə əlaqəli bir vəziyyətdə/nəzarət nümunəsində GWAS üçün yeni metodun tətbiqi: nefrolitiaz üçün yeni lokusların müəyyən edilməsi Jurnal məqaləsi

PLoS Genet, 7 (1), səh. e1001281, 2011.

Arxiv, demoqrafik və genetik tədqiqatlar Sardiniya subizolyatını kompleks əlamətlərin xəritələşdirilməsi üçün uyğun model kimi müəyyən edir.


Lütfən, qeyd edin: Biz aşkar etdik ki, UK Biobank və GIANT-ın meta-analizi üçün ilkin olaraq yüklənmiş BMI faylları tam nümunə ölçüsünü əks etdirmir və indi düzəliş edilmişdir. Bu faylları 25 iyun 2018-ci il tarixindən əvvəl endirmisinizsə, lütfən, onları yenidən endirin. Narahatçılığa görə üzr istəyirik.

Bu məlumatlardan istifadə edirsinizsə, lütfən istinad edin: Yengo L, Sidorenko J, Kemper KE, Zheng Z, Wood AR, Weedon MN, Frayling TM, Hirschhorn J, Yang J, Visscher PM, GIANT Consortium. (2018). Azərbaycanda boy və bədən kütləsi indeksi üçün genom miqyaslı assosiasiya tədqiqatlarının meta-analizi


Nəticələr

Bu araşdırmada biz Norveç ladinlərində ən böyük assosiasiya tədqiqatını həyata keçirmək üçün 120 nəsil testindən və klonal arxivlərdən yeni toplanmış məlumatlardan böyük məlumat dəstindən istifadə etdik. Faktor-analitik və məkan analizləri vasitəsilə biz GWAS üçün fenotipik dəyərin dəqiqliyini artırmaq üçün minimum genetik əlaqə ilə müxtəlif yaşlar, ərazilər və cinslərin müxtəlif və heterojen verilənlər toplusunun birləşməsini mümkün etdik. Böyümə və odun keyfiyyəti xüsusiyyətləri üçün müəyyən edilmiş əhəmiyyətli SNP-lərin ümumi sayı məhdud olsa da, biz fenologiya əlamətləri üçün daha çox SNP aşkar edə bildik. O, həm də təkrarlama və yoxlama addımları vasitəsilə müəyyən edilmiş SNP-lərin müəyyən edilməsinin dəyərini göstərir. Həqiqətən də, bizim GWAS tədqiqatımız soyuq dözümlülük genləri MAP3K və tumurcuq partlaması arasındakı əlaqəni bir gen ifadəsi araşdırması vasitəsilə müəyyən etmək, təkrarlamaq və yoxlamaqda uğur qazandı. Soyuq dözümlülüklə əlaqəli SNP-lər ağac böyüməsi və DBH ilə də əlaqəli olduğundan, soyuq dözümlülüyü yaxşılaşdırmaqla, meşələrin böyüməsi və məhsuldarlığı eyni vaxtda artırıla bilər.


Manuela Uda

Dölün hemoglobin səviyyəsinin tənzimlənməsində və β-talassemiya və digər hemoglobinopatiyaların fenotipinin klinik yaxşılaşdırılmasında iştirak edən bütün genom assosiasiya tədqiqatları ilə müəyyən edilmiş gen variantlarının molekulyar və funksional xarakteristikası. Xüsusilə, bu layihə irsi anemiyalar üçün yeni terapevtik müalicə üsullarının işlənib hazırlanması məqsədi ilə BCL11A transkripsiya faktorunun təsir mexanizmini aydınlaşdırmaq məqsədi daşıyır.

Ən əhəmiyyətli nəşrlər:

Danjou, Fabrice Zoledziewska, Magdalena Sidore, Carlo Steri, Maristella Busonero, Fabio Maschio, Andrea Mulas, Antonella Perseu, Lucia Barella, Susanna Porcu, Eleonora Pistis, Giorgio Pitzalis, Maristella Pala, Mauro Dénzel, Stephanh Leony Metrusith, , Lidia Angius, Andrea Uda, Manuela Moi, Paolo Thein, Swee Lay Galanello, Renzo ç, Gon Schlessinger, David Sanna, Serena Cucca, Francesco

Nature Genetics, 47 (11), s. 1264-1271, 2015, ISSN: 1546-1718.

Benyamin, Beben Esko, Tonu Ried, Janina S Radhakrishnan, Aparna Vermeulen, Sita H Traglia, Michela ö, Martin G Anderson, Denise Broer, Linda Podmore, Clara Luan, Jian'an Kutalik, Zoltan Sanna, Serena van der Meer, Peter Tanaka , Toşiko Vanq, Fudi Vestra, Harm-Yan Franke, Lude Mixaylov, Evelin Milani, Lili və Jonas H, Jonas H Winkelmann, Juliane Meitinger, Thomas Thiery, Joachim Peters, Annette Waldenberger, Melani Rendon, Augusto Jolley, Jenni Sambrook, Jennifer Kiemeney, Lambertus A Sweep, Fred C Sala, Cinzia F Schwienbacher, Christine Pichler, Irene Hui, Jennie Demirkan, Ayse Isaacs, Aaron Amin, Nəcəf Steri, Maristella é, G Verweij, Niek Powell, Joseph E Nyholt, Andrew C Madden, Pamela AF Visscher, Peter M Wright, Margaret J Montgomery, Grant W Martin, Nicholas G Hernandez, Dena Bandinelli, Stefania van der Harst, Pim Uda, Manuela Vollenweider, Peter Scott, Robert A Langenberg, Claudia Wareham, Nicholas J Konsorsium, InterAct van Duijn, Cornelia Beilby, John Pram staller, Peter P Hicks, Andrew A Ouwehand, Willem H Oexle, Konrad Gieger, Christian Metspalu, Andres Camaschella, Clara Toniolo, Daniela Swinkels, Dorine Whitfield, John B

Nature Communications, 5, s. 4926, 2014, ISSN: 2041-1723.

Ümumdünya Bioloji Psixiatriya Jurnalı: Dünya Bioloji Psixiatriya Cəmiyyətləri Federasiyasının Rəsmi Jurnalı, 14 (8), səh. 583-589, 2013, ISSN: 1814-1412.


Giriş

Qeyri-Hodgkin (NHL), Hodgkin (HL) və xroniki lenfositik lösemi (CLL)/kiçik lenfositik lenfoma kimi təyin olunan limfomalar qərb ölkələrində ən çox görülən hematoloji bədxassəli şişlərdir və birlikdə hər birində 95 520 yeni diaqnoz qoyulur. ABŞ-da il. 1 Lenfomaların və leykemiyaların ailəvi qruplaşmasına dair hesabatların uzun tarixi olmasına baxmayaraq, bu bədxassəli şişlərin çox nadir irsi xərçəng sindromları xaricində mühüm irsi genetik komponentə malik olduğu nisbətən yaxınlarda qəbul edilmişdir. 2 2001-ci ildə Ümumdünya Səhiyyə Təşkilatı limfomaların Yenidən İşlənmiş Avropa Amerika Lenfoma təsnifatına əsaslanan yenilənmiş təsnifat sistemini təqdim etdi, 3 beynəlxalq qızıl standart oldu. 4 Bu təsnifat lenfoma alt tiplərini ardıcıl olaraq müəyyən etmək üçün ilk bioloji əsaslı, inteqrasiya olunmuş çərçivəni təmin etdi və bununla da bu heterojen xəstəliklər qrupu üzrə tədqiqatı xeyli asanlaşdırdı.

Əvvəlki araşdırmalardan 5-11-ə əsaslanaraq, biz lenfoma üçün ailə meylinə (əkiz, hal-nəzarət və qeydiyyata əsaslanan tədqiqatlar daxil olmaqla) və cücərmə xətti həssaslıq yerlərinə (o cümlədən əlaqə və genetik assosiasiya tədqiqatları) müraciət edən ən güclü məlumatlara diqqət yetiririk və bunları yerləşdiririk. tapıntıları klinik kontekstdə əks etdirir. Lenfomanın etiologiyası ilə bağlı ortaya çıxan bir mövzu ondan ibarətdir ki, alt tipə görə risk faktorları üçün həm ümumilik, həm də heterojenlik mövcuddur, 12 və beləliklə, biz bu məsələni həm də ailə meyli və genetik risk faktorları kontekstində nəzərdən keçiririk.


Mücərrəd

Bu məqalədə dəyişkənliyin və irsiyyətin molekulyar və inkişaf əsaslarının dərk edilməsində yeni irəliləyişlərə əsaslanan təkamül biologiyasına alternativ baxışların “statistik” izahat sxemlərindən “mexanik” izahlı sxemlərə keçid kimi qəbul edilməli olduğu iddiası müzakirə edilir (Pigliucci və Müller 2011). Düzdür, statistik yanaşmalar Müasir Sintezi səciyyələndirirdi, lakin postgenomik elmin epistemik xüsusiyyətlərini araşdıraraq iddia edirəm ki, bu, cari epistemik sürüşmənin düzgün xarakteristikası deyil. Mən əvvəlcə genin inkişaf və irsiyyətdə ikili təbiətini xarakterizə edəcəyəm, onu iki növ səbəb-nəticə əlaqəsi arasındakı fərq baxımından izah edəcəyəm. Postgenomik elmdə genlər, variasiya və irsiyyət anlayışları ilə bağlı dəyişikliyin ardınca mən ilk növbədə iddia edəcəm ki, mexaniki izahatlardan fərqli olaraq, dəyişmə bizə bir çox növ genomik şəbəkələrə, yeni və nukleotidlərə yaxınlaşmaq üçün yeni topoloji izahlı çərçivələr təqdim edir. fokuslanmış statistik vasitələrin səbəb rollarının mexaniki modelləşdirilməsinə birbaşa çevrilməsi ehtimalı azdır. İddia edirəm ki, epistemik dəyişiklikləri klassik statistikaya qarşı mexanizmlər fərqi əsasında həll etmək əvəzinə, postgenomik elmə uyğun izahat üsullarının şaxələndirilməsini və bunun təkamül biologiyası üçün nəticələrini etiraf etmək lazımdır.


Vurğulananlar

İnsan genomundakı 1000-lərlə uzun intergenik kodlaşdırılmayan RNT-lərdən qorunmamış uzun intergenik kodlaşdırılmayan RNT-lər konservasiya edilmiş uzun intergenik kodlaşdırılmayan RNT-lərə bənzər sürətlə kardiometabolik əlamətlərlə əlaqələndirilir.

Bu tapıntılar bir çox kardiometabolik xüsusiyyətlər arasında uyğundur və qorunmanın müxtəlif təriflərindən istifadə etməklə davam edir.

Bütün kardiometabolik əlamətlər üçün, genom miqyasında assosiasiya tədqiqatı ilə əlaqəli uzun intergenik kodlaşdırılmayan RNT-lərin üçdə birindən çoxu sintenik mövqe mühafizəsi əsasında qorunmur və bu, daha ciddi konservasiya tərifindən istifadə etməklə üçdə ikiyə qədər artır.

Giriş

Mürəkkəb kardiometabolik əlamətlər üçün geniş miqyaslı genom tədqiqatları nəticəsində müəyyən edilmiş əksər lokuslar intergenik bölgələrə düşür və bunların bir çoxu hüceyrəyə xas tənzimləyici funksiyaları təmin edən genomik xüsusiyyətləri üst-üstə düşür. Həqiqətən də, insan toxumalarının transkriptom profili bütün uzun kodlaşdırmayan RNT-lərin (lncRNA) əksəriyyətini təmsil edən minlərlə uzun intergenik kodlanmayan RNT (lincRNA) aşkar etdi, bu lokusların bir çoxunda hüceyrə və toxuma spesifik şəkildə transkripsiya olunub. bu lincRNA-ların bu intergenik lokuslarda kardiometabolik xüsusiyyət birlikləri üçün səbəb elementləri ola biləcəyinə. 1 Bu sahədəki konvensiya göstərir ki, bir çox növdə qorunan genetik elementlərin funksional olma ehtimalı daha yüksəkdir və mutasiyalar və ya ümumi variasiya ilə pozularsa, müvafiq olaraq nadir xəstəliklərə və mürəkkəb əlamətlərə kömək edir. Təkamül profili göstərir ki, RNT ardıcıllığı ilə xəritələnmiş insan lincRNA-larının əksəriyyəti primat növlərindən kənarda qorunmur və onların bir hissəsinin həqiqi funksional lncRNA-lar deyil, geniş yayılmış transkripsiyanın əlavə məhsulları ola biləcəyi irəli sürülür. 2-4 Bununla belə, son işlər, insan kardiometabolik və digər xəstəlikləri üçün lokuslarda səbəb element ola biləcək bir alt çoxluq da daxil olmaqla funksional və bioloji əhəmiyyətli olan konservasiya olunmamış insan lincRNA-larının bir çox nümunələrini aşkar edir. 1,4–15

Bu perspektivlər konservləşdirilməmiş lincRNA-larda genetik variasiyanın mürəkkəb kardiometabolik xəstəliklərlə hər hansı sistematik əlaqəsi olub-olmaması və əgər varsa, bu nümunənin konservləşdirilmiş lincRNA-lardan nə dərəcədə fərqli olduğuna dair mühüm suallar doğurur. Bu, funksional və tərcümə tədqiqatı üçün hansı insan lincRNA-larının prioritetləşdirilməsinin müəyyən edilməsində mühüm sualdır. Əgər konservləşdirilməmiş lincRNA-lar sistematik sorğu-sual tələb edirsə, bu, təfəkkürün dəyişməsini və konservləşdirilməmiş lincRNA-ların fizioloji rollarını və xəstəliklərə təsirini həll etmək üçün in vivo humanitarlaşdırılmış innovativ modellərin tətbiqini tələb edir. Daha geniş şəkildə desək, insan genomları əsasən konservləşdirilməmiş lincRNA-ları ehtiva etdiyinə görə, kardiometabolik model sistemlərində mexaniki tədqiqatlar üçün funksional prioritetləşdirməni şərtləndirən ənənəvi konservasiya anlayışı müxtəlif, konservləşdirilməmiş, funksional tənzimləyici xüsusiyyətlər haqqında genişlənən biliklərimiz kontekstində yenidən nəzərdən keçirilməlidir.

Hazırkı işdə biz konservləşdirilməmiş lincRNA-ların mürəkkəb kardiometabolik xüsusiyyətlə əlaqəsi olma ehtimalını və bunun konservləşdirilmiş lincRNA-lar üçün birləşmə modelinə bənzəyir və ya ondan fərqli olub-olmamasını qiymətləndirdik. Buraya 8 kardiometabolik xəstəliklə əlaqəli əlamətlər üçün çoxlu böyük meta-analizlərdən əldə edilən ümumi məlumatların hərtərəfli nəzərdən keçirilməsi daxildir: bədən kütləsi indeksi (WHRadjBMI), bədən kütləsi indeksi (BMI) üçün düzəldilmiş bel-omba nisbəti. , 16-20 boy, 21 HDL (yüksək sıxlıqlı lipoprotein) xolesterin, LDL (aşağı sıxlıqlı lipoprotein) xolesterin (LDL-C), trigliseridlər, 22 koronar arteriya xəstəliyi (CAD), 23 və tip-2 diabet. 24 LincRNA sorğusu üçün biz ciddi şəkildə şərh edilmiş 7000-dən çox çox eksonlu lincRNA-dan ibarət yaxşı müəyyən edilmiş və hərtərəfli dəstdən istifadə etdik (GENCODE Release 33–GRCh38.p13). 25 Konservasiya, ilk növbədə sinteniyanın geniş perspektivinə və ya mövqeli genomik konservasiyaya, 2,3,26,27 siçan toxumalarında ifadəyə dair əlavə məlumatların ikincil daxil edilməsinə əsaslanan 25 və konservasiyanın kəşfiyyat xarakterli mülahizəsinə əsaslanan çoxsaylı fərqli strategiyalardan istifadə etməklə müəyyən edilmişdir. baza-cüt ardıcıllığının qiymətləndirilməsi. 28 Təhlillərimiz göstərdi ki, (1) konservləşdirilməmiş lincRNA-lar qorunmuş lincRNA-lara uyğun bir sürətlə kardiometabolik xüsusiyyətlərlə əlaqələndirilir (2) bu tapıntı konservasiyanın müxtəlif təriflərində və (3) ümumilikdə bütün əlamətlər üzrə, GWAS-ın təxminən üçdə birində davam edir. əlaqəli lincRNA-lar qorunmur və bu, konservasiyanın daha sərt tərifindən istifadə etməklə təxminən üçdə ikiyə qədər artır.

Materiallar və metodlar

Anonimləşdirilmiş məlumat və materiallar aşağıda göstərildiyi kimi, mövcud açıq depolardan toplanır.

Məlumat Əlavəsindəki Şəkil I sinteniyanın necə müəyyən edildiyinin sxematik təsvirini təqdim edir və analitik boru xəttimizi ümumiləşdirir. Məlumatların hazırlanması və təhlilinin əsas aspektləri burada təsvir edilmişdir. Gen dəstinin zənginləşdirilməsi təhlilləri daxil olmaqla Əlavə Metodların təsviri Məlumat Əlavəsindəki Material və Metodlarda verilmişdir.

Məlumat və Kodun Əlçatanlığı

Bu məqaləyə töhfə verən təhlillərdə istifadə olunan bütün məlumatlar göstərilən saytlarda açıqdır. Kod müvafiq müəllifin sorğusu əsasında mövcuddur.

Konservasiyanın təyini

Synteny əsasında qorunma

İnsan toxumalarında ifadəsi olan LincRNA-lar Human Gencode v33 gen annotasiya quruluşu hg38 25 istifadə edərək müəyyən edildi və lincRNA başlanğıc və dayanma yerlərində zülal kodlaşdıran gen (PCG) başlanğıc və ya dayanma yerləri olmadıqda intergenik olaraq təyin edildi. İlkin analiz üçün, lincRNT sintenikdirsə, qorunub saxlanılır, sintenik deyilsə, qorunmur. LincRNA-lar sintenik olaraq təyin olundu, əgər (1) insanlarda ən yaxın yuxarı və aşağı axın qonşu PCG-lərində Ensembl genom verilənlər bazası buraxılışı 47 əsasında bir-bir siçan homoloqları varsa və (2) homoloqlar ardıcıl nisbi oriyentasiya əsasında eyni xromosomda idilər. Mouse Gencode v24-də 25. Qonşular, əvvəllər təsvir olunduğu kimi, lincRNA-nın başlanğıc və son mövqeyindən 900 kb daxilində müəyyən edilmişdir. 2

Bu bölgədə 2 qonşu PCG olmayan lincRNA-ların bir alt çoxluğu (18,5%) olmayan qonşular kimi təyin olundu və nə sintetik, nə də qeyri-sintenik kimi təsnif edilmədi. Bundan əlavə, yuxarı və aşağı axın tək-tək siçan homoloqlarına malik olan, lakin insan və siçan homoloqları arasında uyğunsuz PCG oriyentasiyası olan lincRNA-ların kiçik bir hissəsi (1.2%) üçün lincRNA uyğun olmayan oriyentasiya kimi təyin edilib və sonrakı modelləşdirməyə daxil edilməyib. 2 lincRNA üçün siçan homoloqlarının nisbi oriyentasiyasını müəyyən etmək mümkün olmadı, çünki onlar Mouse Gencode v24-də mövcud deyildi və buna görə də bu lincRNA-lar qonşuları olmayan kimi təyin olundu. Bu təsnifat yanaşması Məlumat Əlavəsində (yuxarıda) Şəkil I-də ümumiləşdirilmişdir.

Sinteniya və ifadəyə əsaslanan konservasiya

İkincili analiz üçün lincRNA-nın qorunmasının alternativ tərifləri tətbiq edilmişdir. LincRNA həm siçanda genomik səviyyədə sintenikdirsə, həm də Mouse Gencode v24 ilə müəyyən edildiyi kimi siçan toxumalarında ifadə edilirsə, qorunmuş sayılır. Sintenik olsa da, lakin siçan toxumalarında ifadə olunmayıbsa və ya siçanda sintenik deyilsə, lincRNA qorunmayıb. Sintenik lincRNA-lar, Mouse Gencode v24 əsasında 2 müəyyən edilmiş PCG homoloqu arasında siçanda lincRNA mövcud olduqda ifadə edilən kimi müəyyən edilmişdir. Üst-üstə düşən siçan homoloqları olan sintenik lincRNA-lar konservasiyanın bu tərifi altında təsnif edilməmişdir.

Ardıcıllıq Qiymətləndirməsinə əsaslanan konservasiya

Nəhayət, konservasiyanı müəyyən etmək üçün ardıcıl səviyyəli yanaşmadan istifadə edərək kəşfiyyat analizi olaraq, hər bir lincRNA transkriptinin transkripsiya başlanğıc yerinin 200-bp bölgəsi üçün 7 yollu phastCons ballarını 28 hesabladıq. Transkripsiyanın başlanğıc yeri bölgəsi üzrə orta hesablanmış və lincRNA-ların bütün transkriptləri üzrə maksimum qorunmanın alternativ ölçüsü kimi istifadə edilmişdir.

LincRNA-ların birləşməsi

LincRNA-ların GWAS xülasə məlumatları ilə diqqət mərkəzində sorğulanması üçün lincRNA sərhədləri lincRNA-ların kanonik 5′ promotor və 3′ UTR (tərcümə olunmamış bölgə) tənzimləyici bölgələrində tək nukleotid polimorfizmlərini (SNP) daxil etmək üçün 5 kb uzadıldı. Eyni zəncirdə üst-üstə düşən nəticə lincRNA-lar birləşdirildi və tək lincRNA kimi müalicə olundu. Üst-üstə düşən lincRNA-ların əks zəncirlərdə olduğu halda, müsbət (+) zəncirdəki lincRNA saxlanıldı və mənfi (-) zəncirindəki lincRNA çıxarıldı. LincRNA-ları birləşdirərkən aşağıdakı qərar qaydaları tətbiq olunurdu: (1) birləşdirilmiş lincRNA-lardan hər hansı biri sintenikdirsə, yeni birləşmiş lincRNA sintenik kimi təsnif edilir (2) əgər lincRNA-ların heç biri sintetik deyilsə, lakin ən azı 1-i qeyri-sintenikdirsə, yeni birləşdirilmiş lincRNA qeyri-sintenik (3) heç biri sintenik və ya qeyri-sintenik deyilsə, lakin ən azı 1-i uyğun olmayan oriyentasiyaya malikdirsə, yeni birləşmiş lincRNA uyğunsuz oriyentasiya kimi təsnif edilir və (4) bütün qalan hallarda yeni birləşmiş lincRNA-lar olmayan qonşular kimi təsnif edilir. Konservasiyanın ikinci dərəcəli tərifi üçün oxşar yanaşma tətbiq olundu, burada sintenik sinteniklə əvəz olundu və ifadə edildi və üst-üstə düşən homoloqlara əsaslanaraq yekun kateqoriya daxil edildi. Birləşdirilmiş lincRNA-lar phastCons əsasında kəşfiyyat analizindən çıxarılır. LincRNA-ların birləşməsinə yanaşma Məlumat Əlavəsində (aşağı solda) Şəkil I-də təqdim olunur.

GWAS məlumatlarının seçilməsi və siqnalın təyini

Konservləşdirilmiş və konservləşdirilməmiş lincRNA-ların xəstəlik assosiasiyasını qiymətləndirmək üçün statistik güc təmin etmək üçün böyük iştirakçı nömrələri olan kardiometabolik xüsusiyyət GWAS xülasə məlumat dəstləri seçilmişdir. Boy daxil edilmişdir, çünki bu, müəyyən edən mürəkkəb genetik əlamətdir, böyük GWAS nümunə ölçülərinə malikdir və son illərdə boy aterosklerotik ürək-damar xəstəlikləri ilə əlaqəli yolları bölüşür. 29 SNP LiftOver (https://genome.ucsc.edu/cgi-bin/hgLiftOver) istifadə edərək hg19-dan hg38-ə qədər xəritələnmişdir. Əgər minimum SNP-səviyyəsi P lincRNA daxilində (yuxarıda göstərildiyi kimi ±5 kb) müvafiq hədddən (Cədvəl 1-də verilmişdir) az idi, lincRNA GWAS siqnalına malik olaraq təsnif edildi. WHRadjBMI və BMI üçün minimum P kişilərin, qadınların və kişilərin və qadınların birləşmiş meta-analizləri arasında müəyyən edilmişdir. Bütün digər hallarda, nəticələr kişilər və qadınlar üçün meta-analiz nəticələrinə əsaslanırdı. Guanin-sitozin (GC) məzmunu Human Gencode v33-dən ardıcıllıq məlumatlarından istifadə etməklə hesablanıb. Hər bir lincRNA üçün, üst-üstə düşən və GC məzmunu ekson ardıcıllığında Gs və Cs nisbəti kimi müəyyən edildikdə, ekzonlar müəyyən edildi və birləşdirildi. Transpozisiya olunan elementin (TE) əhatə dairəsi TE-lərlə üst-üstə düşən lincRNA ekzon ardıcıllığının nisbəti kimi müəyyən edilmişdir. Bu hesablama üçün Kaliforniya Universitetinin Santa Cruz Genom Browser RepeatMasker-dən istifadə etməklə TE tipli LINE (uzun səpələnmiş nüvə elementi), SINE (qısa kəsişmiş nüvə elementi), LTR (uzun terminal təkrarı) və DNT-nin mövqeləri müəyyən edilmişdir. 30

Statistik təhlil

Əsas nəticə minimum SNP səviyyəsinin göstəricisi olaraq təyin olunan GWAS siqnalı idi P lincRNA daxilində (yuxarıda qeyd edildiyi kimi ±5 kb) əvvəlcədən təyin edilmiş həddən az idi (Cədvəl 1). Konservasiya ilkin analiz üçün sinteniya əsasında, ikincili analiz üçün isə sinteniya və ifadə əsasında müəyyən edilmişdir. GWAS siqnalı ilə müvafiq olaraq qorunan (·) və qorunmayan (·) lincRNA-ların nisbətləri bildirilir. Versus tərəfindən verilən aşağılıq testi ilə hər bir əlamət üçün tətbiq edilir. Müvafiq P<0.05 statistik cəhətdən mənalı hesab edildi və təklif edildi ki, GWAS siqnalı ilə qorunmayan lincRNA-ların nisbəti tənzimlənməmiş analizdə GWAS siqnalı ilə qorunan lincRNA-ların nisbətindən əhəmiyyətli dərəcədə az deyil.

Cədvəl 1. Genom Geniş Assosiasiyasının Tədqiqat Məlumat Resurslarının xülasəsi

* LincRNA və interquartile diapazonu üçün SNP-lərin orta sayı (25-dən 75-ə qədər).

† Çoxsaylı müqayisələri düzəltmək üçün GIANT/UKBb və DIAGRAM məlumatlarının təhlili üçün siqnal həddi 5×10 −8 olaraq təyin edildi. A less stringent but still suggestive threshold of 5×10 −6 was used for the analysis of GLGC and cardiogram data as the sample size, and, therefore, the power for detecting association is lower in these settings. BMI indicates body mass index CAD, coronary artery disease Cardiogram, Coronary Artery Disease Genome Wide Replication and Meta-Analysis DIAGRAM, Diabetes Genetics Replication and Meta-Analysis GIANT, Genetic Investigation of Anthropometric Traits GLGC, Global Lipids Genetics Consortium HDL, high-density lipoprotein LDL, low-density lipoprotein LincRNA, long intergenic noncoding RNA SNP, single-nucleotide polymorphism T2D, type 2 diabetes TG, triglyceride UKBb, UK Biobank and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

Additionally, multivariable logistic regression models were fitted separately for each trait and adjusted for the number of SNPs (natural log-transformed), GC content (natural log-transformed), and TE coverage. LincRNAs were treated as the unit of analysis, and data were limited to lincRNAs that were classified as conserved or not conserved. Wald tests of a difference in the probability of GWAS signal between conserved and nonconserved lincRNAs based on adjusted models are reported. Odds ratios and corresponding 95% CIs corresponding to the odds of GWAS signal for conserved lincRNAs compared with the odds of GWAS signal for nonconserved lincRNAs are also provided. The estimated probabilities of GWAS signal for conserved and nonconserved lincRNAs and the corresponding prediction interval were determined based on the multivariable fitted logistic model. A summary of the statistical analysis approach is provided in Figure I in the Data Supplement (right).

Nəticələr

Descriptive Characteristics of lincRNAs

Publicly available GWAS summary data used in the analysis are summarized in Table 1 and included WHRadjBMI and BMI, 18 height, 21 HDL cholesterol, LDL-C, and triglycerides, 22 CAD, 23 and type-2 diabetes. 24 Table 2 illustrates the distributions of transcript length, GC content, exon count, and TE coverage for lincRNAs that are classified as conserved or nonconserved (defined based on synteny as described in Methods). Summary data are reported as medians and interquartile ranges as these measures are robust to skewness in the data. Information on lincRNAs unclassified due to the absence of a PCG upstream or downstream (or both) or with inconsistent PCG relative orientation is provided in Table I in the Data Supplement.

Cədvəl 2. Characteristics of Conserved and Nonconserved lincRNAs

GC indicates guanine-cytosine GWAS, genome-wide association study lincRNA, long intergenic noncoding RNA SNP, single-nucleotide polymorphism TE, transposable element and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

* Median and interquartile range (25th to 75th percentile) across lincRNAs within corresponding category.

† Summary results for the number of SNPs per lincRNA and number of SNPs divided by lincRNA length are based on a subset of n=7011 lincRNAs and GWAS SNPs for WHRadjBMI (Table 1).

Conserved lincRNAs tend to be longer than nonconserved lincRNAs, and this difference is more pronounced when expression in mouse is considered (median length: syntenic lincRNAs, 159 60 bps nonsyntenic lincRNAs, 15 851 bps syntenic and expressed lincRNAs, 19 120 bps syntenic and not expressed or nonsyntenic lincRNAs, 14 721 bps). Moreover, unclassified lincRNAs tend to be significantly longer with a lower GC content and higher TE coverage (Table I in the Data Supplement). The number of SNPs per lincRNA (based on WHRadjBMI data) tracks with the length of the lincRNA, so that the distribution of the number of SNPs divided by lincRNA length is approximately the same in all categories. Overall, these findings support the use of multivariable adjusted analyses including these variables as potential confounders in characterizing the relationship between lincRNA conservation and GWAS signal.

Analysis Using Primary Definition of Conservation Based on Synteny

The counts and percentages of lincRNAs by conservation and GWAS signal are provided in Table 3. In this unadjusted analysis based on the primary definition of conservation, the estimated proportion of lincRNAs with GWAS signal for nonconserved lincRNAs is less than the corresponding proportion for conserved lincRNAs for BMI (6.2% versus 6.9% noninferiority P>0.05) and height (16.8% versus 18.8% noninferiority P>0.05) while this estimated proportion is greater in nonconserved compared with conserved lincRNAs for WHRadjBMI (5.7% versus 5.0% noninferiority P<0.01), HDL cholesterol (1.0% versus 0.7% noninferiority P<0.001), LDL-C (1.2% versus 0.6% noninferiority P<0.001), triglycerides (1.1% versus 0.7% noninferiority P<0.001), CAD (0.6% versus 0.4% noninferiority P<0.001), and type-2 diabetes (1.6% versus 1.1% noninferiority P<0.001).

Cədvəl 3. Genome-Wide Association Study Signal Counts by Trait and Conservation (Unadjusted Analysis)

BMI indicates body mass index CAD, coronary artery disease HDL, high-density lipoprotein LDL, low-density lipoprotein T2D, type 2 diabetes TG, triglyceride and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

* Test of noninferiority is based on δ=0.01.

Overall, these findings suggest that it is as likely for nonconserved lincRNAs as for conserved lincRNAs to include a GWAS-associated SNP. In addition, a substantial number of GWAS-associated lincRNAs are not conserved, as indicated by the column percentages in Table II in the Data Supplement. For example, 80 of 290 (27.6%) lincRNAs with a GWAS signal for WHRadjBMI are nonconserved. The percentage of GWAS-associated lincRNAs that are not conserved ranges from 20% (for height) to 36.8% (for LDL-C).

Multivariable Models

The results of multivariable modeling (Table 4 Figure Figures II and III in the Data Supplement) are consistent with findings of unadjusted analyses with the exception that the predicted probability of GWAS signal for BMI is now slightly higher for nonconserved compared with conserved lincRNAs. The corresponding adjusted estimated odds ratio of conserved, relative to nonconserved, lincRNA association with traits is <1 for all traits except height (P<0.05 for LDL-C P>0.05 for all other traits) and ranges from 0.451 (95% CI, 0.231–0.878) for LDL to 1.126 (95% CI, 0.947–1.338) for height.

Cədvəl 4. Multivariable Adjusted Model Estimates for Effect of Conservation on GWAS Signal by Trait

BMI indicates body mass index CAD, coronary artery disease GWAS, genome-wide association study HDL, high-density lipoprotein LDL, low-density lipoprotein lincRNA, long intergenic noncoding RNA OR, odds ratio SNP, single-nucleotide polymorphism T2D, type 2 diabetes TE, transposable element TG, triglyceride and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

* Separate multivariable models are fitted for each trait. Models are adjusted for number of SNPs (natural log-transformed), guanine-cytosine (GC) content (natural log-transformed), and TE coverage. In the model for the WHRadjBMI signal with conservation defined based on synteny, the OR corresponding to a 1-unit change in natural log GC content is 3.20 ([95% CI, 1.36–7.48] P=0.007) and the OR for 1 unit change in TE coverage is 0.837 ([95% CI, 0.522–1.35] P=0.459). This suggests that GC content is significantly associated with the probability of a GWAS signal for WHRadjBMI. Adjustment for these additional covariates supports the unadjusted finding that the likelihood for a nonconserved lincRNA to include a GWAS signal SNP is similar to that of a conserved lincRNA.

Şəkil. Predicted probabilities of genome-wide association study (GWAS) signal for conserved and nonconserved long intergenic noncoding RNAs (lincRNAs). Predicted probabilities and corresponding 95% prediction intervals are calculated based on multivariable models using average of observed median values for guanine-cytosine content and transposable element coverage and observed trait-specific median number of single-nucleotide polymorphisms. The predicted probability of GWAS signal is greater for nonconserved lincRNAs than conserved lincRNAs for all traits considered except height based on the primary definition of conservation. The results based on the secondary definition of conservation are consistent though in this case, the predicted probably of GWAS signal is greater for nonconserved lincRNAs than conserved lincRNAs for all traits including height (results not shown). The consistently overlapping CIs suggest that the likelihood of GWAS association for conserved and nonconserved lincRNAs is comparable, and, therefore, the traditional metrics of conservation for prioritizing long noncoding RNAs for functional studies needs to be reconsidered. CAD indicates coronary artery disease HDL, high-density lipoprotein LDL, low-density lipoprotein T2D, type-2 diabetes and WHRadjBMI, waist-to-hip ratio adjusted for body mass index.

Illustrative Examples

As illustrative examples, Figure IV in the Data Supplement presents locus plots for several examples of genetic loci containing nonconserved and conserved lincRNAs that are associated with CAD and WHRadjBMI—2 well-studied and clinically important cardiometabolic traits.

Secondary Analysis Using Alternative Definitions of Conservation

Using the secondary definition of conservation that requires lincRNA expression in mouse and human, as well as synteny, the predicted probability of GWAS signal is higher in nonconserved lincRNAs compared with conserved lincRNAs for all traits (P<0.05 for BMI, height, and LDL-C P>0.05 for all other traits Table 4 Figure III in the Data Supplement). Notably, for both definitions of conservation, the point estimate for the probability of GWAS signal is consistently greater in nonconserved lincRNAs compared with conserved lincRNAs. Although this difference is not statistically significant for most traits considered individually, the overall trend suggests that the notion that GWAS signal would be lower in nonconserved regions needs to be reconsidered. Similar to the first definition of conservation, a substantial number of GWAS-associated lincRNAs are not conserved based on the secondary definition (Table II in the Data Supplement). In this case, 173 of 289 (59.9%) GWAS-associated lincRNAs for WHRadjBMI are nonconserved. This percentage of GWAS-associated lincRNAs that are not conserved, based on the secondary definition, ranges from 59.6% (for height) to 70.8% (for CAD).

Additional Analyses

To compare the strength of lincRNA GWAS signals, we plotted the density of the maximum within lincRNA SNP-level Z score among trait-associated lincRNAs for conserved and nonconserved lincRNAs using our primary syntenic definition of conservation (Figure V in the Data Supplement). No apparent trend is observed to suggest that the magnitude of the association signal in conserved lincRNAs is greater than nonconserved lincRNAs.

To probe features of lincRNAs that were unclassified in our primary syntenic definition of conservation (ie, the 18.5% lincRNAs that lack 2 neighboring PCGs within 900 kb of their start and end positions), counts and associated models comparing the set of unclassified lincRNAs to lincRNAs that are classified as either conserved or nonconserved are provided in Tables III and IV in the Data Supplement. These results generally suggest a lower probability of GWAS signal in more isolated genomic regions within which the majority of unclassified lincRNAs is found.

In exploratory analysis of sequence-level conservation, the distribution of lincRNA level phastCons scores by GWAS association for WHRadjBMI and CAD are provided in Figure VI in the Data Supplement. For lincRNAs associated with compared with lincRNAs not associated with these traits, the median phastCons score is higher in lincRNAs associated with WHRadjBMI (Wilxocon rank-sum test, P<0.001, left) but not lincRNAs associated with CAD (Wilxocon rank-sum test, P=0.310, right). Although there is a statistically significant difference in the median phastCons score for WHRadBMI, the distribution of phastCons for WHRadjBMI-associated lincRNAs ranges from 0 to 1 with a large proportion of relatively low scores and a low average phastCons score for WHRadjBMI, as well as for CAD-associated lincRNAs.

To explore lincRNA regulatory and functional features, we examined whether neighboring PCGs of conserved and nonconserved disease-associated lincRNAs were enriched in different pathways that might hint at differences in their regulatory functions in cardiometabolic traits. Using WHRadjBMI as an example, we performed pathway-based analysis using the Database for Annotation, Visualization and Integrated Discovery (https://david.ncifcrf.gov/) 31,32 based on neighboring PCGs of trait-associated conserved and nonconserved lincRNAs. Each interrogation of the Database for Annotation, Visualization and Integrated Discovery categories showed similar findings, so we present the results from UniProt Keyword (UP_Keyword) annotations in Table V in the Data Supplement. For WHRadjBMI-associated lincRNAs, biological processes were different for PGCs at conserved versus those at nonconserved lincRNAs—PCG neighbors of conserved lincRNA are significantly enriched in transcriptional regulation and DNA binding, whereas PCG neighbors of nonconserved lincRNA enrich for major histocompatibility complex I, immunity, and cell division.

Müzakirə

A large portion of human lncRNAs lack conservation yet, emerging evidence suggests nonconserved lncRNAs are functional. 1,4–15,26,33,34 Motivated by this, we evaluated the likelihood that nonconserved lincRNA loci have genetic association with complex human cardiometabolic traits and compared this to the pattern of association for conserved lincRNAs. Focusing on 8 established cardiometabolic disease–related traits, 35,36 we found that nonconserved lincRNAs have a similar likelihood of associating with cardiometabolic traits as conserved lincRNAs and that this association was broadly consistent across different definitions of conservation and different cardiometabolic traits. Moreover, approximately one-third of trait-associated lincRNA loci were nonconserved based on a syntenic definition of conservation and closer to two-thirds were not conserved based on a more rigorous definition that included both synteny and expression in mouse. These findings suggest that the traditional notion of conservation driving prioritization for functional and translational follow-up of human cardiometabolic genomic discoveries may need to be revised in the context of the abundance of nonconserved lincRNAs in the human genome and their apparent predilection to associate with complex disease traits.

Species conservation, at DNA and protein sequence levels, has been considered an important feature, and often used for primary triage, when determining whether a PCG is likely to be functional. This perspective is reinforced by decades of using model organisms, particularly mouse genetic models, relative to human or primate studies, to study in vivo function. However, a primary focus on conservation and use of mouse models may be to deprioritize important genetic signals for human diseases when considering genomic and regulatory features, including alternative splicing, tissue-specific enhancers, and lincRNAs, that are prominent features of primate evolution. 37 Although the protein-coding genome is largely conserved between primates and nonprimates, many cell-specific regulatory features are not conserved outside primates. This should not be altogether surprising because the specialized cell and organ functions that have emerged with primate evolution cannot be explained by changes in numbers of PCGs. This lack of conservation is particularly marked for lincRNAs, and our work 26,27 and that of others 2,3 suggests that the majority of human lincRNAs is not conserved in mice.

An alternative measure of conservation that is applied to PCGs is base-pair sequence homology. 4,38 However, human lincRNAs that are syntenic, expressed in mouse tissues, and functionally conserved often have limited nucleotide sequence homology across species. 2–4 For this reason, we focus in this work on genomic synteny between human and mouse as a primary measure of conservation. In our exploratory analysis of sequence conservation, while the central tendency of phastCons scores is higher in WHRadjBMI-associated lincRNAs compared with nonassociated lincRNAs, the low average phastCons score for WHRadjBMI- and CAD-associated lincRNAs, relative to PCGs, confirms a low sequence-level conservation for trait-associated lincRNAs. This suggests poor utility of sequence-level conservation scores in discriminating disease-associated from non–disease-associated lincRNAs.

While it has been proposed that many nonconserved lncRNA molecules that are identified through RNA sequencing technologies may be nonfunctional, several lines of evidence suggest that this is not the case. Genomic markers of function including tissue-enrichment, binding of tissue-specific transcription factors at lncRNA enhancers and promoters, and regulation in response to physiological stressors do not differ significantly between conserved and nonconserved myeloid and other tissue lincRNAs. 26,27,39,40 Several groups have also published genomic criteria, not dependent simply on conservation, and experimental methods, including CRISPR (clustered regularly interspaced short palindromic repeats) screens, to predict lncRNA functionality and prioritize candidates. 1,4,5,9 Multiple examples have emerged of lincRNAs that overlap loci for human cardiometabolic traits, 1,12,15 including ANRIL, H19, MALAT1, MEXIS, LOC157273, və LASER. 6–8,10,11,13,14 Of these, there are several examples of conserved (syntenic) lincRNAs including MALAT1LOC157273 (RP11-10A14.4). There are also examples of functionally characterized nonconserved lincRNAs at loci for cardiometabolic disease traits despite limited functional studies including H19, which also has been shown to have higher plasma levels of H19 in patients with CAD. 34

In a recent prepublication, the GTEx (Genotype-Tissue Expression) consortium performed colocalization analysis connecting genetic variation, gene expression, and traits for a set of 690 human lncRNAs by integrating results from GWAS for 48 traits and expression quantitative trait loci for 48 tissues in the latest GTEx v8 data. 1 Of 4694 significant expression quantitative trait loci GWAS SNP colocalization events for these lncRNAs and traits, a striking 80% lacked any colocalization with PCGs. 1 Although the GTEx work did not focus on measures of lncRNA conservation, our current findings suggest that a large proportion of lncRNAs that colocalize at loci for complex cardiometabolic traits lacks conservation in mice. Further, many primate-specific lincRNAs, not found in rodents or other model organisms, have emerged as important regulators in cellular processes, such as pluripotency and differentiation, and as noted above, several have been implicated in human cardiometabolic disorders. 5,26,41–44 These data and our exploratory finding of differences in gene-pathway enrichment for neighboring PCGs suggest there may be utility in considering regulatory and functional features, as well as disease association, rather than an initial triage using conservation, to identify and prioritize human lincRNAs for translational study.

A reluctance to study nonconserved lncRNAs also may hamper the development of rigorous and reproducible model systems to address pathophysiological functions of nonconserved lncRNAs and other genomic elements. Recent advances in tissue engineering have established stem cell–based organoids as near-physiological systems to study human physiology and diseases. 45,46 Modulation of PCGs and microRNAs by RNAi (RNA interference) or transgene have been used in nonhuman primates in translational or preclinical studies. However, nonhuman primates are scarce and costly, limiting feasibility. Much work on functional models is needed including transgene approaches that can express primate-specific lincRNAs in nonprimate animal models—indeed, a few studies show that protein or RNA partners of such lincRNAs are conserved and can interact with primate-specific lincRNAs in nonprimate models. 41 Bacterial artificial chromosome transgene mouse models can include the gene body and large fragments of genomic regulatory DNA of nonconserved lincRNA loci to drive human lincRNA expression in mouse models in vivo. 47 An additional in vivo approach is to engraft human cells expressing primate-specific lincRNAs in rodent models with immune deficiency as has been used to study the roles of human lincRNA in tumor development and metastasis. 48,49

In our analyses, a substantial subset of lincRNAs (18.5%) were characterized as unclassified in terms of synteny because they lacked PCG within the published range of 900 kb 2 that we applied to examine PCGs upstream or downstream of a given lincRNA. These unclassified lincRNAs tend to be longer with a lower GC content and higher TE coverage relative to classified lincRNAs (Table I in the Data Supplement). Using an established minimum-range cut point for gene deserts of absence of a PCG within 250 kb upstream and 250 kb downstream, 50–52 55.1% of unclassified compared with 7.3% of classified lincRNAs reside within gene deserts. Gene deserts, and lincRNAs within such regions, are enriched in ancient duplications, have lower GC content and lower conservation than other parts of the human genome, and may have specific long-distance cis- və trans-regulatory functions related to their unique evolutionary and genomic characteristics. 50–52 Although unrelated to our primary focus on the role of lincRNA conservation in human complex diseases, further study of these unique unclassified lincRNAs in gene deserts is of interest to the field. Indeed, there are well-recognized loci in gene desert that associate with complex traits at GWAS including the 9p21 locus with CAD and type-2 diabetes 53 and the 8q24 locus with several cancers . 54 Our analyses, however, suggest a lower probability of GWAS signal for unclassified lincRNAs that lie in more isolated genomic regions and gene deserts compared with classified lincRNAs (Tables III and IV in the Data Supplement).

Tədqiqatımızın bir sıra məhdudiyyətləri var. For example, there are no established standards in the field regarding the definition of lincRNA conservation, and, therefore, we chose somewhat arbitrary, although previously published, 2,3,26,27 definitions of synteny. For example, we excluded certain lincRNAs that lacked PCGs within 900 kb of lincRNAs. We also merged overlapping lincRNAs, and this may not accurately reflect the precise lincRNA and isoform expression in individual tissues or across tissues. Although GENCODE as a resource for lincRNAs is widely used and well cross-validated, it may lack sensitivity to many lncRNAs as expression of some functional lincRNAs can be highly context specific and found at low levels and therefore missed in the GENCODE resource. Indeed, our group 26,27 and others 55 have published such findings in several prior articles. Although our trait selection is comprehensive, we did not interrogate an all-encompassing set of cardiometabolic traits. Rather, we focused primarily on traits with adequately powered GWAS datasets that provided sufficient numbers of trait-associated SNPs in both conserved and nonconserved lincRNAs. In addition, our use of large SNP-based GWAS datasets rather than whole genome data did not permit interrogation or rare functional variation and lincRNA exonic regions and did not provide the level of coverage required for a fine-mapping subset analysis focused on SNPs within exons and introns. As larger whole genome datasets emerge, there will be opportunities to focus on rare functional variations in lincRNAs, as well as analysis that can weight for enriched signals in 5′, 3′, exonic, and intronic SNPs and regions of lincRNAs.

In conclusion, we found that nonconserved lincRNAs have a nontrivial and consistent likelihood of association with a broad array of complex cardiometabolic traits. Indeed, we found that nonconserved lincRNAs associate with cardiometabolic traits at a rate that is consistent with conserved lincRNAs, that these findings are robust across different definitions of conservation, and strikingly that across all traits as much as two-thirds of GWAS-associated lincRNAs may be nonconserved depending on the definition applied. Given these findings, computational, high-throughput functional and human pathophysiological approaches, 1, 4, 5, 9 rather than traditional metrics of conservation, should be applied to prioritize lncRNAs for functional studies. Expansion of research strategies using nontraditional model systems is urgently required to address physiological and pathophysiological functions of nonconserved lncRNAs and other genomic elements in human cardiometabolic disorders.


Videoya baxın: Genetic mapping (Iyun 2022).