Məlumat

RNT seqmentində oxunan sayların paylanması ilə bağlı qarışıqlıq

RNT seqmentində oxunan sayların paylanması ilə bağlı qarışıqlıq


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Köhnə DESeq kağızını oxuyarkən (Anders və Huber 2010) aşağıdakı sətirlə rastlaşdım.

Oxumalar müstəqil olaraq verilmiş, sabit gen fraksiyaları olan bir populyasiyadan nümunə götürülsəydi, oxunan saylar Puasson paylanması ilə təqribi hesab oluna bilən multinomial paylanmaya əməl edərdi.

Mən bu xətti başa düşə bilmirəm. Nə üçün oxunuş sayları multinomial paylamaya əməl edir? Mənim təxminim Gauss paylanması olardı. Bunu kimsə izah edə bilərmi?


Çoxhədli paylanmanın dərslik nümunəsi çoxlu zar atmaqdır. Ədalətli zarın aşağıdakı ehtimalları var:

tərəf 1: 16,66666666% 2 tərəf: 16,6666666% 3 tərəf: 16,66666666% 4 tərəf: 16,66666666% tərəf 5: 16,66666666% tərəf 6: 16,66666

Tipik ədalətli zarı n = 20 dəfə atmağa icazə verin:

6 5 1 1 3 5 4 3 1 2 4 4 6 6 2 2 5 6 5 2

Beləliklə, yuxarıdakı çoxhədli dəyişənin bu xüsusi nəticəsi:

tərəf 1: 3 rulon tərəf 2: 4 rulon tərəfi 3: 2 rulon tərəfi 4: 3 rulon tərəfi 5: 4 rulon tərəfi 6: 4 rulon

Multinomial paylama ədalətli zarlarla məhdudlaşmır - ehtimallar saxtalaşdırıla bilər. O, həmçinin 6 tərəflə məhdudlaşmır - istənilən sayda kateqoriya ola bilər. Çoxhədli paylamanın başqa bir dərslik nümunəsi (sonsuz) böyük çantadan rəngli topların çıxarılmasıdır. Ehtimallar çantadakı rəngli topların nisbətinə uyğundur:

Göy: 53,283% Yaşıl: 19,956% Narıncı: 8,336% Bənövşəyi: 5,213% Qırmızı: 4,374% Gümüş: 3,920% Ağ: 2,751% Sarı: 2,167%

Belə bir çantadan çıxarılan n = 200 topu R-də simulyasiya edək:

sample(c("B","G","O","P","R","S","W","Y"), əvəz = T, ölçü = 200, prob = c(0,53283 , 0.19956,0.08336,0.05213,0.04374,0.03920,0.02751,0.02167)) BSOBBGGPBOBBPGBBGGGGB PGBBPBGBGBSWBBOOGBBOG GBSBOGBBBBBOOOBOBBBBB BOOGBBYBRGBBBGPWYGBPW BSRBWGYBWBGOGBRBBGBBB BBBPRGPBBBGYGSBBBGPBB BBBGBOGPBGBGPBBGBRBPR BGWBBBBOPGBBBBBBBBGBG GRWBBGGBGOBBBBBGBBBPB BBORGBBBOBG

Beləliklə, bu xüsusi nəticə multinom dəyişəni:

Mavi: 102 top Yaşıl: 42 top Narıncı: 18 top Bənövşəyi: 14 top Qırmızı: 8 top Gümüş: 5 top Ağ: 7 top Sarı: 4 top

RNT-seq-də biz nümunədə (çanta) uyğun cDNA molekullarının fraqmentlərinin böyük dəstindən oxunuşları (topları) "çəkirik". Hər oxunuş bir genə (rəngə) aiddir. Nümunədə genlərin sabit fraksiyalarını fərz edirik:

gen 1: 0,05217% gen 2: 0,00319% gen 3: 0,00073%…

Ancaq RNT-seq-dən əldə etdiyimiz şey (n = milyonlarla oxunuş) oxunanların tam saylarıdır:

gen 1: 492 oxuyur gen 2: 44 gen 3 oxuyur: 5 oxuyur...

Gausian paylanmasından istifadə etmək fikrinizi şərh etmək üçün: Gausian paylanması davamlıdır, ona görə də ondan istifadə etməklə hər bir gen üçün oxunuşların fraksiyalarını əldə edə biləcəyimizi güman edərik, bu belə deyil.


Gen ifadə vahidləri izah olunur: RPM, RPKM, FPKM, TPM, DSEq, TMM, SCnorm, GeTMM və ComBat-Seq

Məsələn, Siz 5 milyon(M) oxunan bir kitabxananı ardıcıllıqla tərtib etmisiniz. Onların arasında genom ardıcıllığına uyğun gələn cəmi 4 M və müəyyən bir genə uyğun gələn 5000 oxunuş.

  • RPM transkript uzunluğunun normallaşdırılmasını nəzərə almır.
  • RPM Gen uzunluğundan asılı olmayaraq oxunuşların yaradıldığı protokolların ardıcıllaşdırılması üçün uyğundur

Python bioinfokit (v0.9.1 və ya daha sonrakı) paketindən istifadə edərək RPM və ya CPM normallaşdırılması (Python paketlərinin necə qurulacağını yoxlayın),

RPKM (Milyon xəritələşdirilmiş oxuna görə kilo bazası üzrə oxunuş)

Burada gen uzunluğu üçün 10 3, ardıcıllıq dərinliyi faktoru üçün isə 10 6 normallaşır.

FPKM (Milyon xəritələnmiş oxunuşda kilo bazası üçün fraqmentlər) RPKM-in analoqudur və xüsusilə cütləşdirilmiş RNT-seq təcrübələrində istifadə olunur. Cütlənmiş RNT-seq təcrübələrində eyni DNT fraqmentindən iki (sol və sağ) oxunuş ardıcıllıqla aparılır. Cütlənmiş son məlumatları xəritələşdirdiyimiz zaman, hər iki oxunuş və ya fraqmentdən yüksək keyfiyyətli yalnız bir oxunuş istinad ardıcıllığına xəritə verə bilər. Çaşqınlığın və ya çoxsaylı hesablamaların qarşısını almaq üçün hər ikisinin və ya bir oxunuşun xəritələndiyi fraqmentlər sayılır və FPKM hesablanması üçün təqdim olunur.

Siz 5 milyon oxunuşla bir kitabxana sıraladınız. Onların arasında genom ardıcıllığına uyğun gələn cəmi 4 M və uzunluğu 2000 bp olan müəyyən bir genə uyğun gələn 5000 oxunuş.

  • RPKM normallaşma üçün gen uzunluğunu nəzərə alır
  • RPKM, ardıcıllığın oxunmasının gen uzunluğundan asılı olduğu protokolların ardıcıllığı üçün uyğundur
  • Tək uçlu RNT-seq təcrübələrində istifadə olunur (cütlənmiş RNT-seq məlumatları üçün FPKM)

RPKM/FPKM nisbi RNT-nin molar konsentrasiyasının (rmc) dəqiq ölçüsünü əks etdirmir və hər bir nümunə üçün ümumi normallaşdırılmış saylar fərqli olacağından diferensial şəkildə ifadə olunan genləri müəyyən etmək üçün qərəzli ola bilər 3,4 . TPM RPKM-ə alternativ olaraq təklif olunur.

Python bioinfokit (v0.9.1 və ya sonrakı) paketindən istifadə edərək RPKM və ya FPKM normallaşdırma hesablanması (Python paketlərinin necə qurulacağını yoxlayın),

TPM (milyon başına transkript)

  • TPM normallaşma üçün gen uzunluğunu nəzərə alır
  • TPM, oxunan ardıcıllığın gen uzunluğundan asılı olduğu protokolların ardıcıllığı üçün uyğundur

RPKM-nin ölçülməsində qeyri-dəqiqlik səbəbindən TPM RPKM-ə alternativ olaraq təklif olunur. RPKM-dən fərqli olaraq, orta TPM sabitdir və nisbi RNT molar konsentrasiyası (rmc) 3,4 ilə mütənasibdir.

Python bioinfokit (v0.9.1 və ya sonrakı) paketindən istifadə edərək TPM normallaşdırma hesablanması (Python paketlərinin necə qurulacağını yoxlayın),

TMM (M-dəyərlərinin Kəsilmiş Ortası)

  • TMM nümunədaxili normallaşdırma metodlarından (RPM, RPKM/FPKM və ya TPM) fərqli olaraq nümunələr arası normallaşdırma üsuludur.
  • TMM normallaşdırma metodu, genlərin əksəriyyətinin diferensial şəkildə ifadə edilmədiyini güman edir
  • TMM nümunələr arasında ümumi RNT çıxışını normallaşdırır və normallaşdırma üçün gen uzunluğunu və ya kitabxana ölçüsünü nəzərə almır
  • TMM nümunə RNT populyasiyasını və müxtəlif RNT repertuarları olan nümunələrin normallaşdırılmasında effektiv hesab edir (məsələn, müxtəlif toxumalardan nümunələr). TMM, müxtəlif toxumalardan və ya genotiplərdən nümunələri müqayisə edərkən və ya RNT populyasiyasının nümunələr arasında əhəmiyyətli dərəcədə fərqli olacağı hallarda toplu effektləri aradan qaldırmaq üçün yaxşı seçim olacaqdır.
  • TMM hesablamaq üçün,
    • hər bir nümunədə hər bir gen üçün kitabxana ölçüsünü normallaşdırılmış oxunma sayını əldə edin
    • iki nümunə arasında log2 qat dəyişikliyini hesablayın (M dəyəri)

    edgeR istifadə edərək TMM normallaşdırma hesablanması,

    DSEq və ya DSEq2 normallaşdırma (orta nisbətlər metodu)

    • The DSEq (və həmçinin DSEq2) normallaşdırma metodu Anders və Huber, 2010 tərəfindən təklif edilmişdir və TMM-ə bənzəyir
    • DSEq normallaşdırma metodu da genlərin əksəriyyətinin diferensial şəkildə ifadə olunmadığını nəzərdə tutur
    • The DSEq müxtəlif ardıcıllıq dərinliyi olan müxtəlif nümunələrdən əldə edilən sayları müqayisə etmək üçün hər bir nümunə üçün ölçü faktorlarını hesablayır
    • DSEq normallaşdırma ölçü faktorlarını hesablamaq üçün müşahidə olunan sayların nisbətlərinin mediandan istifadə edir.
      • Qısaca olaraq, ölçü faktoru əvvəlcə hər bir nümunə üçün müşahidə edilən sayları onun həndəsi ortasına bölməklə hesablanır.
      • Daha sonra ölçü faktoru hər bir nümunə üçün bu nisbətin medianı kimi hesablanır.
      • Bu ölçü faktoru daha sonra hər bir nümunə üçün xam hesablama məlumatlarını normallaşdırmaq üçün istifadə olunur.

      DSEq2 normallaşmanın hesablanması,

      Qeyd: DSEq2 diferensial ifadə təhlili üçün tam ədədlər kimi xam hesablamaları (normallaşdırılmamış) tələb edir. Sizdən gözlənilən hesablamalar varsa RSEM, istifadə etmək tövsiyə olunur tximport hesabları idxal etmək və sonra istifadə etmək DESeqDataSetFromTximport() istifadə edərək diferensial ifadə analizinin aparılması üçün DSEq2. Bundan əlavə, siz də gözlənilən sayları yuvarlaqlaşdıra bilərsiniz RSEM lakin faydalarını təqdim etmir tximport gen səviyyəsində ifadə analizi üçün gen başına transkript uzunluqlarının normallaşdırılması kimi 13 .


      Fon

      Yüksək məhsuldar cDNA ardıcıllığı (RNA-seq) transkriptom mənzərəsinin portretlərini görünməmiş bir qətnamə ilə təmin edir [1, 2]. RNT-seq adətən milyonlarla ardıcıl oxunuş istehsal edir, bunların hər biri hüceyrədəki genomik hadisələr üçün bir az məlumat verir. Beləliklə, mikroarraydan fərqli olaraq, RNT-seq gen ifadəsinin kəmiyyətinin müəyyən edilməsi, yeni transkriptlərin tapılması, tək nukleotid polimorfizmlərinin aşkarlanması, RNT redaktəsi, gen birləşməsinin aşkarlanması və s. kimi genomik analizlər üçün müxtəlif tətbiqlərə malikdir [3-8]. Bu tətbiqlər arasında gen ifadəsinin kəmiyyəti RNT-seq-in əsas funksiyası ola bilər. Bu, sadəcə olaraq hər bir gen və ya ekzon bölgəsinə uyğunlaşdırılmış oxunuşların sayılması ilə həyata keçirilir. RNT-seq bu tətbiqdə həm reproduktivlik, həm də zəif ifadə edilmiş transkriptləri aşkar etməkdə həssaslıq baxımından mikroarrayla müqayisədə üstünlüklərə malikdir [9].

      Molekulyar bioloji tədqiqatlar "hüceyrədə nə baş verir" və "fərqli hüceyrə şəraiti arasında nələr dəyişir" kimi suallara diqqət yetirmişdir. Ardıcıllıq texnologiyası əvvəlki suala cavab vermək üçün üstünlüklər göstərsə də, sonuncu aşağıdakı kimi bəzi mürəkkəb məsələlərin yaranmasına səbəb oldu: (1) normallaşma: Fərqli hüceyrə şərtləri arasında fərqli RNT-seq saymalarında, hər bir nümunə müxtəlif ardıcıllıq dərinliklərinə və RNT kompozisiyalarına malik ola bilər. Buna görə də, gen ifadə səviyyələrini müqayisə etmək və ya model parametrlərini qiymətləndirmək üçün müvafiq normallaşdırma tətbiq edilməlidir [10-12]. (2) ehtimal modelləşdirilməsi: Verilənləri hesabladıqları üçün, genlərin diferensial ifadəsini (DE) yoxlamaq üçün diskret ehtimal modelləri (Poisson və ya mənfi binomial model) istifadə edilmişdir. Parametrlərin qiymətləndirilməsi xüsusilə kiçik təkrarları olan verilənlər üçün kritik məsələdir [9, 13, 14]. (3) DE analizində qərəzlər: RNT-seq sayı məlumatlarının DE təhlili ilə təəccüblü qərəzliliklər aşkar edilmişdir ki, yüksək ifadə olunmuş genlər və ya uzun genlər diferensial şəkildə ifadə edilmək üçün aşkarlanma ehtimalı daha yüksəkdir. oxumaq saymaqgen uzunluğunun meyli, müvafiq olaraq [15]. Bu qərəzlər aşağı axın Gen Ontologiyasının həddindən artıq təmsil analizinə mane oldu GO təhlili) belə ki, bir çox uzun genlərə qeyd edilmiş GO terminlərinin seçilmək şansı daha yüksək idi. Nəhayət, GO analizində seçim meylini hesablamaq üçün yenidən nümunə götürməyə əsaslanan bir üsul hazırlanmışdır [16] və sonra digər yanaşmalar [17, 18]. Oxunma sayındakı qərəzliyi və gen uzunluğunun qərəzliliyi faktiki olaraq eyni növ qərəzliyi təmsil etdiyinə görə, biz əsasən oxunma sayındakı qərəzliyə diqqət yetirəcəyik və gen uzunluğunun qərəzliyi üçün müəyyən nəticə əlavə edəcəyik. Oxunma sayma meylinin DE-yə və aşağı axın funksional analizlərə göstərə biləcəyi dərin təsirə baxmayaraq, bəzi RNT-seq məlumat dəstlərinin əlavə araşdırma tələb edən belə qərəzdən əziyyət çəkmədiyinin şahidi olmuşdur [19, 20]. Qeyd edək ki, gen uzunluğunun qərəzi əvvəlcə sadə üçün göstərilmişdir Puasson model və daha çox texniki təkrar məlumatlar üçün [15]. Beləliklə, belə qərəzliliyin həddindən artıq səpələnmiş olması üçün daha da təhlil edilməlidir Puasson model (mənfi binomial) və bioloji təkrar məlumatlar.

      Bu işdə göstərilir ki, oxunma saylarının mənfi binomial modelləşdirilməsində təxmin edilən gen dispersiya dəyəri [13, 14] oxunma sayının meylinin əsas determinantıdır. RNT-seq məlumatlarının DE analizində oxunma sayının qərəzinin əsasən texniki replika və ya bəzi gen dispersiyaları olan məlumatlarla məhdudlaşdığını gördük. genetik cəhətdən eynidir (GI) təkrarlanan məlumatlar (hüceyrə xətlərindən və ya inbred model orqanizmlərdən yaradılan). Bunun əksinə olaraq, əlaqəsi olmayan şəxslərdən alınan məlumatların təkrarlanması ilə işarələnir əlaqəsiz təkrarlar, ümumi gen dispersiya dəyərlərinə texniki təkrar məlumatlarınkından onlarla yüzlərlə dəfə böyük idi və bu cür əlaqəsiz təkrar məlumatlarla DE analizi bəzi kiçik oxunma sayları (< onlarla) olan genlər istisna olmaqla, oxunma sayma meylini nümayiş etdirmədi. Belə bir model müxtəlif səviyyəli DE qat dəyişiklikləri və ardıcıllıq dərinliyi üçün müşahidə edilmişdir. Texniki təkrarların DE təhlili mənalı olmasa da, nümunələri müqayisə etmək və oxunma sayındakı qərəzliliyin səbəbini müəyyən etmək üçün daxil edilmişdir. Nəhayət, göstərilmişdir ki, nümunənin dəyişdirici gen-dəstini zənginləşdirmə analizi (GSEA) [21] oxunma sayının qərəzindən yüksək dərəcədə təsirlənir və buna görə də xeyli sayda yanlış pozitivlər əmələ gətirir, halbuki əvvəlcədən təyin edilmiş GSEA-nın yanlış pozitivlər yaratmır. oxumaq saymaq. Həmçinin Zheng və həmkarlarının DE analizində deyil, RNT-seq gen ifadəsinin kəmiyyətinin müəyyən edilməsində qərəzlərin digər növləri üçün məqaləsinə baxın [22]. Biz həmçinin kiçik dispersiyaların RNT seq məlumatlarının DE analizində yüksək statistik gücə səbəb olduğunu bildirən son araşdırmaya diqqət yetiririk [23].


      Nəticələr

      Ölçmə amilinin qiymətləndirilməsi

      Normallaşdırma prosedurumuzun əsas komponenti Z ilə işarələnmiş qlobal qat dəyişməsinin etibarlı ölçüsünün qiymətləndirilməsidir.j bu kağız boyunca. Bu ölçü hansı populyasiyanın öyrənilməsindən asılı olaraq ümumi RNT və ya polyA + RNT-dəki dəyişikliyi təmsil edir. Embrionda RNT səviyyələrinin dəyişməsini qiymətləndirmək üçün biri bioloji, digəri riyazi olmaqla iki metodologiyadan istifadə edilmişdir. Əvvəlcə zigotik genomun aktivləşməsindən (ZGA) (1 hüceyrəli, 4 hüceyrəli, 16 hüceyrəli və 128 hüceyrəli) və sonra () fərqli inkişaf zaman nöqtələrində bərabər sayda embrionlardan ümumi və polyA + RNT miqdarını təcrid etdik və ölçdük. 3,5 hpf və 5,5 hpf). Bu zaman dövrləri bundan sonra ZGA-dan əvvəlki və sonrakı nümunələr adlanır. Ümumi RNT səviyyələri mərhələlər arasında əhəmiyyətli dərəcədə dəyişmədi, lakin biz azalma tendensiyası müşahidə etdik (Şəkil S1 faylında S1a). PoliA + RNT səviyyələri 1 hüceyrədən 128 hüceyrə mərhələsinə yüksəldi, 3,5 hpf-ə doğru düzəldi və 3,5 hpf ilə 5,3 hpf arasında azaldı (Şəkil 2, S1 faylında Şəkil S1b). Mütləq RNT miqdarlarının yüksək dispersiyasına görə, normallaşdırma şkalası kimi polyA + RNT faizindən istifadə etməyi seçdik (Şəkil 2) (metodlara baxın). Bu miqyasları Z kimi işarə edirikj Bio.

      ZGA-dan əvvəl və sonrakı 5 inkişaf mərhələsindən ümumi RNT təcrid olundu və RNT məhsuldarlığında fərqləri tənzimləmək üçün kanamisin poliA + RNT istifadə edildi. PolyA + RNT təcrid olundu və müxtəlif şablon və primerlərdən istifadə edərək qPCR nəticələrini müqayisə etmək üçün dörd cDNA kitabxanası yaradıldı.

      Standart laboratoriya metodu (tam xətt) və kəsilmiş orta M-dəyərlərindən (TMM) istifadə etməklə təyin olunan polyA + RNT ölçmələri erkən embriogenez zamanı erkən artım və sonradan azalma ilə demək olar ki, eyni nümunəni göstərir. Səviyyələr 1 hüceyrə mərhələsinə nisbətəndir.

      İkinci yanaşmada biz Robinson və Oshlack (2010) tərəfindən təsvir edildiyi kimi TMM miqyaslı amilləri təxmin etdik (metodlara baxın). Bu miqyaslı amilləri Z kimi qeyd edirikj TMM. Zj TMM dəyərləri Z ilə yaxşı əlaqələndirilirj Eksperimental polyA + RNT ölçmələri vasitəsilə əldə edilən bio tərəzi (Şəkil 2). Bundan başqa, müqayisə Zj İki müxtəlif RNT-seq verilənlər dəsti (verilənlər dəsti 1 [6], verilənlər toplusu 2 [12]) arasında TMM platformalar (SOLiD3 və Illumina), həmçinin replikatlar (məlumat dəsti 2) arasında təkrarlanma qabiliyyətini göstərdi (Şəkil S1 faylında S2a, b). Həmçinin, ümumi RNT-dən əldə edilən RNT-seq məlumatları ZGA-dan əvvəl heç bir artım göstərməmişdir (Şəkil S1 faylında S2c). Bu məlumatlardan belə nəticəyə gəlirik ki, inkişaf zamanı poliA + RNT miqdarında əhəmiyyətli dalğalanmalar var və Zj TMM və Zj Bio burada öyrənilən şərtlər altında qlobal qat dəyişməsinin etibarlı təxminçiləridir. Tədqiqatımızın qalan hissəsində biz laboratoriyadan əldə edilən Z amilindən istifadə etdikj Dataset 1 və Z üçün bioj BSN ilə normallaşdırarkən TMM verilənlər bazası 2 üçün miqyas alır. Biz əvvəllər kvadrat-kök miqyaslı amilləri transformasiya etdik [6], lakin yeni təhlil göstərir ki, bu mühafizəkar yanaşma transformasiya olmadan miqyaslama amillərindən istifadə etməkdən daha az dəqiqdir (Şəkil S1 faylında S3a-c).

      Ümumi RNT və polyA + RNT əldə cDNA kitabxanalarının müqayisəsi əsas fərqləri ortaya qoyur

      RT-qPCR nəticələrinə cDNA (təsadüfi və ya oliqo(dT) primerləri) yaratmaq üçün istifadə edilən ümumi və ya polyA + RNT və/və ya tipli primerlərin istifadəsinin təsir edib-etmədiyini müəyyən etmək üçün biz eyni nümunələrin müxtəlif kombinasiyalarından istifadə edərək paralel təcrübələr apardıq. şablon və primerlər. Nəticələr göstərir ki, ZGA-dan əvvəl mRNT bolluğunda artımın aşkarlanması ümumi RNT-də deyil, poliA + RNT fraksiyasında transkriptlərin zənginləşdirilməsindən asılıdır (Şəkil 3, S1 faylında Şəkil S4a və b). Bu nəticələr mövcud transkriptlərin artan polyA quyruq uzunluğuna uyğundur və deyil de novo ZGA-dan əvvəlki dövrdə transkripsiya [6]. ZGA-dan sonrakı artım səviyyəsi ümumi və polyA + RNT kitabxanaları arasında daha çox oxşardır (Şəkil S1 faylında S4c).

      RT-qPCR nəticələrinin polyA+ və ümumi RNT və oliqo(dT) və təsadüfi primerlər əsasında müqayisəsi stat3. Artım pre-ZGA yalnız polyA + RNT əsaslı cDNA kitabxanalarında aşkar edilir. PolyA = polyA + RNT, Toplam = ümumi RNT, OdT = oliqo(dT) primerləri, RP = təsadüfi primerlər.

      RNT-seq normallaşdırma üsullarının müqayisəsi

      RNT-seq məlumatlarının normallaşdırılması üçün üç müxtəlif üsul müqayisə edilmişdir. Xam oxunma sayları RPKM [4] üçün təsvir olunduğu kimi hər bir nümunədə xəritələnmiş milyon oxunuşların ümumi sayına bölündü, lakin transkriptlərin uzunluğuna bölünmədən bu yanaşma buradan Milyon Başına Oxuma (RPM) adlanır. TMM normallaşdırılmış dəyərlər R paketi "limma" (metodlara bax) və Excel istifadə edərək BSN normallaşdırılmış dəyərlər (metodlara bax) istifadə edərək əldə edilmişdir. Bu üç normallaşdırma metodu bu gün mövcud olan RNT-seq normallaşdırma metodlarının əsas qruplarını təmsil edir [2]. Normallaşmanın qlobal effekti qutu planlarında görünə bilər (şək. 4). Nümunələrin daha çox oxşar olmasına səbəb olan RPM və TMM normallaşmasından fərqli olaraq, BSN qlobal polyA + RNT tendensiyalarını təqlid edir (Şəkil 2). Bu, BSN ilə müqayisə edilən normallaşdırma üsulları arasındakı əsas fərqi göstərir ki, bioloji fərqləri qorumağa çalışır, RPM və TMM isə gen ifadə səviyyələrinin oxşar paylanmasına malik nümunələrə səbəb olur.

      Transkript saylarının və ya dəyərlərin normallaşmadan əvvəl (normallaşdırılmamış) və sonra (BSN, RPM və TMM) paylanmasının qutusu.

      Fərdi transkript səviyyəsində biz 1-hüceyrə və 3.5 hpf mərhələsi (ZGA əvvəli) və 3.5 hpf və 5.3 hpf (post-ZGA) arasında dinamik dəyişikliyin iki vaxt nöqtəsinə diqqət yetirdik. RNT təcridindən əvvəl Trizol reagentinə sünbüllü RNT əlavə edildi və 20 müxtəlif transkript üçün qərəzsiz RT-qPCR dəyərlərini təmin etmək üçün hər mərhələdən bərabər həcmdə ümumi RNT-dən polyA + RNT çıxarıldı (metodlara baxın). ZGA-dan əvvəlki mərhələlərdə artım olan transkriptlər (n = 8) BSN tərəfindən ən yaxşı təxmin edilən 8 nümunədən 7-dədir (Şəkil 5a). Ümumilikdə, ZGA-dan əvvəlki qat dəyişiklikləri BSN üçün RPM və TMM ilə müqayisədə müvafiq olaraq 55% və 163% yüksək olmuşdur. Əhəmiyyətli olan, ZGA-dan əvvəl azalan iki transkript də BSN istifadə edərək ən yaxşı şəkildə təxmin edilmişdir (Şəkil 5b). 3,5 və 5,3 hpf arasında azalan ifadə ilə araşdırılan bütün 11 transkript üçün BSN təxmin edilən dəyərlər bütün hallarda qPCR nəticələrinə ən yaxındır (Şəkil 5c). üçün sod2, hətta BSN və TMM normallaşdırılmış dəyərlər arasında təxmin edilən qat dəyişməsi istiqamətində fərq var. 3,5-dən 5,3 hpf-ə (n = 9) artımla araşdırılan transkriptlər üçün BSN dəyərləri bütün hallarda qPCR etalonuna ən yaxındır (Şəkil 5d). Bu transkriptlərin bəziləri üçün biz qPCR və RNT-seq nəticələri arasında əhəmiyyətli fərqlər aşkar edirik (tardbpl, bact2, tex10, ctcf) lakin bu, normallaşdırma metodundan müstəqildir. Orta hesabla, ZGA-dan sonrakı qat dəyişiklikləri RPM və TMM ilə müqayisədə BSN üçün 32% və 64% aşağı olmuşdur. BSN metodu, həmçinin qat-dəyişiklikləri tənzimləmək üçün primer səmərəliliyinin hesablamalarından istifadə edildikdə və qPCR və RNT-seq arasındakı uyğunsuzluqlar azaldıqda ən yaxşı nəticə verdi (S1 Faylında Şəkil S5). Nəticələrimiz birlikdə götürdükdə, RPM və TMM normallaşması ilə müqayisədə BSN-dən istifadə dəqiqliyində əhəmiyyətli artım nümayiş etdirir.

      Transkriptlər üçün RPM, TMM və BSN istifadə edərək normallaşdırılan RT-qPCR və RNT-seq məlumatlarını müqayisə edən Log2-çevrilmiş qat dəyişiklikləri, transkriptlər üçün ZGA-dan əvvəl (a), azalan ZGA (b), ZGA-dan sonrakı azalma (c) və artan post -ZGA (d).

      2-ci verilənlər bazasından istifadə edərək ZGA-dan sonra dəyişən transkriptlər üçün normallaşdırma üsulları və qPCR arasında müqayisələr 1-ci verilənlər bazası ilə eyni tendensiyanı aşkar etdi, lakin qPCR və RNT-seq nəticələri arasında daha az uyğunsuzluq var idi (Şəkil S6a, b Fayl S1). BSN normallaşdırılmış ifadə səviyyələri aşağı tənzimlənən transkriptlər üçün 11 nümunədən 10-da və bütün hallarda yuxarı tənzimlənən transkriptlər üçün qPCR dəyərlərinə ən yaxın idi.


      Müəllif xülasəsi

      Transkriptomika sahəsi mRNT-ni gen ifadəsinin proksi kimi istifadə edir və ölçür. Hal-hazırda mRNT, mikroarray və RNT-Seq kəmiyyətini təyin etmək üçün istifadə olunan iki əsas platforma var. Bir çox müqayisəli tədqiqatlar göstərdi ki, onların nəticələri həmişə uyğun gəlmir. Bu işdə biz hər iki platformanın birləşdirilmiş məlumatlarının təhlilinə imkan verən hər iki platformanın müqayisəliliyini artırmaq üçün möhkəm bir üsul tapmağı hədəfləyirik. Biz iki fərqli platformadan yüksək ölçülü transkriptomik məlumatları daha aşağı ölçülü və bioloji cəhətdən uyğun gen dəsti ballarına çevirdik. Bu gen dəstləri a-priori genlərin spesifik birləşməsi kimi müəyyən edilmişdir (məsələn, müəyyən bir yolda yuxarı tənzimlənir). Müşahidə etdik ki, mikroarray və RNT-Seq ifadə səviyyələri fərqli görünsə də, məlumatları çevirmək üçün bu gen dəstlərindən istifadə onların korrelyasiyasını əhəmiyyətli dərəcədə artırır. Bu, iki platformanın məlumat inteqrasiyasında irəliyə doğru bir addımdır. Transformasiya üçün istifadə olunan gen dəstlərinin tərkibinin, ölçüsünün və sayının təsiri ilə bağlı daha dərin araşdırma gələcək tədqiqatlar üçün təklif olunur.

      Sitat: van der Kloet FM, Buurmans J, Jonker MJ, Smilde AK, Westerhuis JA (2020) Gen dəstlərinin istifadəsi ilə RNT-Seq və mikroarray məlumatları arasında müqayisəliliyin artırılması. PLoS Comput Biol 16(9): e1008295. https://doi.org/10.1371/journal.pcbi.1008295

      Redaktor: Jason A. Papin, Virciniya Universiteti, BİRLEŞİK Ştatlar

      Qəbul edildi: 1 noyabr 2019-cu il Qəbul edildi: 27 avqust 2020-ci il Nəşr olundu: 30 sentyabr 2020-ci il

      Müəlliflik hüququ: © 2020 van der Kloet et al. Bu, Creative Commons Attribution Lisenziyasının şərtlərinə uyğun olaraq paylanmış açıq giriş məqaləsidir və orijinal müəllif və mənbənin qeyd edilməsi şərti ilə istənilən mühitdə məhdudiyyətsiz istifadə, paylama və reproduksiyaya icazə verir.

      Maliyyələşdirmə: FK maliyyə dəstəyi ilə Amsterdam Akademik Alyansı Məlumat Elmi tərəfindən dəstəklənir (https://amsterdamdatascience.nl/). Tədqiqatın dizaynında, məlumatların toplanmasında və təhlilində, nəşr etmək qərarında və ya əlyazmanın hazırlanmasında maliyyə verənlərin heç bir rolu olmayıb.

      Rəqabətli maraqlar: Müəlliflər heç bir rəqabət aparan maraqların olmadığını bəyan ediblər.


      Limma-voom ilə diferensial ifadə

      Limma-voom alətini işləyərkən aşağı ekspressiv genləri süzmək tövsiyə olunur. Bütün nümunələrdə çox aşağı sayı olan genlər diferensial ifadə üçün az dəlil təmin edir və onlar boru kəmərində sonradan istifadə edilən bəzi statistik yaxınlaşmalara müdaxilə edir. Onlar həmçinin saxta kəşf dərəcələrini təxmin edərkən çoxsaylı sınaq yükünü artırır, diferensial şəkildə ifadə olunan genləri aşkar etmək gücünü azaldır. Bu genlər əlavə analizdən əvvəl süzülməlidir.

      Aşağı ifadəli genləri süzməyin bir neçə yolu var. Hər qrupda bioloji təkrarlar olduqda, bu halda bizim hər qrupda 2 nümunə ölçüsü var, biz ən azı 2 nümunədə mövcud olan minimum milyonda say (CPM) həddində süzgəcdən keçməyə üstünlük veririk. İki bizim təcrübəmizdə hər qrup üçün ən kiçik nümunə ölçüsünü təmsil edir. Bu məlumat dəstində, ən azı iki nümunədə 0,5-dən yuxarı CPM-də ifadə edilən genləri saxlamağı seçirik. Seçilmiş CPM həddi CpmPlots ilə xam hesabla müqayisə edilə bilər (aşağıya bax).

      Təfərrüatlar filtrləmə haqqında ətraflı məlumat

      Limma aləti CPM dəyərlərini yaratmaq üçün edgeR paketinin Robinson, McCarthy və Smyth 2010-dan cpm funksiyasından istifadə edir və sonra filtrlənə bilər. Nəzərə alın ki, CPM-lərə çevirməklə biz hər bir nümunə üçün müxtəlif ardıcıllıq dərinliklərini normallaşdırırıq. Bu məlumat dəstindəki kitabxana ölçüləri üçün 10-15 sayına uyğun gəldiyi üçün 0,5 CPM istifadə olunur. Əgər say daha azdırsa, o, çox aşağı hesab olunur ki, bu da əlaqəli genin həmin nümunədə ifadə edilmədiyini göstərir. İki və ya daha çox kitabxanada ifadə tələbindən istifadə olunur, çünki hər qrupda iki təkrar var. Bu, bir genin yalnız bir qrupda ifadə edildiyi təqdirdə saxlanmasını təmin edir. Daha kiçik CPM hədləri adətən daha böyük kitabxanalar üçün uyğundur. Bir qayda olaraq, yaxşı həddi 10 sayına uyğun gələn CPM-i müəyyən etməklə seçilə bilər ki, bu da bu halda təxminən 0,5-dir. Birbaşa saylar üzrə filtrləmə yerinə CPM-lərlə filtrləməlisiniz, çünki sonuncu nümunələr arasında kitabxana ölçülərindəki fərqləri nəzərə almır.


      Metodlar

      Nümunələrin toplanması və kitabxananın hazırlanması

      Fərddən RNT-Seq oxunma sayı məlumatlarını əldə etdik Drosophila Genetik Referans Paneli (DGRP) uçur [34, 35]. RNT-nin çıxarılması və kitabxananın hazırlanmasının təfərrüatları Əlavə fayl 4: Əlavə Metodlarda verilmişdir. Qısaca olaraq, tədqiqatımız üçün üç ayrı bioloji təkrarda 16 DGRP genotipindən 8 bakirə erkək və 8 bakirə dişi milçək topladıq. Tədqiq olunan genotiplər: RAL-93, RAL-229, RAL-320, RAL-352, RAL-370, RAL-563, RAL-630, RAL-703, RAL-761, RAL-787, RAL-790, RAL-804, RAL-812, RAL-822, RAL-850 və RAL-900. Milçəklər ekloziyadan 7 gün sonra 96 ​​quyu boşqablarında donduruldu. 768 RNT ardıcıllığı yaratmaq üçün təcrübəni üç dəfə təkrarladıq. Ekoloji şəraitə nəzarət etmək üçün biz milçək kulturalarını 5 erkək və 5 dişi ilə səpdik, milçəkləri bir inkubatorda standart olaraq böyütdük. Drosophila qida (Bloomington, IN) 25 °C, 60% rütubət və 12:12-saat işıq:qaranlıq dövründə toplanmış erkək və dişi bakirə milçəklər cütləşmə vəziyyətinə nəzarət etmək üçün bakirə qızların 20-dən dörd gün əvvəl eyni cinsli flakonda saxlanması sosial ifşaya nəzarət etmək üçün RNT ekstraksiyasına [36] və eyni sirkadian zamanda (1:00 pm) RNT çıxarılması üçün bütün milçəkləri dondurdu. Biz RNeasy 96 Plate Kit (Qiagen, Valencia, CA) istifadə edərək ümumi RNT-ni Əlavə fayl 4: Əlavə Metodlarda dəyişdirilmiş vakuum və ya spin texnologiyasından istifadə edərək istehsalçı təlimatlarına uyğun olaraq təcrid etdik. Kitabxananın hazırlanmasından əvvəl ümumi RNT-yə 96 sintetik ERCC spike-in nəzarət RNT əlavə etdik. Ölçüsü 300-350 bp olan strand-spesifik kitabxanalar mövcud protokola [37] dəyişiklik edilərək hazırlanmışdır (Əlavə fayl 4).

      Ayrı-ayrı milçəklər arasında oxunma saylarının dəyişməsi bioloji fərqlərə görə ola bilər, ya da kitabxananın hazırlanması və ardıcıllığının texniki dəyişməsi ilə bağlı ola bilər. Təsadüfi olaraq seçilmiş 118 milçək üçün dublikat RNT-Seq kitabxanaları hazırladıq. Milçəklər arasında müşahidə olunan oxunma sayı fərqlərinin bioloji və ya texniki olub-olmadığını müəyyən etmək üçün biz DESeq-normallaşdırılmış oxunma sayı məlumatlarına ümumiləşdirilmiş xətti model uyğunlaşdırdıq. Model hər bir fərdi milçəyi (F) bir faktor kimi, dublikat RNT-Seq kitabxanalarını isə faktor daxilində replika kimi nəzərdən keçirdi.

      Fərdi milçəklər arasında 9495 gen diferensial şəkildə ifadə edilsə də, ERCC sünbül nəzarətlərinin heç biri diferensial şəkildə ifadə olunmamışdır ki, bu da texniki deyil, böyük bioloji təsirlərin mövcudluğunu göstərir (FDR <0.05). Biz daha sonra hər bir nümunə üçün təkrar kitabxanalar arasında xam (normallaşdırılmamış) oxunma saylarında mütləq fərqin qrafikini çəkərək texniki fərqləri araşdırdıq (Əlavə fayl 1: Şəkil S8). Kitabxanalar arasındakı fərqlər bizim aşağı ifadə həddindən (genlərarası xam oxunma saylarının 95-ci faizindən) azdır ki, bu da kitabxanalar arasında texniki fərqin az olduğunu göstərir.

      Keyfiyyətə zəmanət prosedurları

      Biz hər bir milçəyin ardıcıllıq hovuzu indeksini, genotipini və cinsi etiketlənməsini yoxlamaq, aşağı (aşkar edilməyən) gen ifadəsi üçün həddi müəyyən etmək və kitabxana hazırlıqları arasında texniki fərqi qiymətləndirmək üçün xam ardıcıllıq məlumatlarından istifadə etdik. Gözlənilən indeksi təsdiqləmək və hər hansı çirkləndirici indeksləri müəyyən etmək üçün təcrübədə istifadə edilən bütün 24 indeks üçün xam ardıcıllıq məlumatlarını axtardıq. Təhlildə gözlənilən indeksin 95%-i və ya daha çox olan bütün nümunələri saxladıq. DGRP xətləri tam ardıcıldır [34, 35] beləliklə, biz hər milçəyin genotipini yoxlamaq üçün məlum tək nukleotid polimorfizmi (SNP) yerlərindən istifadə edə bildik. 2,192,560 məlumatlandırıcı SNP yerində əsas zənglər bütün 16 DGRP xətti üçün tanınır. Əsas zənglər ikidən çox oxunan SNP saytları üçün SAMtools mpileup [38] istifadə edərək ardıcıllıq məlumatlarından çıxarıldı. Biz əsas zənglərin ardıcıllıqla 5%-dən az texniki xəta ilə oxunmaların 95%-dən çoxunda olmasını tələb etdik. Hər bir DGRP xəttini unikal şəkildə müəyyən etmək üçün ən çox nümunədə əsas çağırışa malik genom üzrə 1000 SNP saytı seçilmişdir. İki ölçmə dəyişənindən istifadə edərək hər bir DGRP xəttində hər bir milçək nümunəsi ilə məlum SNP-lər arasındakı fərqləri hesabladıq. r ijR ij.

      ,harada D ij nümunə arasında uyğun olmayan SNP saytlarının sayıdır i və DGRP xətti jM ij nümunə arasında uyğun gələn SNP saytlarının sayıdır i və DGRP xətti j. ( _=1-frac<>- dəq sol(_sağ)><>_sağ)- dəq sol(_ ight)> ) , burada max(r i.) maksimumdur r ij nümunə üzərində i və bütün DGRPlines, və min(r i.) minimumdur r ij nümunə üzərində i və bütün DGRP xətləri. R ij [0,1] diapazonlu qiymətə malikdir, burada R ij = 1 zaman r ij = dəq(r i.) və R ij = 0 olduqda r ij = maksimum(r i.). Hər milçəyin genotipi bir olan DGRP xəttinə təyin edilmişdir R ij = 1. Biz paylanmanın 5 % səviyyəsindən istifadə etdik r ij genotiplər üzrə, 0,10, məqbul uyğunsuz SNP-lərin sayı üçün hədd kimi. Gözlənilən DGRP xəttinə təyin edilə bilən bütün milçək ardıcıllıqlarını sonrakı təhlillərə daxil etdik.

      Y xromosomunda mövcud olan bəzi genlərin genomun digər bölgələrində dublikatları var və Y xromosomu gen baxımından zəifdir, buna görə də Y xromosomuna ardıcıllığın xəritələşdirilməsi cinsin etibarlı göstəricisi deyil. Biz cinsi dimorfizmin tanınmış yüksək səviyyələrindən istifadə etdik Drosophila hər milçəyin cinsini yoxlamaq üçün gen ifadəsi [39-46]. Biz kişi standart nümunəsini bütün kişi nümunələri üzrə hər bir gen üçün normallaşdırılmış oxu saylarının median dəyəri kimi təyin etdik və eyni şəkildə qadın standart nümunəsini təyin etdik. Hər bir nümunə milçəyi və hər bir cinsi standart arasında normallaşdırılmış oxuma saylarının Spearman korrelyasiya əmsallarını hesabladıq. Müqayisə göstərdi ki, milçəklərin 95%-nin əks cins standartı ilə 0,795 və ya daha az nisbətdə əlaqəsi var. Buna görə də biz cinsi yoxlama üçün hədd kimi eyni cins standartı ilə hər milçək üçün 0,795 və ya daha çox korrelyasiya tələb etdik. Genotip və cinsi keyfiyyət yoxlamalarından keçməyən hər hansı milçəyin ardıcıllığını, RNT hasilatı və ya kitabxananın hazırlanmasında uğursuz olan nümunələri və ən azı 2,5 milyon unikal xəritələnmiş oxunuşu olmayan nümunələri (ModENCODE Konsorsiumu, şəxsi ünsiyyət) aradan qaldırdıq. 726 milçək üçün ardıcıllıq məlumatları ilə. Bu məlumat dəsti və əlavə məlumat NCBI Gen İfadə Omnibusunda (GEO) GSE60314 qoşulma nömrəsi altında mövcuddur.

      Empirik aşağı ifadə həddinin təyini

      Biz intergenik bölgələrdə müşahidə edilən sayları oxumaq üçün şərh edilmiş gen bölgələrində (Flybase annotasiyası 5.57) [47] oxunmuş sayların paylanmasının müqayisəsi əsasında bir gen ifadəsi həddini təyin etdik. Bütün intergenik bölgələrdən oxunmuş sayları tərtib etdik. Oxunma uzunluğu 76 bp-dən kiçik olan bütün intergenik bölgələri çıxardıq, çünki bu bölgələr üçün unikal oxunuşlar olmayacaq. İstifadə olunan hər hansı normallaşdırma metodu oxunma saylarının paylanmasını dəyişdirəcəyi üçün biz hər bir normallaşdırma metodu və normallaşdırılmamış sayma məlumatları üçün ayrı-ayrı paylama planları yaratdıq. Biz genik və intergenik məlumatları birləşdirdik və onları normallaşdırdıq, sonra paylanmaları ayrıca tərtib etdik. Biz gen ifadəsinin aşağı həddi səviyyəsi kimi genlərarası paylanmanın 95-ci faizini seçdik [20]. Bütün nümunələrdə aşağı hədd səviyyəsindən aşağı normallaşdırılmış oxuma saylarına malik olan genləri çıxardıq. Bu filtrləmə strategiyası tətbiq edildikdə, o, yalnız genik bölgələrdən normallaşdırılmış oxunma saylarına tətbiq edildi. Bu təhlil Əlavə fayl 5-dəki boru kəmərindən istifadə etməklə həyata keçirilə bilər.

      RNT ardıcıllığının normallaşması

      Oxunma sayının normallaşdırılması üsullarının diferensial şəkildə ifadə olunan genlərin identifikasiyasına təsirini araşdırdıq. Biz RNT ardıcıllığı məlumatlarının təhlilində istifadə edilən yeddi məşhur normallaşdırma metodunun təsirini, eləcə də hər bir gen üçün unikal şəkildə təsvir edilən normallaşdırılmamış oxunuş sayını nəzərdən keçirdik. Biz ümumi sayın normallaşdırılmasını (TC) [9, 21], yuxarı kvartilin normallaşdırılmasını (UQ) [6], orta normallaşdırmanı (Med) [21], tam kvantil normallaşdırmasını (Q) [23, 24], milyonda kilobaza başına oxuduq mapped reads (RPKM) [7], trimmed mean of M-values (TMM) [22], and the normalization method supplied in the DESeq package (DESeq) [13] (see Additional file 5 for pipeline). Here we defined the un-normalized number of reads (counts) that mapped uniquely to each gene as the raw count data (RC). To use the TC, UQ, and Med normalization methods, the raw count data in each sample is divided by a ratio. For the TC method, the ratio is the total number of mapped reads for a given sample divided by the mean total number of mapped reads across all samples. Likewise, the UQ ratio is the upper quartile of the raw count data across all genes in each sample divided by the mean upper quartile across all samples. In addition, the Med ratio is the median read counts for all genes in a given sample divided by the median read across all samples. Both the upper quartile and the median ratios are calculated after removing genes with zero read counts across all samples from the data. The Q normalization equalizes the distribution of raw counts across samples by ranking the raw counts for each gene in each sample and applying a new mean count for each gene based upon rank. RPKM normalization is widely used for RNA-Seq data and consists of multiplying the raw counts for each gene in each sample by a factor incorporating both sequencing depth and gene length [7]. The trimmed mean of M-values (TMM) normalization [22] is accomplished in two steps. In the first step, the gene-wise log fold-changes (M-values) and absolute expression levels (A-values) are calculated, respectively, where

      w is the weight calculated as the inverse of approximate asymptotic variance as given by the following expression:

      To obtain the TMM-normalized read counts when using the DESeq program, we also divided the normalized read counts by the mean of the normalized library size [21].

      Like the TMM normalization, DESeq normalization requires a reference sample to calculate the scaling factor for normalization [13]. DESeq constructs the reference sample as the geometric mean of raw counts across all samples for each gene. The scaling factor for each sample is then calculated as the median of the ratio of raw counts of the sample and the reference sample across all genes.

      In addition to the seven normalization methods applied above, we also considered a recently published normalization method called remove unwanted variation with negative control genes (RUVg) [8]. RUVg normalization assumes that a set of negative control genes is available and the expression of these negative control genes are affected by technical, but not biological, sources of variation in the same way as gene read counts. RUVg normalization constructs the factors that capture technical variation from negative control genes, which are treated as additional covariates in the models for differential expression analysis. We used External RNA Control Consortium (ERCC) spike-ins during library preparation [5] 32 of these spike-ins were added across all samples and did not vary with biological sources of variation when compared as replicate libraries. We used these 32 ERCC spike-ins as negative control genes and applied the RUVSeq R package [8] to normalize our read count data.

      Count data distribution estimations

      We modeled the count data as both a negative binomial distribution and as a normal distribution. To model the count data as a negative binomial (NB) distribution, [13, 26, 48], we assumed that the number of read counts for gene i in sample k can be modeled by

      harada μ ik is the mean, and σ 2 ik is the variance. The mean is

      and the relation between variance and mean is given as:

      The dispersion parameter ϕ i determines the extent to which the variance exceeds the mean. We used the DESeqedgeR packages to estimate the dispersion parameter [13, 14] (Additional file 5).

      Another strategy for RNA-Seq count data analysis is to model a normal distribution by ln-transforming normalized count data. This is done by simply taking the ln of the read count data then applying standard microarray analysis techniques [49, 50] using the limma R package (Additional file 5). We used both the negative binomial and the normal distribution to model the read count data.

      Model fitting and hypothesis testing

      To understand how gene expression varies among individual flies, we tested each gene for differential expression among DGRP genotype, environment, sex, and their interactions. For count data modeled with a negative binomial distribution, we fitted the following generalized linear model (GLM) for each gene i:

      harada S is sex, G represents the DGRP genotype, and E is the environmental condition. To test the significance of all factors in the model, we fitted the following series of models:

      To test each term of the main effects, we used Model 1 as the full model, and calculated the likelihood ratio between Model 1Model 1 with each of the main effects removed in turn, which we term the reduced Model 1. The likelihood ratio statistic comparing these two models is simply the difference between the deviances of the full model and the reduced model

      To test the two-way interaction terms G × E, G × S, və E × S, we used the same approach we added each term to be tested in turn, defining it as the full model, and compared it to the previous reduced version of the model. Misal üçün, Model 2(b)2(a) were used to find genes with a significant G × S interaction Model 2(b) was the full model, while Model 2(a) was the reduced model. To test the significance of the three-way interaction term S × G × E, we used the same approach, where Model 2 was the reduced model. Inspection of the Model 2, 2(a), və 2(b) equations above suggests that differential expression detected for each first-order interaction term is dependent upon its ordering in the equation. We therefore compared this analysis with two other ways of detecting differential gene expression for first-order interaction terms. In the second approach, we used the Model 1 as the reduced model and then added each first-order interaction term in turn to Model 1 to test the significance of each first-order interaction term. In the third approach, we assessed the contribution of each first-order interaction term by using Model 2 as the full model and Model 2 without each of the first-order interaction terms in turn as the reduced model.

      In addition to using the GLM with negative binomial distribution to model the count data, we also evaluated the ln-transformation of the normalized count data combined with analysis of variance (ANOVA), which we called the ln&ANOVA method. We ln-transformed the normalized read counts and then fitted the ANOVA model below using SAS (version 9.3) [25]:

      harada S, G, və E are as defined above, and β 0 is the intercept, while ε is error.

      Correction for multiple tests

      The Benjamini-Hochberg procedure [51] was used to control the false discovery rate (FDR) based on the P-values obtained from the analysis. Genes having P-values with an FDR threshold of < 0.05 were designated as differentially expressed (Additional file 5).

      Statistical power calculations

      For a fixed-effect multi-factor ANOVA model, the test statistic has an F distribution under the null hypothesis [52]. The test statistic has a non-central F distribution with non-centrality parameter φ when the null hypothesis is false [52]. Thus, the power of an F test is the probability that the observed test statistic is greater than a critical value of the test, where the probability is calculated using the significance level and non-centrality parameter λ (or φ). Given an ANOVA model with three fixed factors [52, 53], the non-centrality parameter for testing the three-way interaction term with balanced design is given as ( lambda =frac<^a^b^c_^2>>>> ) or ( ^2=frac^asum_^bsum_^c_^2>> ) , where a, b, c are the number of conditions for the three main effects (i.e., a = 16, b = 3 and c = 2), and (αβγ) ijk is the difference between the condition mean and the value that would be expected if main effects and two-way interaction terms are sufficient to account for all factor effects. By introducing a new parameter ( d=frac< max left(_ ight)- min left(_ ight)>=frac ) [54], it can be shown that the minimum value of λ is ( frac<>^2> <2>) , that is ( frac<>^2><2^2> ) , where μ ijk refers to the mean of the three-way interaction condition for the first factor at the i th level, the second factor at the j th level and the third factor at the k th level. For our data, μ ijk is the mean of ln-transformed normalized counts under the condition of i th genotype, j th environmental condition and k th sex D is called the fold-change. Hence we can calculate a conservative power estimate using the ln-transformed normalized counts, the desired significance level, sample size (1–8 flies), and variance σ 2 (as estimated by the mean sum of squares).

      Implementation of analysis

      Additional file 5 provides the R code used to implement these analyses.

      Etika bəyanatı

      The research performed in this study on the fruit fly, Drosophila melanogaster, did not require approval from an ethics committee.


      SimSeq: a nonparametric approach to simulation of RNA-sequence datasets

      Motivation: RNA sequencing analysis methods are often derived by relying on hypothetical parametric models for read counts that are not likely to be precisely satisfied in practice. Methods are often tested by analyzing data that have been simulated according to the assumed model. This testing strategy can result in an overly optimistic view of the performance of an RNA-seq analysis method.

      Nəticələr: We develop a data-based simulation algorithm for RNA-seq data. The vector of read counts simulated for a given experimental unit has a joint distribution that closely matches the distribution of a source RNA-seq dataset provided by the user. We conduct simulation experiments based on the negative binomial distribution and our proposed nonparametric simulation algorithm. We compare performance between the two simulation experiments over a small subset of statistical methods for RNA-seq analysis available in the literature. We use as a benchmark the ability of a method to control the false discovery rate. Not surprisingly, methods based on parametric modeling assumptions seem to perform better with respect to false discovery rate control when data are simulated from parametric models rather than using our more realistic nonparametric simulation strategy.

      Availability and implementation: The nonparametric simulation algorithm developed in this article is implemented in the R package SimSeq, which is freely available under the GNU General Public License (version 2 or later) from the Comprehensive R Archive Network (http://cran.rproject.org/).

      Əlaqə: [email protected]

      Supplementary information: Supplementary data are available at Bioinformatics online.


      Identifying Differentially Expressed Genes from RNA-Seq Data

      This example shows how to test RNA-Seq data for differentially expressed genes using a negative binomial model.

      Giriş

      A typical differential expression analysis of RNA-Seq data consists of normalizing the raw counts and performing statistical tests to reject or accept the null hypothesis that two groups of samples show no significant difference in gene expression. This example shows how to inspect the basic statistics of raw count data, how to determine size factors for count normalization and how to infer the most differentially expressed genes using a negative binomial model.

      The dataset for this example comprises of RNA-Seq data obtained in the experiment described by Brooks et al. [1]. The authors investigated the effect of siRNA knock-down of pasilla, a gene known to play an important role in the regulation of splicing in Drosophila melanogaster . The dataset consists of 2 biological replicates of the control (untreated) samples and 2 biological replicates of the knock-down (treated) samples.

      Inspecting Read Count Tables for Genomic Features

      The starting point for this analysis of RNA-Seq data is a count matrix, where the rows correspond to genomic features of interest, the columns correspond to the given samples and the values represent the number of reads mapped to each feature in a given sample.

      The included file pasilla_count_noMM.mat contains two tables with the count matrices at the gene level and at the exon level for each of the considered samples. You can obtain similar matrices using the function featurecount .

      Note that when counting is performed without summarization, the individual features (exons in this case) are reported with their metafeature assignment (genes in this case) followed by the start and stop positions.

      You can annotate and group the samples by creating a logical vector as follows:

      Plotting the Feature Assignments

      The included file also contains a table geneSummaryTable with the summary of assigned and unassigned SAM entries. You can plot the basic distribution of the counting results by considering the number of reads that are assigned to the given genomic features (exons or genes for this example), as well as the number of reads that are unassigned (i.e. not overlapping any feature) or ambiguous (i.e. overlapping multiple features).

      Note that a small fraction of the alignment records in the SAM files is not reported in the summary table. You can notice this in the difference between the total number of records in a SAM file and the total number of records processed during the counting procedure for that same SAM file. These unreported records correspond to the records mapped to reference sequences that are not annotated in the GTF file and therefore are not processed in the counting procedure. If the gene models account for all the reference sequences used during the read mapping step, then all records are reported in one of the categories of the summary table.

      Plotting Read Coverage Across a Given Chromosome

      When read counting is performed without summarization using the function featurecount , the default IDs are composed by the attribute or metafeature (by default, gene_id) followed by the start and the stop positions of the feature (by default, exon). You can use the exon start positions to plot the read coverage across any chromosome in consideration, for example chromosome arm 2L.

      Alternatively, you can plot the read coverage considering the starting position of each gene in a given chromosome. The file pasilla_geneLength.mat contains a table with the start and stop position of each gene in the corresponding gene annotation file.

      Normalizing Read Counts

      The read count in RNA-Seq data has been found to be linearly related to the abundance of transcripts [2]. However, the read count for a given gene depends not only on the expression level of the gene, but also on the total number of reads sequenced and the length of the gene transcript. Therefore, in order to infer the expression level of a gene from the read count, we need to account for the sequencing depth and the gene transcript length. One common technique to normalize the read count is to use the RPKM (Read Per Kilobase Mapped) values, where the read count is normalized by the total number of reads yielded (in millions) and the length of each transcript (in kilobases). This normalization technique, however, is not always effective since few, very highly expressed genes can dominate the total lane count and skew the expression analysis.

      A better normalization technique consists of computing the effective library size by considering a size factor for each sample. By dividing each sample's counts by the corresponding size factors, we bring all the count values to a common scale, making them comparable. Intuitively, if sample A is sequenced N times deeper than sample B, the read counts of non-differentially expressed genes are expected to be on average N times higher in sample A than in sample B, even if there is no difference in expression.

      To estimate the size factors, take the median of the ratios of observed counts to those of a pseudo-reference sample, whose counts can be obtained by considering the geometric mean of each gene across all samples [3]. Then, to transform the observed counts to a common scale, divide the observed counts in each sample by the corresponding size factor.

      You can appreciate the effect of this normalization by using the function boxplot to represent statistical measures such as median, quartiles, minimum and maximum.

      Computing Mean, Dispersion and Fold Change

      In order to better characterize the data, we consider the mean and the dispersion of the normalized counts. The variance of read counts is given by the sum of two terms: the variation across samples (raw variance) and the uncertainty of measuring the expression by counting reads (shot noise or Poisson). The raw variance term dominates for highly expressed genes, whereas the shot noise dominates for lowly expressed genes. You can plot the empirical dispersion values against the mean of the normalized counts in a log scale as shown below.

      Given the small number of replicates, it is not surprising to expect that the dispersion values scatter with some variance around the true value. Some of this variance reflects sampling variance and some reflects the true variability among the gene expressions of the samples.


      Why do we need to model RNA-seq data using Poisson, negative binomial,

      I am a biologist and use different packages like DESeq, . to normalize my data and find deferential expressed genes.
      Recently I have started to learn probability and statistics and I have studied distributions quite well. But I still have a problem: I think I do not very well understand why we really use this distributions to infer expression levels for genes, normalization, find differential expressed genes?

      Why do we need e.g. Poisson model, negative binomial, . for obtaining an approximate expression level? or in a package called mmseq: "Expression levels are inferred for each transcript using the mmseq program by modelling mappings of reads or read pairs (fragments) to sets of transcripts"!! why modeling? why do we need to estimate expression level while we can directly count the number of reads per gene?

      Or why is it appropriate to model read counts as a e.g. Poisson process?

      Is it only due to the fact that knowing the distribution (e.g negative binomial which can very well explain the observed counts, considering noise, . ) help us to apply the right properties like mean, var, . on data or there are more things to learn from the distributions?

      Sorry if my question is primitive but it is a long time that I am struggling with that


      Videoya baxın: Nucleotide Excision Repair (Iyul 2022).


Şərhlər:

  1. Yozshujas

    Bloqun daim inkişaf etdiyinə şadam. Bu yazı yalnız populyarlığa əlavə edir.

  2. Vorn

    Üzr istəyirəm, amma məncə, siz haqlı deyilsiniz. Gəlin müzakirə edək. PM-ə yazın, əlaqə saxlayaq.

  3. Hearne

    kimsə lyrics alexia))))))

  4. Thain

    Yes, the answer is almost the same as mine.



Mesaj yazmaq