Məlumat

Kiçik RNAseq məlumatlarının təhlili ilə bağlı problemlər - Adapterin kəsilməsi

Kiçik RNAseq məlumatlarının təhlili ilə bağlı problemlər - Adapterin kəsilməsi


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Adapterin kəsilməsi mərhələsində kiçik RNAseq məlumatlarını təhlil edərkən həmişə problemlə üzləşmişəm.

Kiçik RNAseq-a (Illumina) baxış

  1. RNT sütunlar və ya SƏHİFƏ istifadə edərək ölçülü fraksiyalaşdırılır
  2. 3' və 5' adapter bağlaması
  3. cDNT sintezi
  4. PCR gücləndirilməsi
  5. Sıralama

Oxunmaların uzunluğu maşından asılıdır və HiSeq kimi yeniləri ~200bp təmin edə bilər.

Bununla belə, problem cihazın maksimum oxunma uzunluğundan daha kiçik oxunmalardadır və bu, miRNA kimi kiçik RNT-lərdə ümumidir (xüsusilə də kiçikRNT-nin birləşdiricisi və tam 3'adapter maksimum oxumaq uzunluğundan böyükdürsə).

Təhlilin ilk addımı 3' adapterin kəsilməsidir (Illumina Truseq: TCGTATGCCGTCTTCTGCTTGT).

Bu işi yerinə yetirmək üçün bir neçə alqoritm mövcuddur və onların dəqiq etdiyi şey, adapter ardıcıllığı ilə oxunuşların 3' ucu arasında üst-üstə düşmələri yoxlamaq və sonra uyğunlaşdırılmış bölgəni kəsməkdir.

İndi problem bundadır

Çox kiçik düzülmələrə həqiqətən əmin ola bilməzsiniz, çünki onlar həqiqətən adapterlərdən qaynaqlanmaya bilər, bu o deməkdir ki, siz kəsmə üçün uyğunlaşdırmanın aşağı həddi təyin etməlisiniz. Mən adətən onu 5 (intuitiv olaraq) kimi təyin edirəm.

Ancaq adapterdən həqiqətən kiçik bir ardıcıllıq parçası varsa, o, qalacaq və heç bir şübhə olmadan onu kəsmək üçün bir yol yoxdur.

Əsl problem oxunuşların istinad ardıcıllığına uyğunlaşdırılması zamanı yaranır. Papyon kimi düzləşdiricilər (istifadə etməyi üstün tuturam), ümumiyyətlə icazə verilən uyğunsuzluqların sayı üçün istifadəçi tərəfindən müəyyən edilmiş arqumentə malikdir. Çoxlu uyğunsuzluğa yol versəniz, papyon ümumiyyətlə çox yaxşı performans göstərmir.

Sonradan həqiqətən dəyərli oxuduğunuzu itirə bilərsiniz.

Alternativ

Bu problemin qarşısını almaq üçün bəzən oxunuşları 25nt-ə qədər kəsirəm (miRNA profili üçün). Bu yeni problem yaradır:

Oxunmanın əvvəlcədən miRNA-dan (daha uzun RNT) və ya yetkin miRNA-dan (pre-miRNA-nın işlənməsi nəticəsində yaranan daha kiçik RNT) gəldiyini həqiqətən ayırd edə bilmirsiniz.

Hər kəsin bu problemi necə həll edəcəyi ilə bağlı təcrübəsi və ya fikri varmı?


Əvvəlcə biostar sualını vermənizi tövsiyə edərdim, çünki maraqlandığınız mövzu orada daha aktualdır.

Deyilənə görə, başqa bir seçiminiz var, o da adapterin (və ya polyA və ya hər hansı) çirklənməsini nəzərə almaq üçün oxuların 3' uclarını yumşaq bir şəkildə kəsən bir hizalayıcıdan istifadə etməkdir.

STAR belə bir hizalayıcıdır. Onların poçt siyahısı arxivlərində "klip" üçün axtarış aparsanız, sualınızla bağlı bir neçə yazı tapmalısınız.


Oasis 2: kiçik RNT seq məlumatlarının təkmilləşdirilmiş onlayn təhlili

Kiçik RNT molekulları bir çox bioloji proseslərdə mühüm rol oynayır və onların tənzimlənməməsi və ya disfunksiyası xəstəliyə səbəb ola bilər. Genom miqyasında sRNT ifadə profilinin yaradılması üçün cari seçim üsulu dərin ardıcıllıqdır.

Nəticələr

Burada dərin ardıcıllıq məlumatlarında kiçik RNT-lərin aşkarlanması, diferensial ifadəsi və təsnifatı üçün Oasis veb tətbiqinin yeni əsas buraxılışı olan Oasis 2-ni təqdim edirik. Sələfi Oasis ilə müqayisədə Oasis 2 daha yüksək dəqiqliklə istənilən orqanizmdə kiçik RNT-lərin identifikasiyasını dəstəkləyən yeni və sürəti optimallaşdırılmış sRNT aşkarlama moduluna malikdir. Hədəf orqanizmdə kiçik RNT-lərin təkmilləşdirilmiş aşkarlanması ilə yanaşı, proqram indi yoluxmuş nümunələrdə potensial növlər arası miRNA-ları və viral və bakterial sRNA-ları da tanıyır. Bundan əlavə, yeni miRNA-lar artıq 14 orqanizmdə 700-dən çox yüksək keyfiyyətli miRNA proqnozu üçün vacib məlumatları təmin edərək interaktiv şəkildə sorğulana və vizuallaşdırıla bilər. Güclü biomarker imzaları indi yeni təkmilləşdirilmiş təsnifat modulundan istifadə etməklə əldə edilə bilər.

Nəticələr

Oasis 2 bioloqlara və tibb tədqiqatçılarına interaktiv və istifadəçi dostu mühitdə təkmilləşdirilmiş dəqiqlik, geri çağırma və sürət ilə kiçik RNT-nin dərin ardıcıllığı məlumatlarını sürətlə təhlil etməyə və sorğulamağa imkan verir.

Mövcudluq və İcra

Oasis 2 Java, J2EE, mysql, Python, R, PHP və JavaScript dillərində həyata keçirilir. O, https://oasis.dzne.de saytında sərbəst mövcuddur


Kiçik RNAseq məlumatlarının təhlili ilə bağlı problemlər - Adapterlərin kəsilməsi - Biologiya

Hər kəs düzləşdirmədən əvvəl Illumina Kiçik RNT kitabxanasında hansı ardıcıllığı kəsməli olduğumu dəqiq bilirmi? Məndə aşağıdakıları göstərən Illumina Adapter məktubu var, lakin bunları göründüyü kimi daxil edib-etmədiyimə əmin deyiləm və ya ardıcıllığın əks tamamlayıcısını götürməliyəm:

TruSeq® Kiçik RNT Nümunə Hazırlama Dəstləri

(Ardıcıllıq moderator tərəfindən silindi)

Bu, həqiqətən Galaxy sualı deyil, lakin Illumina-nın bu köməyi kömək etməlidir. Bildiyim şey hələ də aktualdırsa, bu protokol ardıcıllığın hər iki ucunda artefaktla nəticələnə bilər (bu, oxunuşların nə qədər davam etməsindən asılıdır - konstruksiya düzgün yaradılıbsa, bunlar həmişə mövcuddur, lakin tam daxiletmə və indeks üstəgəl hər iki uc həmişə tam ardıcıllıqla deyil). Bu o deməkdir ki, əks kompliment yoxlanılmalıdır. https://support.illumina.com/sequencing/sequencing_kits/truseq-small-rna-kit/questions.html

Galaxy 101-dəki Illumina nəşrləri də bu texnologiyaların necə işlədiyini başa düşməyə kömək edə bilər:
https://wiki.galaxyproject.org/Learn/GalaxyNGS101#Overview_of_NGS_technologies

Qeyd olunanlar, FastQC həddindən artıq təmsil olunan ardıcıllıqları tapmaq üçün çox faydalı bir vasitə ola bilər. Cutadapt (yerli/bulud qalaktikasında istifadə üçün Alət Anbarında mövcuddur) silmək üçün məşhur vasitədir. Real kitabxana hazırlığı həmişə mükəmməl deyil və hər şeyin protokoldan gözlənildiyi kimi olduğuna inanmaq əvəzinə yoxlamaq daha yaxşıdır.

Illumina tarixən internetdə nəşr olunan xüsusi sekansları istəməyib. Əksinə, bunu birbaşa müştərilərlə paylaşmağa üstünlük verirlər. Bunlar hələ də müxtəlif forumlarda mövcuddur, lakin buna görə biz sadalanan ardıcıllığı silmək üçün yazınızı dəyişdirəcəyik.


Nəticələr

Doqquz kəsmə alqoritmini dörd müxtəlif verilənlər bazasında tətbiq etdik (bax: Materiallar və Metodlar). Bu məlumat dəstlərinin keyfiyyəti FastQC ilə qiymətləndirilmişdir (Q paylama planları üçün Fayl S1 və Şəkil S1-ə baxın) və orta PHRED səhv balı, GC məzmununun qərəzləri və mövqeyə xas keyfiyyət dəyişiklikləri kimi müxtəlif ölçülərlə ölçülmüşdür. Verilənlər dəstləri nəzərəçarpacaq dərəcədə dəyişir, Maya DNT-Seq verilənlər bazası üçün demək olar ki, mükəmməl keyfiyyət parametrlərinə malikdir və Lovell xam oxunuşları üçün müəyyən dərəcədə ortadan yüksəkdir (Şəkil S1). RNT-Seq verilənlər bazası ilə xarakterizə olunur Arabidopsis thaliana yüksək keyfiyyətli oxuma nümayəndəsi kimi oxuyur, içində olarkən Homo sapiens-məlumatlardan əldə edilmiş xəta ehtimalı həm yüksək, həm də oxunma uzunluğu boyunca çox dəyişkəndir.

Oxu Kəsmənin Gen İfadəsi Analizinə Təsirləri

Doqquz fərqli kəsmə alqoritminin performansını insan və Ərəbidopsis (materiallara və üsullara baxın). Müvafiq istinad genomları üzərində uyğunlaşan oxunmaların və nukleotidlərin sayını qiymətləndirdik və bu, birləşdirilmiş bölgələr üzərində oxunuşların boşluqlarını açmağa imkan verdi. Kəsmə prosesinin bütün hallarda oxunmaların sayını necə azaltdığı, eyni zamanda istinad genomu üzərində düzgün şəkildə uyğunlaşa bilən sağ qalan məlumat dəstinin faizini artırdığı aydındır. Aşağı keyfiyyət vəziyyətində Homo sapiens verilənlər bazası (Şəkil 1), kəsilməmiş verilənlər toplusunun oxunuşlarının 72,2%-i uyğunlaşdırıldığı halda, kəsilmişlər 90%-dən yuxarı dəyərlərə çatır, ConDeTri-də zirvələri 97,0% (HQ=15, LQ=10) və SolexaQA (Q=5) ilə 96,7% (Cədvəl 2). Bununla belə, SolexaQA ən çox oxunuşu saxlayaraq ən yüksək keyfiyyətə nail olur və buna görə də burada təhlil edilən kimi ən azı aşağı keyfiyyətli RNASeq məlumat dəstlərində oxunma itkisi və keyfiyyətin artması arasında uzlaşmanı artırmaq üçün optimal vasitə kimi görünür ( Şəkil 2). Bu verilənlər toplusu üçün biz oxunma itkisi ilə qalan oxunuşların keyfiyyəti arasında psevdo-optimal bir mübadilə müşahidə edə bilərik ki, bu da ümumi oxunma sayına uyğunlaşdırılmış oxunma sayı kimi ifadə edilir (Şəkil 1), bu da Q=20 və Q=30 arasındadır. SolexaQA-BWA, Trimmomatic, Sickle, Cutadapt və ERNE-FILTER. FASTX kimi digər trimmerlər yalnız 3 ucdan işləyə bildikləri üçün digər alətlərlə eyni performansa nail ola bilmirlər (Şəkil 2). Düzgün xəritələnmiş oxunuşların oxşar nisbətini (UCSC gen modelləri daxilində oxunanların xəritələşdirilməsinin faizi ilə təqribən qiymətləndirilir) saxlayarkən, məlumat itkisi kəsilməmiş verilənlər dəstləri ilə müqayisədə ardıcıldır (Şəkil S2).

ConDeTri üçün iki əsas parametr lazımdır və hər ikisinin kombinasiyası bildirilir (bu, barplotların monoton olmayan görünüşünü izah edir). Qırmızı çubuqlar kəsilmiş məlumat dəstində uyğunlaşdırılan oxunma faizini göstərir. Mavi çubuqlar kəsmə zamanı sağ qalan oxuların sayını göstərir.

RNASeqGenotipləşdirməGenom Assambleyası
Arabidopsis verilənlər toplusuİnsan məlumat dəstiMaya verilənlər toplusuŞaftalı məlumat dəstiMaya verilənlər toplusuŞaftalı məlumat dəsti
Maks. Xəritəli Oxumalar (ərəfəsində)Maks. Xəritəli Oxumalar (ərəfəsində)Defolt həddə APOMACDefolt həddə APOMACN50 (bp)DəqiqlikXatırlaN50 (bp)DəqiqlikXatırla
İşlənməmiş82.774%72.189%0.2367%0.2909%9,09599.196%92.734%18,09395.116%74.272%
ConDeTri98,980% (HQ=40,LQ=35)96,973% (HQ=15,LQ=10)0.0485%0.0851%4,83099.600%91.834%14,52596.389%75.090%
Kəsilmiş uyğunlaşma99,422% (Q=40)91,751% (Q=26)0.0647%0.1589%6,25699.692%92.874%17,65395.349%74.466%
ERNE-FİLTİR98,687% (Q=38)95,475% (Q=30)0.0638%0.1564%6,21499.691%92.863%17,66595.374%74.482%
FASTX98,733% (Q=40)87,733% (Q=40)0.0655%0.1614%6,35799.692%92.892%17,69295.399%74.510%
PRINSEQ98,752% (Q=40)88,616% (Q=40)0.0652%0.1599%6,35799.692%92.890%17,69095.345%74.465%
Oraq99,422% (Q=40)95,971% (Q=20)0.0547%0.1308%5,38299.446%92.194%17,07495.495%74.504%
SolexaQA99.002% (Q=40)96,743% (Q=5)0.0644%0.1581%3,20999.642%89.770%13,57196.223%74.490%
SolexaQA-BWA98,705% (Q=38)91,947% (Q=26)0.0409%0.0645%6,25699.692%92.875%17,66295.328%74.449%
Trimmomatik99,422% (Q=40)95,875% (Q=22)0.0511%0.1119%4,78499.579%91.851%16,14195.766%74.629%

Cədvəl 2. Bu işdə tədqiq edilən kəsmə alətləri arasında müqayisələrin xülasəsi.

Hər bir simvol keyfiyyət həddinə uyğundur. Hər bir alət üçün pik Q parametrləri bildirilir.

Maraqlıdır ki, ümumiyyətlə hər bir alət kəsilmiş oxunmaların keyfiyyətini artırmaq üçün müxtəlif optimal Q hədlərini (Şəkil 2 və Cədvəl 2) göstərir (bu halda istinad üzərində xəritəçəkmə oxunmalarının faizi ilə ifadə olunur). Həmçinin, hər bir alət Q və Xəritəçəkmə qabiliyyəti (istinad genomunda xəritələnmiş kəsmədən sonrakı oxunmaların faizi) arasında müxtəlif tendensiyaları göstərir: bəziləri üçün (SolexaQA və ConDeTri kimi) boş hədlər ən möhkəm çıxışa nail olmaq üçün kifayətdir. Digərləri (məsələn, FASTX və PRINSEQ kimi) üçün mümkün olan ən yüksək hədd keyfiyyət baxımından optimal həll kimi görünür (eyni zamanda oxunma itkisi ilə). Nəhayət, bəzi alətlər (Cutadapt, Sickle, SolexaQA-BWA və Trimmomatic kimi) istinad genomunda uyğunlaşdırıla bilən sağ qalan oxuların nisbi miqdarını maksimuma çatdıran ideal aralıq Q həddinə malikdir. Daha yüksək keyfiyyətli verilənlər toplusundan qaynaqlanan halda Arabidopsis thaliana, bütün alətlər müqayisə edilə bilən performansa malikdir və xəritələşmə qabiliyyəti ilə oxunma itkisi arasında mübadilə üçün aydın müəyyən edilə bilən ən yaxşı Q yoxdur. Xəritəçəkmə qabiliyyətinin 82,8%-lik kəsilməmiş baza səviyyəsindən başlayaraq, bütün alətlər sərt həddlərlə 98,5%-dən yuxarı xəritələnmə qabiliyyətinə çatır (Q>30, Cədvəl 2 və Cədvəl S1-ə baxın). Bununla belə, hər iki halda, kəsmə məlumat dəstinin daha aşağı həddə olan ən “xəritə edilə bilməyən” hissələrinə təsir edir və onları silir. Orijinal RNT-Seq oxunuşlarının kəsilmiş, lakin etibarlı alt dəstini daşımaq disk sahəsinə ehtiyacı və ümumi uyğunlaşdırma prosesi üçün lazım olan vaxtı azalda bilər, çünki yüksək xəta ardıcıllığı artıq aradan qaldırılmış olardı.

Oxu kəsilməsinin SNP identifikasiyasına təsiri

Kəsmənin SNP identifikasiyasına təsirini qiymətləndirmək üçün biz dihaploid genom nümunələrindən, xüsusən də Prunus persica Lovell müxtəlif və Saccharomyces cerevisiae YDJ25 gərginliyi. Belə genetik fonlarda hər hansı qeyri-homozigot nukleotid çağırışını yanlış müsbət SNP çağırışının birbaşa qiymətləndirilməsi kimi qiymətləndirmək mümkündür. Bunu etmək üçün biz Kiçik Allel Zənglərinin Orta Faizini APOMAC adlanan bir indeks kimi qiymətləndirdik. Eyni zamanda, biz APONAC-a istinad etməyən Allel Zənglərinin Orta Faizini ölçdük), baxmayaraq ki, sonuncu APOMAC-ın düzgün qiymətləndirilməməsidir, çünki o, ardıcıllıqlı fərddə istinad ardıcıllığı ilə eyni genoma malik olduğunu güman edir. Yanlış müsbət SNP çağırışı ilə əlaqəli və APOMAC indeksi ilə qiymətləndirilən ümumi qeyri-homozigot nukleotid varlığı - gözlənildiyi kimi - kəsmə yolu ilə azaldılır (Şəkil 3). Bütün trimmerlər istinad genomları üzərində düzülmüş alternativ allel nukleotidlərinin faizini kəskin şəkildə azaldır. Prunus persica (Şəkil 3) və mayada (Cədvəl 2 və Cədvəl S1), bu yanlış müsbət çağırış göstəricisini ümumi uyğunlaşdırılmış nukleotidlərin 30%-dən 10%-ə və ya daha azına gətirir. Bu olduqca möhtəşəm səs itkisi Q həddi 20-yə bərabər və ya ondan yuxarı olan istənilən trimmerlə əldə edilə bilər (Cədvəl S1). APOMAC və APONAC baxımından ən yaxşı fəaliyyət göstərən alətlər ConDeTri və SolexaQA-dır ki, bu da kiçik allel zənglərinin sayını tez bir zamanda azaldır. SNP çağırışının keyfiyyətini artırarkən, kəsmə ilə əlaqədar əhatə itkisi cüzidir: FASTX, SolexaQA-BWA, PRINSEQ, Cutadapt və ERNE-FILTER standart Q dəyərlərində hamısı əhatə olunmuş istinad genomunun nəzərəçarpacaq itkisi olmadan oxunuşları emal edir. Bu, müxtəlif minimum əhatə dairəsi hədləri ilə sınaqdan keçirilmiş və bildirilmişdir (Şəkil 4).

Bir neçə oxunmuş kəsmə metodu/ərəfəsində birləşmələr sınaqdan keçirilir. Kiçik Allel Çağırışlarının (APOMAC) və ya Qeyri-İstinad Alel Çağırışlarının (APONAC) Orta Faizləri yüksək etibarlı SNP-lərin ümumi sayı ilə birlikdə bildirilir.

Təhlil kəsilməmiş oxunuşlarda və Q=20-də 9 alətlə kəsildikdən sonra aparılmışdır (ConDeTri üçün standart HQ=25 və LQ=10 parametrləri istifadə edilmişdir).

Oxu kəsilməsinin de novo genom birləşməsinə təsiri

Oxunma kəsimi yalnız qismən genom yığım nəticələrinə təsir edir və müxtəlif məlumat dəstlərinin nəticələri arasında böyük fərq yoxdur (bax Şəkil 5 və Cədvəl 2). Əksər verilənlər toplusunda yüksək keyfiyyət dəyərləri (məsələn, Q>30) üçün mənfi təsirlər müşahidə olunur. ConDeTri, Trimmomatic, Sickle və xüsusilə SolexaQA-dan kəsilmiş məlumat dəstləri bir qədər daha parçalanmış birləşmələr istehsal edir və bu, ehtimal ki, daha aşağı hesablama ehtiyaclarını əks etdirən daha sərt kəsmə ilə bağlıdır (bax Şəkil 6). İstifadə olunan assembler, ABySS, ardıcıllıq xətalarını modelləşdirir və həll edir, buna görə də kəsilməmiş verilənlər toplusunun yığılması müəyyən ölçülərdə (orta iskele uzunluğu, ən uzun iskele, bp-də N50) ən yaxşı nəticə verir, lakin bir qədər aşağı dəqiqlik və daha yüksək hesablama dəyəri hesabına tələb. Əksinə, sərt kəsmə məlumatların ciddi şəkildə silinməsinə və ümumi montaj keyfiyyətinin azalmasına səbəb olur.

Bir neçə oxunmuş kəsmə metodu/ərəfəsində birləşmələr sınaqdan keçirilir. Sarı çubuqlar N50-ni bildirir (kəsilməmiş məlumat dəsti N50 ilə müqayisədə). Mavi çubuqlar montajın düzgünlüyünü bildirir (istinadda düzülə bilən yığılmış nukleotidlərin %-i) Prunus persica genom). Qırmızı çubuqlar montajın geri çağırılmasını bildirir (istinadın %-i Prunus persica məclis tərəfindən əhatə olunan genom).

Oxuma kəsmənin ümumi effektləri

Burada tədqiq edilən üç hesablama biologiyası analizinin ümumi təhlili üç nəticə çıxarmağa imkan verir. Birincisi, kəsmə RNT-Seq, SNP identifikasiyası və genomun yığılması prosedurlarında faydalıdır, ən yaxşı effektlər aralıq keyfiyyət hədləri (20 ilə 30 arasında Q) üçün aydın olur. İkincisi, bütün alətlər özünü kifayət qədər yaxşı aparsa da (kəsilməmiş ssenarilərlə müqayisədə), bəzi xüsusi problemləri və ya aşağı ümumi keyfiyyəti (Şəkil 2) oxunun həm 5', həm də 3' uclarında işləyən ən son alqoritmlərdən daha çox faydalanır. ERNE-FILTER kimi və ya ConDeTri kimi yüksək keyfiyyətli uzanmalarla əhatə olunmuş aşağı keyfiyyətli adalara imkan verənlər. Üçüncüsü, optimal həddin seçimi həmişə saxlanılan məlumatın miqdarı (yəni, sağ qalan oxunuşların/nukleotidlərin sayı) ilə onun etibarlılığı, yəni RNT-Seq-də uyğunlaşdırıla bilən fraksiya, SNP-nin müəyyənləşdirilməsində həqiqi müsbət düzülmüş nukleotidlər və genom birləşməsində istinad genomunda düzgün yığılmış və xəritələşdirilə bilən skafoldların faizi. Bütövlükdə, kəsmə, bu işdə genom yığılması üçün qiymətləndirilmiş (Şəkil 6) istifadə edilən hesablama resursları və icra müddəti baxımından da üstünlük verir, lakin digər təhlillər üçün də aydındır (məlumatlar göstərilmir). Kəsmə performansı, giriş məlumat dəstinin Q paylanmasından asılı görünür. Məsələn, faktlarda təxminən 35 (Şəkil 3) Q kəsmə hədlərindən yuxarı olan SNP adlanan ani azalmanı müşahidə edirik, Q=35 təxminən Q paylanmasında əyilmə nöqtəsidir. Prunus persica verilənlər toplusu (Şəkil S1). Digər tərəfdən, daha yüksək keyfiyyət üçün Saccharomyces cerevisiae verilənlər bazasında SNP adlanan azalma həqiqətən mövcuddur, lakin daha tədricəndir və 36-dan yuxarı Q dəyərlərində müşahidə olunur, bu məlumat dəstləri üçün Q paylanması isə Q=37-də əyilmə nöqtəsini göstərir (Şəkil S1).


3. Daxil olan məlumatların formatlaşdırılması

ShortStack giriş fayllarının tələb olunan birləşmələri həyata keçirilən analizin növündən asılı olaraq dəyişir (şək. 1B). Aşağıda müxtəlif uyğun giriş faylları və verilənlər üçün formatlaşdırma tələbləri müzakirə olunur.

3.1 İstinad Genomu

Bütün ShortStack analizləri ShortStack-i işə salmaq üçün əmrdə sonuncu arqument kimi təqdim edilən istinad genomunu (Şəkil 1-də 𠆊’) tələb edir. İstinad genomu multi-FASTA formatında olmalıdır, hər bir ardıcıllıq fərdi xromosomu/iskeleni təmsil edir. Bir çox növdə çox olan təkrarla əlaqəli kiçik RNT-lərin kəşfini həqiqətən istisna etmək istəmirsinizsə, ümumiyyətlə genomun maskalanmamış versiyası istifadə edilməlidir. Bütün kiçik RNT istehsal edən lokusların hərtərəfli qeydinə/kəşfinə imkan vermək üçün həm orqanel, həm də nüvə genomlarını bir multi-FASTA faylına yığmağı tövsiyə edirik.

Xromosom adlarından hər hansı birinin başlıqlarında boşluq və/yaxud meta simvolları (məsələn, boru simvolları) varsa, ShortStack dayandırılacaq və ya gözlənilmədən davranacaq. Genom faylındakı orijinal başlıqlar uzun və mürəkkəbdirsə, bunlar sadələşdirilmiş, qısa versiyaya dəyişdirilməlidir. Məsələn, ilk iki sətri nəzərdən keçirsək Ərəbidopsis Phytozome [13]-dən birbaşa yükləmədə tapıldığı kimi 1-ci xromosom ardıcıllığı, çoxlu boşluqları olan uzun bir başlıq tapırıq:

Bunun əksinə olaraq, dərsliyimizdəki nümunə faylda (𠇊thaliana_167.fa”), xromosom adları sadə bir sətirə qısaldılmışdır:

3.2. Adapter ardıcıllığı(lar)ı

Əgər daxil edilmiş məlumatlar kəsilməmiş FASTA və ya FASTQ kiçik RNT seq oxunursa, ShortStack kəsmə zamanı axtarmaq üçün müvafiq 3 adapter ardıcıllığı(lar)ını tələb edir (Şəkil 1-də). Etibarlı adapter ardıcıllığı ən azı 8 simvoldan ibarətdir və bunların hamısı ya A, T, G və ya C olmalıdır. Adapter ardıcıllığı --adapter seçimi ilə ötürülür. Birdən çox kəsilməmiş kiçik RNT-seq faylı daxil edilirsə, uyğun adapterlərin vergüllə ayrılmış siyahısına keçməklə çoxsaylı adapterlərlə kəsmə mümkündür. Təqdim olunan adapterlərin sayı bir olmalıdır (bu halda o, bütün kəsilməmiş fayllara tətbiq edilir) və ya daxil edilməmiş faylların sayına bərabər olmalıdır.

3.3 Xam (işlənməmiş) kiçik RNT seq məlumatları

İşlənməmiş kiçik RNT seq məlumatları ya FASTA, ya da FASTQ formatında olmalıdır (Şəkil 1-də 𠆌’). Fayl(lar)a gedən yol(lar) FASTA və FASTQ məlumatları üçün müvafiq olaraq --untrimmedFA və ya --untrimmedFQ seçimi ilə təmin edilir. Məlumatlar heç bir şəkildə sıxlaşdırılmamalı və ya manipulyasiya edilməməlidir (məsələn, istifadəçilər eyni ardıcıllıqla oxunuşları bir girişə YAPMAmalıdırlar). Cütlənmiş kitabxanalar üçün dəstək yoxdur. Birdən çox fayl faylların vergüllə ayrılmış siyahısı kimi daxil edilə bilər. Məlumatda şərh xətlərinə icazə verilmir və etibarlı adapter(lər) də təqdim edilməlidir. Verilənlərin kiçik RNT-lərin hiss zəncirini təmsil etdiyi güman edilir, kiçik RNT-nin 5-ən çox bazası oxunan ilk mövqedə olur. ShortStack tərəfindən 3-adapterin kəsilməsi çox sadədir: Oxunanda göstərilən adapterin 3-ən çox rast gəlindiyini müəyyən edir, keyfiyyət dəyərlərindən asılı olmayaraq heç bir əvəzetməyə imkan verir. Adapterlərin kəsilməsinin daha mürəkkəb üsulları, oxunuşun kəsilməsi üçün ShortStack-ə etibar etməyə alternativ olaraq mövcuddur [14,15]. Hazırda rəng məkanı məlumatları dəstəklənmir, lakin biz bunu gələcək yeniləmələrdə tətbiq etməyi planlaşdırırıq.

3.4 Kəsilmiş kiçik RNT seq məlumatları

Adapterlə işlənmiş kiçik RNT seq məlumatları ya FASTA, ya da FASTQ formatında olmalıdır (Şəkil 1-də 𠆍’). Fayl(lar)a gedən yol(lar) FASTA və FASTQ məlumatları üçün müvafiq olaraq --trimmedFA və ya --trimmedFQ seçimi ilə təmin edilir. Adapterin kəsilməsi və ya yuxarı keyfiyyətə nəzarət prosesləri vasitəsilə oxunuşların çıxarılması istisna olmaqla, verilənlər heç bir şəkildə sıxlaşdırılmamalı və ya manipulyasiya edilməməlidir (məsələn, istifadəçilər eyni ardıcıllıqla oxunuşları bir girişə YAPMAmalıdırlar). Cütlənmiş kitabxanalar üçün dəstək yoxdur. Birdən çox fayl faylların vergüllə ayrılmış siyahısı kimi daxil edilə bilər. Məlumatlarda şərh sətirlərinə icazə verilmir. Məlumatların qalıq adapter əsasları və keyfiyyət dəyərləri olmayan kiçik RNT-lərin hiss zəncirini təmsil etdiyi güman edilir.

3.5 Düzəlişlər

İstinad uyğunlaşdırılmış kiçik RNT seq məlumatları BAM formatında təqdim edilməlidir (Şəkil 1-də 𠆎’). İstifadəçi tərəfindən təqdim edildikdə, fayl --bamfile seçimi ilə ötürülür. BAM Sequence Alignment/Map (SAM) formatının sıxılmış, ikili təsviridir [8]. SAM/BAM formatı ilə tanış olmayan istifadəçilər aşağıda təqdim olunan təfərrüatları başa düşmək üçün format spesifikasiyasına [16] müraciət etməlidirlər. ShortStack-in BAM uyğunlaşdırılması üçün çox xüsusi tələbləri var və doğrulama addımı zamanı hər qaçış zamanı bu tələbləri yoxlayır. Çox spesifik formatlaşdırma tələblərinə görə, istifadəçilərə başqa vasitələrlə BAM uyğunlaşdırmaları yaratmaq əvəzinə, ShortStack-dən istifadə edərək məlumatlarını uyğunlaşdırmaları çox tövsiyə olunur. Nəzərə alın ki, ShortStack-in 1.0.0-dan əvvəlki versiyaları üçün yaradılmış BAM düzülmələri ShortStack 1.0.0 və daha yüksək versiya ilə istifadə edildikdə etibarlı OLMAYACAQ. ShortStack üçün etibarlı BAM uyğunlaşdırılmasının xüsusi tələbləri aşağıdakılardır:

O, genomik koordinata görə çeşidlənməlidir (başlıqda @HD qeyd növü altında SO etiketi ilə göstərildiyi kimi)

O, ShortStack-ə təqdim edilən genomla uyğun olmalıdır (bu, başlıqda @SQ qeyd növləri altında SN başlıq teqlərində verilmiş xromosom adları ilə giriş genomu FASTA faylında mövcud olanlarla çarpaz istinad etməklə yoxlanılır)

Hizalanma xətləri fərdi ‘XX’ teqlərinə malik olmalıdır. Bu ShortStack-dən əldə edilən xüsusi etiket oxumaq üçün mümkün düzgün uyğunlaşdırmaların sayını verir.

Onun indeksi olmalıdır (samtools index əmri ilə yaradılmışdır) və ya ShortStack indeksi yaratmağa çalışacaq və indeksin qurulması uğursuz olarsa dayandırılacaq.

Xəritəli oxunuşlar üçün düzülmə xətləri SAM format spesifikasiyasına uyğun olaraq etibarlı Kompakt İdiosinkratik Boşluqlu Alignment Hesabatı (CIGAR) sətirlərinə malik olmalıdır.

Oxuma qrupları üçün dəstək yalnız BAM başlığında ID teqləri ilə @RG qeyd növləri altında düzgün göstərildiyi halda təmin edilir.

Ehtimal olunur ki, hər bir oxunuşda yalnız bir hesabat düzülüşü var ki, bu da potensial çox xəritəçəkmə halında təsadüfi olaraq seçilib. ShortStack-in bunu yoxlamaq üçün heç bir yolu yoxdur (yuxarıda bax XX etiketini axtarmaq istisna olmaqla), lakin bu fərziyyə yerinə yetirilmədikdə nəticələr etibarlı olmayacaq.

Xəritəsiz oxunuşlara icazə verilir (və düzləşdirmələr ShortStack tərəfindən yaradıldıqda mövcuddur), lakin təhlil zamanı nəzərə alınmır.

3.6 Tərs təkrarlar

EMBOSS paketindən çevrilmiş proqram (Cədvəl 1) istinad genomundan uyğun tərs təkrarların faylını yaratmaq üçün istifadə olunur (Şəkil 1-də 𠆏’). Təqdim edildikdə, fayl --inv_file seçimi ilə ötürülür. Tələb olunan format einverted tərəfindən verilən mətn əsaslı hizalamalardır. Dərslikdə təqdim olunan 𠆊thaliana_167.inv’ faylı bu formatın nümunəsini təqdim edir.

einverted çıxış ShortStack üçün tələb deyil, lakin xüsusilə çox böyük saç sancaqları üçün saç sancağı ilə əlaqəli kiçik RNT lokuslarını aşkar etmək üçün ShortStack-in həssaslığını artırır. einverted adətən bütün genomlara tətbiq edildikdə çox böyük miqdarda yaddaş sərf edir. Einverted analiz üçün hər dəfə bir xromosom çağırmaq üçün sarğı skriptindən istifadə etmək və sonra çıxışları birləşdirmək bu prosesin yaddaş izini əhəmiyyətli dərəcədə azaldır. Bundan əlavə, çevrilmiş istehsal strukturlarının çoxu ShortStack-in standart saç tıxacı meyarlarına cavab verməyəcək, ona görə də onları filtrləmək faydalıdır. ShortStack dərsliyi [12] ilə təmin edilmiş “invert_it.pl” sarğı skripti (Cədvəl 2) bütün bunları həyata keçirə bilər. Aşağıda invert_it.pl sarğı skriptini çağıran bir nümunədir Ərəbidopsis Dərslik məlumatlarında verilmiş genom. Qeyd edək ki, ters çevrilmiş təkrarların tamamlanmış dəsti də təlimat məlumatlarının endirilməsi ilə təmin olunub (Cədvəl 2).

3.6.1 invert_it.pl üçün parametrlər

invert_it.pl skripti (bölmə 3.6) təkrarların çevrilmiş əsaslı identifikasiyasını yerinə yetirmək üçün aşağıdakı parametrləri qəbul edir:

-g : FASTA formatlı istinad genomuna gedən yol

-o : Çıxış .inv faylının adı (iş qovluğunda yaradılacaq, eyni adlı mövcud fayl xəbərdarlıq edilmədən üzərinə yazılacaq).

-p : Ters təkrarı saxlamaq üçün tələb olunan potensial baza cütlərinin minimum sayı. İstifadəçi tərəfindən göstərilmədiyi təqdirdə defolt 15-dir.

-f : Ters təkrarı saxlamaq üçün qoşalaşdırılmalı olan kök əsaslarının minimum hissəsi. İstifadəçi tərəfindən müəyyən edilmədikdə, defolt 0.67-dir.

3.6.2 Qeydlər

Einverted çox yaddaş tutduğundan, bu addımı çox yaddaşa malik maşında yerinə yetirmək ehtiyatlıdır. Hətta çox kiçik üçün Ərəbidopsis yuxarıdakı nümunədə təhlil edilən genomda təxminən 2.6G yaddaş istifadəsinin pik həddi müşahidə edildi (Mac OS 10.6.8, Dual dördnüvəli Xeon prosessorları).

3.7 Müəyyən edilmiş kiçik RNT lokusları

Müəyyən edilmiş genomik lokusların siyahılarını ehtiva edən fayllar (Şəkil 1-də ‘G’ və ‘H’) tab ilə ayrılmış mətn fayllarıdır. Şərh xətləri (“#” ilə başlayan) nəzərə alınmır. Birinci sütun Xromosom:Start-Stop formatında genomik yeri verir, burada ‘Xromosom’ genomdan istinad ardıcıllığının adıdır və başlanğıc və dayanma bir əsaslı inklüziv koordinatlardır. İkinci sütun xüsusiyyət üçün ad verir. Hər hansı əlavə sütunlar, əgər varsa, nəzərə alınmır.

Bu fayllar iki fərqli şəkildə istifadə edilə bilər. --flag_file seçimi altında qəbul edildikdə, ShortStack müəyyən edilmiş fayldakı yerlər və işləmə zamanı aşkar etdiyi/təhlil etdiyi kiçik RNT lokusları arasında hər hansı mövqe üst-üstə düşməsi barədə məlumat verəcəkdir. --count seçimi altında qəbul edildikdə, ShortStack-ə qarşısını almaq göstərişi verilir de novo kiçik RNT genlərinin annotasiyası və bunun əvəzinə sadəcə olaraq əvvəlcədən müəyyən edilmiş lokuslardan kiçik RNT ifadəsini ölçün və təsvir edin.

Rahatlıq üçün əvvəlki ShortStack əməliyyatının çıxışı (Şəkil 1-də ‘H’) sonrakı dövrlərdə müəyyən edilmiş kiçik RNT lokuslarının faylı kimi istifadə üçün uyğundur.


NƏTİCƏLƏR

SEQC layihəsində yaradılan RNT-seq məlumatlarından istifadə edərək, biz oxu xəritəsindən əvvəl yerinə yetirilən oxunuşun kəsilməsini baza səviyyəsində, oxu səviyyəsində və gen səviyyəsində oxuma xəritələşdirilməsi zamanı həyata keçirilən yumşaq kəsmə ilə müqayisə etdik. Oxunma kəsilməsinin gen ifadəsinin kəmiyyətinin dəqiqliyinə təsirini qiymətləndirmək üçün 949 gen üçün yaradılan RT-PCR məlumatlarından istifadə etdik.

Baza səviyyəli müqayisə

Hər bir kitabxanaya daxil olan bütün oxunmuş əsasların 2,3-4,6%-nin kəsildiyini və Trimmomatic-in TrimGalore-dan iki dəfə çox baza çıxardığını aşkar etdik (Əlavə Cədvəl S1). Kəsmə tətbiq edildikdə, uğurla xəritələnmiş əsasların ümumi sayı 1,3-4,0% azaldı (Cədvəl 1). Subreadın oxu trimmerləri tərəfindən kəsilmiş əsasların 18-29%-ni yumşaq bir şəkildə kəsdiyi aşkar edilmişdir ki, bu da oxunmuş xəritələmə zamanı çoxlu sayda kəsilmiş əsasların xilas edildiyini göstərir. Subread və trimmer tərəfindən ümumi çıxarılan əsasların 10-27%-i adapter ardıcıllığı, qalanları isə aşağı keyfiyyətli əsaslardır (Əlavə Cədvəl S1). Subread, Trimmomatic tərəfindən bildirilən və silinən demək olar ki, bütün adapter ardıcıllıqlarını (94%) yumşaq şəkildə kəsə bildi (Əlavə Cədvəl S2). TrimGalore, Trimmomatic-dən təxminən altı dəfə daha çox adapter ardıcıllığını bildirdi, lakin TrimGalore, çox güman ki, adapter çağırışında yüksək yanlış müsbət nisbətə sahib olacaq, çünki onun adlandırdığı bir çox adapter ardıcıllığı çox qısadır. Buna baxmayaraq, TrimGalore tərəfindən bildirilən adapter ardıcıllığının ~30%-i Subread tərəfindən yumşaq şəkildə kəsilmişdir. Birlikdə, Subread-in xam oxunuşlardan adapter ardıcıllığını effektiv şəkildə çıxara bildiyi və əks halda oxu trimmerləri tərəfindən silinəcək nisbətən aşağı ardıcıllıq keyfiyyətlərinə malik bir çox bazaları xilas edə bildiyi aşkar edildi. Bu, uğurla xəritələşdirilmiş oxu bazalarının sayında qeyri-trivial artıma səbəb oldu.

Xəritəçəkmədən əvvəl oxunmuş kəsmə ilə və ya olmayan oxunmuş əsasların faizləri

Metod. UHRR (%) . HBRR (%) .
Kəsmə + Subread yoxdur 86.4 85.5
Trimmomatic-adapterlər və SW + Subread 82.4 81.7
Trimmomatic-adapterlər və MI + Subread 83.2 82.3
TrimGalore + Subread 85.1 84.2
Metod. UHRR (%) . HBRR (%) .
Kəsmə + Subread yoxdur 86.4 85.5
Trimmomatic-adapterlər və SW + Subread 82.4 81.7
Trimmomatic-adapterlər və MI + Subread 83.2 82.3
TrimGalore + Subread 85.1 84.2

Subread kəsilməmiş və ya kəsilmiş oxuların xəritələşdirilməsi üçün istifadə edilmişdir.

Xəritəçəkmədən əvvəl oxunmuş kəsmə ilə və ya olmayan oxunmuş əsasların faizləri

Metod. UHRR (%) . HBRR (%) .
Kəsmə + Subread yoxdur 86.4 85.5
Trimmomatic-adapterlər və SW + Subread 82.4 81.7
Trimmomatic-adapterlər və MI + Subread 83.2 82.3
TrimGalore + Subread 85.1 84.2
Metod. UHRR (%) . HBRR (%) .
Kəsmə + Subread yoxdur 86.4 85.5
Trimmomatic-adapterlər və SW + Subread 82.4 81.7
Trimmomatic-adapterlər və MI + Subread 83.2 82.3
TrimGalore + Subread 85.1 84.2

Subread kəsilməmiş və ya kəsilmiş oxuların xəritələşdirilməsi üçün istifadə edilmişdir.

Oxuma səviyyəsinin müqayisəsi

Daha sonra oxunmuş kəsmənin oxu xəritələşdirmə nəticələrinə təsirini araşdırdıq. Oxunun kəsilməsi oxunmanın xəritələşmə yerində cüzi dəyişikliyə səbəb ola bilər və ya oxunmanın eyni genin fərqli ekzonu ilə əlaqələndirilməsinə səbəb ola bilər, lakin bu, normal olaraq genin ifadəsinin kəmiyyətini dəyişməz, çünki oxunuş hələ də eyni genlə üst-üstə düşür. . Buna görə də oxunuşun kəsilməsi yalnız onun xəritələşmə yerində <100 bp dəyişməsi ilə nəticələnirsə və ya eyni gendən olan alternativ ekzona oxunmuş xəritəçəkmə ilə nəticələnirsə, biz oxunu uyğun şəkildə xəritələnmiş oxu adlandırırıq. TrimGalore kəsilmiş oxunuşların və kəsilməmiş oxunuşların xəritələşdirilməsini müqayisə edərkən oxunanların >98%-nin uyğun şəkildə xəritələndiyini aşkar etdik (Əlavə Cədvəl S3). Trimmomatik kəsilmiş oxunuşlar və kəsilməmiş oxunuşlar arasında Xəritəçəkmə uyğunluğu ~97% təşkil etmişdir. Müxtəlif trimmerlər tərəfindən kəsilmiş oxunuşlar arasında xəritəçəkmə uyğunluğu da ~97% olduğu aşkar edilmişdir. Xəritəçəkmə təhlili göstərir ki, oxunmuş kəsmə yalnız kitabxanada oxunanların çox kiçik bir hissəsinin xəritələşdirilməsinə təsir edir və kəsilmiş və kəsilməmiş oxunuşlar arasındakı xəritələşdirmə fərqi müxtəlif trimmerlər tərəfindən kəsilmiş oxunuşlar arasındakı xəritələşdirmə fərqinə bənzəyir.

Gen səviyyəsinin müqayisəsi

Nəhayət, oxunmuş kəsmənin RNT-seq məlumatlarında gen ifadəsinin kəmiyyətinə təsir edib-etmədiyini araşdırdıq. Həm kəsilmiş, həm də kəsilməmiş məlumatlar üçün biz FeatureCounts proqramından istifadə edərək hər bir genə təyin edilmiş xəritələşdirilmiş oxunmaların sayını hesabladıq (9). Oxunma sayları sonra jurnala çevrildi2-Hər gen üçün RPKM ifadə dəyərləri. SEQC RNA-seq müqayisəli tədqiqatı TaqMan RT-PCR texnikasından istifadə edərək ~1000 genin ifadəsini təsdiqlədi (18). Bu genlərdən 949-u RefSeq genləri ilə uyğunlaşdı və bu qiymətləndirməyə daxil edildi. Oxunma kəsilməsinin RNT seq məlumatlarında gen ifadəsinin kəmiyyətinin müəyyən edilməsi üçün faydalı olub olmadığını qiymətləndirmək üçün həqiqət kimi bu 949 genin RT-PCR ifadə dəyərlərindən istifadə etdik. Orijinal 100 bp cütləşdirilmiş SEQC məlumatlarına əlavə olaraq, biz həmçinin 100 bp cütləşdirilmiş SEQC məlumatından ilk oxunuşları (R1 oxunuşları) çıxararaq və sonra onları 50 bp uzunluğuna qədər kəsərək 50 bp tək uçlu SEQC məlumatı yaratdıq. İlk 50 əsas hər R1 oxunuşundan çıxarıldı ki, adapter əsasları və aşağı keyfiyyətli əsaslar (adətən Illumina oxunuşlarının 3' sonunda daha çox olur) saxlanıla bilsin ki, bu əsasların kəsilməsinin gen ifadəsinin kəmiyyətinə təsirini qiymətləndirək. .

Table 2 shows that performing read trimming before read mapping does not improve the correlation of gene expression values with true values. In fact, the correlation has a slight decrease when the reads were trimmed by TrimGalore or Trimmomatic ‘adapters and SW’ mode.

Correlation of trimmed and untrimmed RNA-seq data with the TaqMan RT-PCR data

. 100 bp PE . 50 bp SE .
Method . UHRR . HBRR . UHRR . HBRR .
No trimming + Subread 0.851 0.870 0.848 0.870
Trimmomatic–adapters and SW + Subread 0.850 0.870 0.848 0.869
Trimmomatic–adapters and MI + Subread 0.850 0.871 0.849 0.869
TrimGalore + Subread 0.850 0.870 0.849 0.869
. 100 bp PE . 50 bp SE .
Method . UHRR . HBRR . UHRR . HBRR .
No trimming + Subread 0.851 0.870 0.848 0.870
Trimmomatic–adapters and SW + Subread 0.850 0.870 0.848 0.869
Trimmomatic–adapters and MI + Subread 0.850 0.871 0.849 0.869
TrimGalore + Subread 0.850 0.870 0.849 0.869

Shown are the coefficients of Pearson correlation between log2 expression values of 949 genes measured by the TaqMan RT-PCR technique and their RNA-seq expression levels generated from using each method (log2-RPKM). ‘100 bp PE’ in the table denotes the 100 bp paired-end SEQC dataset. First reads (R1 reads) in this dataset were extracted and truncated to 50 bp long to generate the 50bp single-end dataset used here (‘50 bp SE’).

Correlation of trimmed and untrimmed RNA-seq data with the TaqMan RT-PCR data

. 100 bp PE . 50 bp SE .
Method . UHRR . HBRR . UHRR . HBRR .
No trimming + Subread 0.851 0.870 0.848 0.870
Trimmomatic–adapters and SW + Subread 0.850 0.870 0.848 0.869
Trimmomatic–adapters and MI + Subread 0.850 0.871 0.849 0.869
TrimGalore + Subread 0.850 0.870 0.849 0.869
. 100 bp PE . 50 bp SE .
Method . UHRR . HBRR . UHRR . HBRR .
No trimming + Subread 0.851 0.870 0.848 0.870
Trimmomatic–adapters and SW + Subread 0.850 0.870 0.848 0.869
Trimmomatic–adapters and MI + Subread 0.850 0.871 0.849 0.869
TrimGalore + Subread 0.850 0.870 0.849 0.869

Shown are the coefficients of Pearson correlation between log2 expression values of 949 genes measured by the TaqMan RT-PCR technique and their RNA-seq expression levels generated from using each method (log2-RPKM). ‘100 bp PE’ in the table denotes the 100 bp paired-end SEQC dataset. First reads (R1 reads) in this dataset were extracted and truncated to 50 bp long to generate the 50bp single-end dataset used here (‘50 bp SE’).

We have also generated simulation data to assess if read trimming is helpful for RNA-seq expression quantification. We generated three simulation RNA-seq datasets with different levels of adapter contamination. Sequencing errors were introduced to the simulation data based on the error profiles of the 100 bp paired-end SEQC data to make the simulation data as close to the real data as possible (see ‘Materials and Methods’ section for more details). We ran all the methods on the simulation data and computed the coefficients of Pearson correlation between log2-RPKM expression values of genes calculated from each method and the true log2-RPKM expression values of genes we generated in the simulation. In line with the evaluation results from the SEQC data, read trimming was also found to make no discernible difference in the quantification accuracy in the simulation ( Supplementary Table S4 ).

Taken together, our evaluation results from using both real data and simulation data clearly showed that using untrimmed reads to quantify expression levels of genes yielded comparable or slightly better quantification accuracy than using trimmed reads.

Running time and disk usage

Performing read trimming was found to result in a significant increase in data analysis time (Figure 1). The total running time for producing mapped reads was increased by more than an order of magnitude when using TrimGalore for trimming, compared to no trimming performed. Trimming by Trimmomatic increased the running time by nearly five times. Furthermore, the amount of disk storage required increased by ∼40% due to the need to store trimmed read data ( Supplementary Table S5 ). Read trimming has become a significant computational burden in the analysis of RNA-seq expression data.

Time cost of different methods running on a UHRR RNA-seq dataset that includes 15 million 100 bp read pairs. All software tools were run with eight CPU threads. Input data to trimming and mapping tools are in gzipped FASTQ format which is the standard format of data generated by Illumina sequencers.

Time cost of different methods running on a UHRR RNA-seq dataset that includes 15 million 100 bp read pairs. All software tools were run with eight CPU threads. Input data to trimming and mapping tools are in gzipped FASTQ format which is the standard format of data generated by Illumina sequencers.


Parts of a standard FastQC report

An example FastQC report can be downloaded.

A PDF of this tutorial is available for download.

Basic Statistics

Simple information about input FASTQ file: its name, type of quality score encoding, total number of reads, read length and GC content.

Per base sequence quality

A box-and-whisker plot showing aggregated quality score statistics at each position along all reads in the file. Note that the X-axis is not uniform, it starts out with bases 1-10 being reported individually, after that, it will bin bases across a window a certain number of positions wide. The number of base positions binned together depends on the length of the read for example, with 150bp reads the latter part of the plot will report aggregate statistics for 5bp windows. Shorter reads will have smaller windows and longer reads larger windows. The blue line is the mean quality score at each base position/window. A primer on sequencing quality scores has been prepared by Illumina. The red line within each yellow box represents the median quality score at that position/window. Yellow box is the inner-quartile range for 25 th to 75 th percentile. The upper and lower whiskers represent the 10 th and 90 th percentile scores.

What to look for: It is normal with all Illumina sequencers for the median quality score to start out lower over the first 5-7 bases and to then rise. The average quality score will steadily drop over the length of the read. With paired end reads the average quality scores for read 1 will almost always be higher than for read 2.

A good per base quality graph.

A bad per base quality graph.

Per sequence quality scores

A plot of the total number of reads vs the average quality score over full length of that read.

What to look for: The distribution of average read quality should be fairly tight in the upper range of the plot.

A good per sequence quality graph.

A bad per sequence quality graph.

Per base sequence content

This plot reports the percent of bases called for each of the four nucleotides at each position across all reads in the file. Again, the X-axis is non-uniform as described for Per base sequence quality.

What to look for: For whole genome shotgun DNA sequencing the proportion of each of the four bases should remain relatively constant over the length of the read with %A=%T and %G=%C. With most RNA-Seq library preparation protocols there is clear non-uniform distribution of bases for the first 10-15 nucleotides this is normal and expected depending on the type of library kit used (e.g. TruSeq RNA Library Preparation). RNA-Seq data showing this non-uniform base composition will always be classified as Failed by FastQC for this module even though the sequence is perfectly good.

DNA library per base content.

RNA library per base content.

Per sequence GC content

Plot of the number of reads vs. GC% per read. The displayed Theoretical Distribution assumes a uniform GC content for all reads.

What to look for: For whole genome shotgun sequencing the expectation is that the GC content of all reads should form a normal distribution with the peak of the curve at the mean GC content for the organism sequenced. If the observed distribution deviates too far from the theoretical, FastQC will call a Fail. There are many situations in which this may occur which are expected so the assignment can be ignored. For example, in RNA sequencing there may be a greater or lesser distribution of mean GC content among transcripts causing the observed plot to be wider or narrower than an idealized normal distribution. The plot below is from some very high quality RNA-Seq data yet FastQC still assigned a Warn flag to it because the observed distribution was narrower than the theoretical.

Per base N content

Percent of bases at each position or bin with no base call, i.e. &lsquoN&rsquo.

What to expect: You should never see any point where this curve rises noticeably above zero. If it does this indicates a problem occurred during the sequencing run. The example below is a case where an error caused the instrument to be unable to call a base for approximately 20% of the reads at position 29.

A bad per base N content graph.

Sequence Duplication Levels

Percentage of reads of a given sequence in the file which are present a given number of times in the file. (This is the blue line. The red line is more difficult to interpret.) There are generally two sources of duplicate reads: PCR duplication in which library fragments have been over represented due to biased PCR enrichment or truly over represented sequences such as very abundant transcripts in an RNA-Seq library. The former is a concern because PCR duplicates misrepresent the true proportion of sequences in your starting material. The latter is an expected case and not of concern because it does faithfully represent your input.

What to expect: For whole genome shotgun data it is expected that nearly 100% of your reads will be unique (appearing only 1 time in the sequence data). This indicates a highly diverse library that was not over sequenced. If the sequencing output is extremely deep (e.g. > 100X the size of your genome) you will start to see some sequence duplication this is inevitable as there are in theory only a finite number of completely unique sequence reads which can be obtained from any given input DNA sample.

When sequencing RNA there will be some very highly abundant transcripts and some lowly abundant. It is expected that duplicate reads will be observed for high abundance transcripts. The RNA-Seq data below was flagged as Failed by FastQC even though the duplication is expected in this case.

DNA library sequence duplication.

RNA library sequence duplication.

Overrepresented Sequences

List of sequences which appear more than expected in the file. Only the first 50bp are considered. A sequence is considered overrepresented if it accounts for &ge 0.1% of the total reads. Each overrepresented sequence is compared to a list of common contaminants to try to identify it.

What to expect: In DNA-Seq data no single sequence should be present at a high enough frequency to be listed, though it is not unusual to see a small percentage of adapter reads. For RNA-Seq data it is possible that there may be some transcripts that are so abundant that they register as overrepresented sequence.

Adapter Content

Cumulative plot of the fraction of reads where the sequence library adapter sequence is identified at the indicated base position. Only adapters specific to the library type are searched.

What to expect: Ideally Illumina sequence data should not have any adapter sequence present, however when using long read lengths it is possible that some of the library inserts are shorter than the read length resulting in read-through to the adapter at the 3&rsquo end of the read. This is more likely to occur with RNA-Seq libraries where the distribution of library insert sizes is more varied and likely to include some short inserts. The example below is for a high quality RNA-Seq library with a small percentage of the library having inserts smaller than 150bp.

Kmer Content

Measures the count of each short nucleotide of length k (default = 7) starting at each positon along the read. Any given Kmer should be evenly represented across the length of the read. A list of kmers which appear at specific positions with greater than expected frequency are reported. The positions for the six most biased kmers are plotted. This module can be very difficult to interpret. As with the sequence duplication module described above, RNA-seq libraries may have highly represented Kmers that are derived from highly expressed sequences. If you wish to learn more about this module please see the FastQC Kmer Content documentation. The example Kmer content graph below is from a high quality DNA-Seq library. The biased Kmers near the start of the read likely are due to slight, sequence dependent efficiency of DNA shearing or a result of random priming.


Umu, S. U. və b. A comprehensive profile of circulating RNAs in human serum. RNT Biol. 15, 242–250, https://doi.org/10.1080/15476286.2017.1403003 (2018).

Williams, Z. və b. Comprehensive profiling of circulating microRNA via small RNA sequencing of cDNA libraries reveals biomarker potential and limitations. Proc. Natl akad. Sci. ABŞ 110, 4255–4260, https://doi.org/10.1073/pnas.1214046110 (2013).

Freedman, J. E. və b. Diverse human extracellular RNAs are widely detected in human plasma. Nat. Kommun. 7, 11106, https://doi.org/10.1038/ncomms11106 (2016).

Yuan, T. və b. Plasma extracellular RNA profiles in healthy and cancer patients. Sci. Rep. 6, 19413, https://doi.org/10.1038/srep19413 (2016).

Kishikawa, T. və b. Circulating RNAs as new biomarkers for detecting pancreatic cancer. World J. Gastroenterol. 21, 8527–8540, https://doi.org/10.3748/wjg.v21.i28.8527 (2015).

Viereck, J. & Thum, T. Circulating Noncoding RNAs as Biomarkers of Cardiovascular Disease and Injury. Circ. Res. 120, 381–399, https://doi.org/10.1161/CIRCRESAHA.116.308434 (2017).

Kho, A. T. və b. Circulating MicroRNAs: Association with Lung Function in Asthma. PLoS One 11, e0157998, https://doi.org/10.1371/journal.pone.0157998 (2016).

Kowarsky, M. və b. Numerous uncharacterized and highly divergent microbes which colonize humans are revealed by circulating cell-free DNA. Proc. Natl akad. Sci. ABŞ 114, 9623–9628, https://doi.org/10.1073/pnas.1707009114 (2017).

Leung, R. K. & Wu, Y. K. Circulating microbial RNA and health. Sci. Rep. 5, 16814, https://doi.org/10.1038/srep16814 (2015).

Wu, X. və b. sRNAnalyzer-a flexible and customizable small RNA sequencing data analysis pipeline. Nuklein turşuları Res. 45, 12140–12151, https://doi.org/10.1093/nar/gkx999 (2017).

Rueda, A. və b. sRNAtoolbox: an integrated collection of small RNA research tools. Nuklein turşuları Res. 43, W467–473, https://doi.org/10.1093/nar/gkv555 (2015).

Pantano, L., Estivill, X. & Marti, E. A non-biased framework for the annotation and classification of the non-miRNA small RNA transcriptome. Bioinforma. 27, 3202–3203, https://doi.org/10.1093/bioinformatics/btr527 (2011).

Rahman, R. U. və b. Oasis 2: improved online analysis of small RNA-seq data. BMC Bioinforma. 19, 54, https://doi.org/10.1186/s12859-018-2047-z (2018).

Fehlmann, T. və b. Web-based NGS data analysis using miRMaster: a large-scale meta-analysis of human miRNAs. Nuklein turşuları Res. 45, 8731–8744, https://doi.org/10.1093/nar/gkx595 (2017).

Subramanian, S. L. və b. Integration of extracellular RNA profiling data using metadata, biomedical ontologies and Linked Data technologies. J. Extracell. Veziküllər 4, 27497, https://doi.org/10.3402/jev.v4.27497 (2015).

Dobin, A. və b. STAR: ultra sürətli universal RNT seq düzləşdirici. Bioinforma. 29, 15–21, https://doi.org/10.1093/bioinformatics/bts635 (2013).

Altschul, S. F., Gish, W., Miller, W., Myers, E. W. & Lipman, D. J. Basic local alignment search tool. J. Mol. Biol. 215, 403–410, https://doi.org/10.1016/S0022-2836(05)80360-2 (1990).

Baran-Gale, J. və b. Addressing Bias in Small RNA Library Preparation for Sequencing: A New Protocol Recovers MicroRNAs that Evade Capture by Current Methods. Ön. Genet. 6, 352, https://doi.org/10.3389/fgene.2015.00352 (2015).

Rubio, M. və b. Circulating miRNAs, isomiRs and small RNA clusters in human plasma and breast milk. PLoS One 13, e0193527, https://doi.org/10.1371/journal.pone.0193527 (2018).

Kozomara, A. & Griffiths-Jones, S. miRBase: integrating microRNA annotation and deep-sequencing data. Nuklein turşuları Res. 39, D152–157, https://doi.org/10.1093/nar/gkq1027 (2011).

Sai Lakshmi, S. & Agrawal, S. piRNABank: a web resource on classified and clustered Piwi-interacting RNAs. Nuklein turşuları Res. 36, D173–177, https://doi.org/10.1093/nar/gkm696 (2008).

Zhang, P. və b. piRBase: a web resource assisting piRNA functional study. Verilənlər bazası 2014, bau110, https://doi.org/10.1093/database/bau110 (2014).

Rosenkranz, D. piRNA cluster database: a web resource for piRNA producing loci. Nuklein turşuları Res. 44, D223–230, https://doi.org/10.1093/nar/gkv1265 (2016).

Chan, P. P. & Lowe, T. M. GtRNAdb 2.0: an expanded database of transfer RNA genes identified in complete and draft genomes. Nuklein turşuları Res. 44, D184–189, https://doi.org/10.1093/nar/gkv1309 (2016).

Harrow, J. və b. GENCODE: ENCODE Layihəsi üçün istinad insan genomu annotasiyası. Genom Res. 22, 1760–1774, https://doi.org/10.1101/gr.135350.111 (2012).

Glazar, P., Papavasileiou, P. & Rajewsky, N. circBase: a database for circular RNAs. RNT 20, 1666–1670, https://doi.org/10.1261/rna.043687.113 (2014).

Coordinators, N. R. Database resources of the National Center for Biotechnology Information. Nuklein turşuları Res. 41, D8–D20, https://doi.org/10.1093/nar/gks1189 (2013).

Li, M. və b. Robust and rapid algorithms facilitate large-scale whole genome sequencing downstream analysis in an integrative framework. Nuklein turşuları Res. 45, e75, https://doi.org/10.1093/nar/gkx019 (2017).

Ishikawa, T., Haino, A., Seki, M., Terada, H. & Nashimoto, M. The Y4-RNA fragment, a potential diagnostic marker, exists in saliva. Noncoding RNA Res. 2, 122–128, https://doi.org/10.1016/j.ncrna.2017.07.002 (2017).

Lowe, T. M. & Chan, P. P. tRNAscan-SE On-line: integrating search and context for analysis of transfer RNA genes. Nuklein turşuları Res. 44, W54–57, https://doi.org/10.1093/nar/gkw413 (2016).

Zhang, X. O. və b. Diverse alternative back-splicing and alternative splicing landscape of circular RNAs. Genom Res. 26, 1277–1287, https://doi.org/10.1101/gr.202895.115 (2016).

Liao, J. və b. Small nucleolar RNA signatures as biomarkers for non-small-cell lung cancer. Mol. Xərçəng 9, 198, https://doi.org/10.1186/1476-4598-9-198 (2010).

Wu, L. və b. Clinical significance of C/D box small nucleolar RNA U76 as an oncogene and a prognostic biomarker in hepatocellular carcinoma. Clin. Res. Hepatol. Qastroenterol. 42, 82–91, https://doi.org/10.1016/j.clinre.2017.04.018 (2018).

Seco-Cervera, M. və b. Small RNA-seq analysis of circulating miRNAs to identify phenotypic variability in Friedreich’s ataxia patients. Sci. Data 5, 180021, https://doi.org/10.1038/sdata.2018.21 (2018).


This study was funded by 𠇎LIXIR-GR: The Greek Research Infrastructure for Data Management and Analysis in Life Sciences” (MIS 5002780) which is implemented under the Action “Reinforcement of the Research and Innovation Infrastructure”, funded by the Operational Programme 𠇌ompetitiveness, Entrepreneurship and Innovation” (NSRF 2014-2020) and co-financed by Greece and the European Union (European Regional Development Fund) and by the �ll of interest for postdoctoral researchers, scholarship for postdoctoral research” of University of Thessaly that is implemented by University of Thessaly and funded by the “Stavros Niarchos Foundation”. The article processing charge was funded by 𠇎LIXIR-GR: The Greek Research Infrastructure for Data Management and Analysis in Life Sciences” (MIS 5002780).

Patient consent was waived due to sample data analysed being already publicly available by the corresponding studies.


Materiallar və metodlar

TMM normalization details

A trimmed mean is the average after removing the upper and lower x% of the data. The TMM procedure is doubly trimmed, by log-fold-changes (sample k relative to sample r for gene g) and by absolute intensity (A g). By default, we trim the M gvalues by 30% and the A gvalues by 5%, but these settings can be tailored to a given experiment. The software also allows the user to set a lower bound on the A value, for instances such as the Cloonan və b. dataset (Figure S1 in Additional file 1). After trimming, we take a weighted mean of M g, with weights as the inverse of the approximate asymptotic variances (calculated using the delta method [24]). Specifically, the normalization factor for sample k using reference sample r kimi hesablanır:

The cases where Y gk= 0 or Y gr= 0 are trimmed in advance of this calculation since log-fold-changes cannot be calculated G* represents the set of genes with valid M gA gvalues and not trimmed, using the percentages above. It should be clear that .

As Figure 2a indicates, the variances of the M values at higher total count are lower. Within a library, the vector of counts is multinomial distributed and any individual gene is binomial distributed with a given library size and proportion. Using the delta method, one can calculate an approximate variance for the M g, as is commonly done with log relative risk, and the inverse of these is used to weight the average.

We compared the weighted with the unweighted trimmed mean as well as an alternative robust estimator (robust linear model) over a range of simulation parameters, as shown in Figure S4 in Additional file 1.

Housekeeping genes

Human housekeeping genes, as described in [16], were downloaded from [25] and matched to the Ensembl gene identifiers using the Bioconductor [26] biomaRt package [27]. Similarly, mouse housekeeping genes were taken to be the approximately 500 genes with lowest coefficient of variation, as calculated by de Jonge və b. [17].

Statistical testing

For a two-library comparison, we use the sage.test function from the CRAN statmod package [28] to calculate a Fisher exact P-value for each gene. To apply TMM normalization, we replace the original library sizes with 'effective' library sizes. For two libraries, the effective library sizes are calculated by multiplying/dividing the square root of the estimated normalization factor with the original library size.

For comparisons with technical replicates, we followed the analysis procedure used in the Marioni və b. study [6]. Briefly, it is assumed that the counts mapping to a gene are Poisson-distributed, according to:

where represents the fraction of total reads for gene g in experimental condition z k. Their analysis utilizes an offset to account for the library size and a likelihood ratio (LR) statistic to test for differences in expression between libraries (that is, H0:μg1 = μg2). In order to use TMM normalization, we augment the original offset with the estimated normalization factor. The same LR testing framework is then used to calculate P-values for DE between tissues. We modified this analysis to use an exact Poisson test for testing the difference between two replicated groups. The strategy is similar in principle to the Fisher's exact test: conditioning on the total count, we calculated the probability of observing group counts as or more extreme than what we actually observed. The total and group total counts are all Poisson distributed.

We re-implemented the method from Cloonan və b. [12] for the analysis of simulated data using a custom R [29] script.

Simulation details

The simulation is set up to sample a dataset from a given empirical distribution of read counts (that is, from a distribution of observed Y g). The mean is calculated from the sampled read counts divided by the sum S kand multiplied by a specified library size N k(according to the model). The simulated data are then randomly sampled from a Poisson distribution, given the mean. We have parameters specifying the number of genes common to both libraries and the number of genes unique to each sample. Additional parameters specify the amount, direction and magnitude of DE as well as the depth of sequencing (that is, range of total numbers of reads). Since we have inserted known differentially expressed genes, we can rank genes according to various statistics and plot the number of false discoveries as a function of the ranking. Table S1 in Additional file 1 gives the parameter settings used for the simulations presented in Figures 2 and 3.

Proqram təminatı

Software implementing our method was released within the edgeR package [30] in version 2.5 of Bioconductor [26] and is available from [31]. Scripts and data for our analyses, including the simulation framework, have been made available from [32].


Videoya baxın: Differential Expression Analysis (Iyul 2022).


Şərhlər:

  1. Gwefl

    BURADA ARAYIŞ DEYİL

  2. Codell

    Sayta getməyi məsləhət görürəm, burada sizi maraqlandıran mövzu haqqında çox məlumat var.

  3. Kealy

    Səhv etdiyinizə inanıram.

  4. Chaunce

    Bağışlayın, amma başqasına ehtiyacım var. Bu başqa nə təklif edə bilər?



Mesaj yazmaq