Məlumat

Xərçəng üçün GATK iş axını

Xərçəng üçün GATK iş axını


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mən bioinformatika vasitələrindən istifadə etməyi yenicə öyrənməyə başlayıram. Universitetimin məhdud və bahalı bioinformatika komandası var, ona görə də böyük suallar istisna olmaqla, əsasən təkbaşınayam.

Mən analiz üçün VCF və MAF formatının çıxışı ilə boru kəməri vasitəsilə FASTQ və ya BAM fayl formatından 58 xərçəng nəzarəti/normal cüt Exome ardıcıllıq məlumatlarını (Illumina) çalıştırmaq üçün GATK-dan istifadə etməyi planlaşdırıram.

Mövcud GATK boru kəməri xərçəng üçün deyil, xəstəlik üçün istifadə olunur, buna görə də kimsə xərçəng üçün dəyişikliklərin olub-olmadığını bilirmi deyə maraqlandım. BAM faylları ilə başlayan cari boru kəməri budur:

  • (Qeyri-GATK) Picard Mark Dublikatları və ya Samtools toplanması
  • Indel Realigner (Realigner TargetCreator + Indel Realigner)
  • Əsas Keyfiyyət Hesabının Yenidən Kalibrasiyası (Baza Yenidən Kalibrator + Çap Oxunmaları)
  • HaplotypeCaller
  • VQSR (SNP və INDEL rejimində VariantRecalibrator və ApplyRecalibrator)
  • Oncotator istifadə edərək annotasiya (?)

Bu boru kəmərinin nümunələrimi MuTect, MutSig və ya başqa bir analiz proqramında işə salmaq üçün lazım olanı çıxaracağını yoxlamaq istərdim. Mən hər hansı məsləhəti yüksək qiymətləndirirəm.


MuTect2 yenicə GATK 3.5-in bir hissəsi kimi beta versiyaya buraxıldı. O, HaplotypeCaller-a əsaslanır, lakin somatik SNV və INDEL zəngləri edir. Siz MuTect2 haqqında daha çox məlumatı GATK bloqunda tapa və forumda əlavə suallar verə bilərsiniz.

Qeyd olaraq: Mutect2 ilə IndelQualityRecalibration tələb olunmur və somatik zənglər üçün VQSR mövcud deyil.

MarkDuplicates -> BQSR -> Mutect2 -> Oncotator somatik variant zəngləri üçün yaxşı əsas iş axınıdır.


Bu yazı MuTec-in giriş kimi tələb etdiyi şeylərdən bəhs edir. dublikatları işarələyin və onu giriş kimi istifadə etmək üçün yəqin ki, bam faylı üzərində indel yenidən hizalanması aparılmalı olacaq. BQSR isteğe bağlıdır və keyfiyyəti çox dəyişmir. HaplotypeCaller somatik deyil, germline zəngi üçün istifadə olunur.

Əlavə bioinformatika suallarınız varsa, biostars və ya GATK forumlarında daha tez cavab tapa bilərsiniz.


RNT-seq genomik və transkriptomik məlumatları siqnal yollarının mexaniki modellərinə inteqrasiya etmək üçün çox yönlü iş axını

Əlaqələr Klinik Bioinformatika Bölgəsi, Fundación Progreso y Salud (FPS), Virgen del Rocío Xəstəxanası, Sevilla, İspaniya, Departamento de Biología Celular, Fisiología e Inmmunología, Universidad de Córdoba, Córdoba de Investigation (İspaniya, İnvestisiya İnstitutu) Córdoba, İspaniya, Hospital Universitario Reina Sofia, Córdoba, İspaniya

Əlaqələr Klinik Bioinformatika Bölgəsi, Fundación Progreso y Salud (FPS), Virgen del Rocío Xəstəxanası, Sevilla, İspaniya, Hesablama Sistemləri Tibb, Sevilya Biotibb İnstitutu (IBIS), Sevilla, İspaniya

Rolların Metodologiyası, Proqram təminatı

Əlaqələr Klinik Bioinformatika Bölgəsi, Fundación Progreso y Salud (FPS), Virgen del Rocío Xəstəxanası, Sevilla, İspaniya, Hesablama Sistemləri Tibb, Sevilya Biotibb İnstitutu (IBIS), Sevilla, İspaniya

Rolların Konseptuallaşdırılması, Metodologiya

Əlaqələr Klinik Bioinformatika Bölgəsi, Fundación Progreso y Salud (FPS), Virgen del Rocío Xəstəxanası, Sevilla, İspaniya, Hesablama Sistemləri Tibb, Sevilya Biotibb İnstitutu (IBIS), Sevilla, İspaniya, Centro de Investigación Biomédica en Red de Enferras (Red de Enferras) ), FPS, Virgen del Rocío Xəstəxanası, Sevilla, İspaniya

Əlaqələr Departamento de Biología Celular, Fisiología e Inmmunología, Universidad de Córdoba, Córdoba, İspaniya, Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC), Córdoba, İspaniya, Hospital Sointarioin, Spainar, Hospital Universiaf

Rolların Konseptuallaşdırılması, Nəzarət

Əlaqələr Departamento de Biología Celular, Fisiología e Inmmunología, Universidad de Córdoba, Córdoba, İspaniya, Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC), Córdoba, İspaniya, Hospital Sointarioin, Spainar, Hospital Universiaf

Rolların Konseptuallaşdırılması, Maliyyələşdirmənin əldə edilməsi, Araşdırma, Nəzarət, Yazı – orijinal layihə, Yazı – nəzərdən keçirmə və redaktə

Əlaqələr Klinik Bioinformatika Bölgəsi, Fundación Progreso y Salud (FPS), Virgen del Rocío Xəstəxanası, Sevilla, İspaniya, Hesablama Sistemləri Tibb, Sevilya Biotibb İnstitutu (IBIS), Sevilla, İspaniya, Centro de Investigación Biomédica en Red de Enferras (Red de Enferras) ), FPS, Virgen del Rocío Xəstəxanası, Sevilla, İspaniya, FPS/ELIXIR-es, Virgen del Rocío Xəstəxanası, Sevilla, İspaniya


GATK birgə genotipləmə iş axını RNT-seq təcrübələrində variantlar çağırmaq üçün uyğundur

Genom Analizi Alətlər dəsti (GATK) növbəti nəsil ardıcıllıq məlumatlarından variantların aşkarlanması və genotiplənməsi üçün populyar proqramlar toplusudur. RNT ardıcıllığı (RNA-seq) üçün hazırkı GATK tövsiyəsi fərdi nümunələrdən variant çağırışını yerinə yetirməkdir, çatışmazlıq yalnız dəyişən mövqelərin bildirilməsidir. GATK-nın 3.0 və yuxarı versiyaları Genomik Variant Zəng Formatında (GVCF) HaplotypeCaller alqoritmindən istifadə edərək nümunələrin kohortları üzrə DNT variantlarını çağırmaq imkanını təklif edir. Bu yanaşmadan istifadə edərək, variantlar hər bir nümunə üzrə fərdi olaraq çağırılır, genotip ehtimallarını və onların genom annotasiyalarını sadalayan hər nümunə üçün bir GVCF faylı yaradır. İkinci mərhələdə, variantlar birgə genotip analizi vasitəsilə GVCF fayllarından çağırılır. Bu strategiya ənənəvi birgə kəşf iş axını ilə müqayisədə daha çevikdir və hesablama problemlərini azaldır. RNT-seq məlumatlarında SNP-nin çıxarılması üçün GVCF iş axınından istifadə istinad alleli üçün homozigot genotiplərin, eləcə də çatışmayan məlumatların hesabatı daxil olmaqla əhəmiyyətli üstünlüklər təmin edir. 50 inəkdən təcrid olunmuş ilkin makrofaqlardan əldə edilən RNT-seq məlumatlarından istifadə edərək, Kənd Təsərrüfatı və Agri-Food Kanada tədqiqatçıları bu yanaşmanı sözdə “per” ilə müqayisə edərək RNT seq məlumatlarında variantları çağırmaq üçün GATK birgə genotipləşdirmə metodunu təsdiq etdilər. -nümunə” metodu. Bundan əlavə, ardıcıllıqla genotipləşdirmə və ya Sığır SNP50 Beadchip ilə genotiplənmiş eyni 50 inəyi əhatə edən bir tədqiqatdan DNT genotiplərindən istifadə etməklə onların müvafiq həssaslığını, dəqiqliyini və dəqiqliyini qiymətləndirmək üçün iki metodun cüt-cüt müqayisəsi aparıldı. iribuynuzlu heyvanlar üçün yüksək sıxlıq). Nəticələr göstərir ki, hər iki yanaşma istinad variantlarını aşkar etmək qabiliyyətinə görə çox yaxındır və birgə genotipləmə metodu hər bir nümunə metodundan daha həssasdır. Birgə genotipləşdirmə metodunun daha çevik və texniki cəhətdən daha asan olduğunu nəzərə alaraq, tədqiqatçılar bu yanaşmanı RNT-seq təcrübələrində variant çağırmaq üçün tövsiyə edirlər.

Ümumi variantlar müxtəlif verilənlər bazalarında tapılır

a Nümunə başına və birgə genotipləşdirmə yanaşmalarından istifadə etməklə aşkar edilmiş RNT seq variantlarının müqayisəsi. b İki RNT seq variantının BovineHD BeadChip tərəfindən aşkar edilənlərlə müqayisəsi. c İki RNT-seq variantının GBS tərəfindən aşkar edilənlərlə müqayisəsi


Xərçəng Analizi İş Akışı v1.0 - FASTQ-dan VCF-ə qədər

Bir müddət şiş-normal WGS cütlərini təhlil etmək üçün iş axını üzərində işləyirik. Bu olduqca mürəkkəbdir, lakin indi tədqiqat layihələrində istifadə olunur. Beləliklə, ilk versiya budur: https://github.com/SciLifeLab/CAW

Sadəcə maraqlıdır, performans necədir? Adətən hansı ölçülü FASTQ-lara sahibsiniz və bunu nəzərə alsaq, bütün iş axını VCF-lərin istehsalı üçün nə qədər vaxt aparacaq?

Xam məlumat (həm şiş, həm də normal) başlanğıcda təxminən 200G FASTQ təşkil edir. Yenidən tənzimlənməmiş BAM-lar hələ də təxminən 200G-dir, yenidən kalibrləmə onları ikiqat edir. Bunlar əslində nisbətən aşağı örtülü nümunələrdir, 30x normal 60x şişdən başlayanda bu rəqəmlər təxminən ikiqatdır. 0,5T xam FASTQ-dan başlayaraq 1,5T yekun məlumatınız olacaq və emal zamanı sizə 3T tmp boşluq lazımdır. Tək 16 CPU 128G qovşağında bütün işlər təxminən bir həftə çəkir. Ancaq yaxşı bir nöqtə, hərtərəfli bir müqayisə etməliyəm.

Burada etməyə çalışdığınız işi çox bəyənirəm. Təbrik edirik! Nextflow haqqında bizə ətraflı məlumat verin. Bir az əvvəl görmüşdüm, amma yoxlamağa vaxtım olmadı. Həmçinin, iş axınını buludda yerləşdirməyi planlaşdırırsınız?

Təşəkkürlər, Nextflow ilə bağlı biz bu DSL-i seçdik, çünki burada artıq möhkəm istifadəçi bazası var. Xoşladığım bir şey odur ki, əgər siz java və/yaxud groovy bilirsinizsə, sazlamaq daha asandır. Sevmədiyim çox şeylər var, lakin bu, bütün proqramlaşdırma dilləri üçün belədir ) Əsas konsepsiya Nextflow-da "channel"-dir, siz adətən UNIX boruları olan kanallar yaradırsınız, qidalandırırsınız, birləşdirir, çəngəlləyirsiniz. Əgər yeni və ya qabaqcılsınızsa, onun boş kanalı faydalıdır - cavabların əksəriyyəti Nextflow-un arxasında duran əsas tərtibatçı Paolodandır.

Mən WDL-də yazılmış germline variantı üçün GATK əsaslı boru kəməri üzərində işləyirəm və əsas kalibrator, çap oxunması və haplotip çağırıcı üçün səpələnmə toplama paralelləşdirməsini həyata keçirdim. Bu, mənim üçün icra müddətini 7 dəfə yaxşılaşdırır. Çap oxunması 18.5 saatdan -nct 16-a qədər getdi

18 nüvəli 256 GB RAM doker maşınında tək yivli səpilmə ilə 2,5 saat toplanır. Növbəti axışda bunun üçün dəstək qurulmuşdur, burada nr 8 və 9-a baxın: https://github.com/nextflow-io/examples/blob/master/README.md

EDIT: Sizə bir neçə sualım var.

Mən HaplotypeCaller istisna olmaqla, zəng edənlərin heç biri ilə kifayət qədər tanış deyiləm və HaplotypeCaller bu funksiyanı öz üzərinə götürdüyü üçün IndelRealigner və RealignerTargetCreator-u lazımsız edir. Amma bəlkə istifadə etdiyiniz digər zəng edənlər onlardan asılıdır? Əgər sizə IndelRealigner lazımdırsa, onu səpələnmənin paralelləşdirilməsi ilə paralelləşdirə bilərsiniz. Heç vaxt özüm etməli olmadığım üçün nə qədər vaxta qənaət etdiyinizi bilmirəm.

Bəs boru kəməri nə üçündür? Siz bir neçə fərqli zəng edəndən istifadə edirsiniz, bu həm mikrob xətti, həm də somatik mutasiyalar üçündür? Həmişə somatik və cücərmə xətti mutasiyalarını axtarmaq bir az hədsiz görünür, lakin mən bütün bunların biologiya tərəfində çox yeniyəm, ona görə də bir həkim və ya tədqiqatçının nə axtardığını bilmirəm. Somatik və germline variant zəngi üçün iki ayrı boru kəmərimiz var.


Flaqman DSP proqram məhsulları və xidmətləri

DSP proqram məhsulları hazırlayır və biotibbi ekosistemdə geniş istifadə olunan xidmətləri idarə edir, məsələn:

Terra: Microsoft və Verily Life Sciences ilə birgə işlənib hazırlanmış buludda məlumat əldə etmək, təhlillər aparmaq və təhlükəsiz əməkdaşlıq etmək üçün açıq bulud əsaslı platformadır.

GATK: yüksək məhsuldarlıqlı ardıcıllıq məlumatlarının təhlili üçün aparıcı açıq mənbəli variant kəşf paketi.

Picard: yüksək məhsuldarlıqlı ardıcıllıq məlumatlarını emal etmək üçün açıq mənbəli komanda xətti alətlərinin məşhur dəsti

Cromwell: İstifadəçilərə yerli maşınlar, kompüter klasterləri və bulud platformalarında (məsələn, AWS, AWS, Microsoft Azure, Google Bulud Platforması)

Data Donation Platform (DDP): Intuitiv veb və mobil interfeyslər vasitəsilə razılıq və yenidən əlaqə daxil olmaqla, birbaşa iştirakçı cəlb etməyə imkan verən proqram təminatı yığını. DDP, Angiosarcoma Layihəsi, Nadir Genomlar Layihəsi və Qlobal AT Ailə Məlumat Platforması kimi xəstəliyə xüsusi qeydlər üçün əsas infrastrukturu təmin edir.

Məlumat İstifadəsinə Nəzarət Sistemi (DUOS): Məlumata çıxış komitələri və həssas genomik verilənlər bazasına daxil olmaq istəyən tədqiqatçılar arasında qarşılıqlı əlaqəni idarə etmək üçün interfeyslər dəsti.


Məlumat analitikası

Azure-da açıq mənbəli proqram təminatı, böyük verilənlər analitikası və maşın öyrənmə xidmətlərindən istifadə edərək müasir genomik texnologiyaları tərəfindən yaradılan məlumatları təhlil edərək və şərh edərək genomik məlumatı işlək hala gətirin.

Genomik noutbuklar

Genomics Notebooks GATK, Picard, Bioconductor və Python kitabxanalarından istifadə edərək genomik məlumatların təhlili üçün Azure-da Jupyter Notebooks gücünü gətirir.

Azure-da biokeçirici

Bioconductor yüksək məhsuldarlıqlı genomik məlumatların təhlili və başa düşülməsi üçün R əsaslı yüzlərlə bioinformatika alətləri təqdim edir.

Genomik Məlumat Elmi

Azure Virtual Maşın şablonları verilənlərin kəşfiyyatı, təhlili və modelləşdirilməsi üçün əvvəlcədən quraşdırılmış və əvvəlcədən konfiqurasiya edilmiş alətlər, kitabxanalar və SDK-ları təmin edir.


İş axını ilə əlaqəli biologiya üçün məlumat və resursların idarə edilməsi

Ardıcıllıq texnologiyasındakı irəliləyişlər bioloji sorğu üçün mövcud olan məlumatların həcmini xeyli artırmışdır [58]. İş axını sistemləri, intensiv məlumat tələb edən biologiya üçün ənənəvi olaraq tələb olunan bir çox vaxt tələb edən layihə idarəetmə addımlarını avtomatlaşdırmaq sayəsində məlumatların təhlili üçün imkanlarımızı artıra bilər. Bununla belə, bu miqyasda bioloji analizlərin aparılması məlumatlara və hesablama resurslarının idarə edilməsinə əlaqələndirilmiş yanaşma tələb edir. Aşağıda məlumatların həcmi artdıqca xüsusilə vacib hala gələn məlumatların toplanması, idarə edilməsi və keyfiyyətə nəzarət üçün tövsiyələr veririk. Nəhayət, layihənizin miqyası üçün müvafiq hesablama resurslarının təmin edilməsi və idarə olunmasını müzakirə edirik.

Böyük miqyaslı verilənlər bazalarının idarə edilməsi

Eksperimental dizayn, məlumatların tapılması və ya yaradılması və keyfiyyətə nəzarət məlumat intensiv biologiyasının əsas hissələridir. Analizinizi düzgün tərtib etmək, müvafiq məlumatları müəyyən etmək və sənədlərinizdə sağlam düşüncə yoxlamaları aparmaq üçün vaxt ayırmağın əvəzi yoxdur. Bu tapşırıqlar avtomatlaşdırılmasa da, bir çox alətlər və verilənlər bazası bu proseslərdə kömək edə bilər.

Müvafiq ictimaiyyətə açıq məlumatları axtarın

Artıq ictimai repozitoriyalarda mövcud olan böyük miqdarda ardıcıllıq məlumatı ilə, çox vaxt ictimaiyyətə açıq məlumatları axtarmaqla tədqiqat sualınızı araşdırmağa başlamaq mümkündür. Bəzi hallarda, bu məlumatlar bütün təhlilinizi aparmaq üçün kifayət edəcəkdir. Digər hallarda, xüsusən də yeni eksperimentlər aparan bioloqlar üçün, bu məlumatlar ardıcıllıq növü, dərinliyi və təkrarlanması ilə bağlı qərarlar qəbul edə bilər və potensial tələlərin qiymətli vaxt və resurslara sərf etmədən aşkar edilməsinə kömək edə bilər.

İndi əksər jurnallar bütün əlyazmalara dair məlumatların nəşr zamanı və ya qısa moratoriumdan sonra əlçatan olmasını tələb edir. Bundan əlavə, FAIR (tapıla bilən, əlçatan, qarşılıqlı işləyə bilən, təkrar istifadə edilə bilən) məlumat hərəkəti məlumatların intensiv biologiyası üçün məlumat mübadiləsi ekosistemini təkmilləşdirdi [59,60,61,62,63,64,64,65]. Siz tədqiqatınıza aid sənədlərin “məlumatların əlçatanlığı” bölmələrindən başlayaraq və ya ictimai məlumat portallarında və depolarında orqanizminizi, ətraf mühitinizi və ya seçdiyiniz müalicəni birbaşa axtarmaqla müvafiq ardıcıllıq məlumatlarını tapa bilərsiniz. Ardıcıllığın Oxuma Arxivi (SRA), Avropa Nukleotid Arxivi (ENA) və Yaponiya Məlumat Bankı (DDBJ) daxil olan Beynəlxalq Nukleotid Ardıcıllığı Verilənlər Bazasının Əməkdaşlığı (INSDC) xam ardıcıllıq məlumatları üçün ən böyük repozitordur, lakin artıq ardıcıllıq məlumatlarını qəbul etmir. böyük konsorsium layihələri [66] . Bu məlumatlar əvəzinə konsorsiuma məxsus verilənlər bazalarında yerləşdirilir ki, bu da müvafiq məlumat dəstlərini müəyyən etmək üçün bəzi domenlərə xas bilik tələb edə bilər və unikal yükləmə və autentifikasiya protokollarına malikdir. Məsələn, Tara Okeanları ekspedisiyasından əldə edilən xam məlumat Tara Okean Fondu tərəfindən qəbul edilir [67] . Əlavə kurasiya edilmiş verilənlər bazaları bunun əvəzinə işlənmiş məlumatlara diqqət yetirir, məsələn, Gen İfadəsi Omnibusunda (GEO) gen ifadəsi [68] . kimi orqanizmə xas verilənlər bazaları Wormbase (Caenorhabditis elegans) model orqanizmlə əlaqəli ardıcıllıq və digər məlumatların kürasiyası və inteqrasiyası üzrə ixtisaslaşmışdır [69]. Nəhayət, müəyyən məlumat növlərinə və ya orqanizmlərə diqqət yetirməkdənsə, bəzi depolar xüsusi layihə və ya əlyazma ilə əlaqəli hər hansı məlumat və metaməlumatları saxlamaq üçün nəzərdə tutulmuşdur (məsələn, Open Science Framework, Dryad, Zenodo [70] ).

Öz məlumatlarınızı yaradan zaman təhlili nəzərdən keçirin

Öz məlumatlarınızı yaradırsınızsa, düzgün eksperimental dizayn və planlaşdırma vacibdir. Xərc tələb edən ardıcıllıq məlumatları üçün tədqiqat sualınızı düzgün həll etmək bacarığınıza təsir edən eksperimental dizayn və ardıcıllıqla (ardıcıllıq növü, nümunə üzrə ardıcıllıq dərinliyi və bioloji təkrarlama daxil olmaqla) bir sıra qərarlar mövcuddur. Təcrübəli bioinformatikaçılar və statistiklərlə müzakirələrin aparılması, təcrübələrinizə başlamazdan əvvəl mümkünsə, təsirləri aşkar etmək üçün kifayət qədər statistik gücə malik olmanızı təmin etməyin ən yaxşı yoludur. Bu mülahizələr ardıcıllıq təhlilinin müxtəlif növləri üçün fərqli olacaq. Layihənin ilkin planlaşdırılmasına kömək etmək üçün biz təcrübənizi tərtib edərkən faydalı ola biləcək bir sıra domenə aid istinadları seçmişik (bax: Cədvəl 2). Ardıcıllıq üçün nümunələrin toplanmasına sərf edilən resursları nəzərə alaraq, gözlənilməz laboratoriya və ya texniki problemlər qarşısında eksperimental dizaynınızı qorumaq üçün bufer qurmaq vacibdir. Yarandıqdan sonra, xam ardıcıllıq məlumatlarının bir neçə müstəqil ehtiyat nüsxəsinə sahib olmaq həmişə yaxşı bir fikirdir, çünki adətən kompüter nasazlığı və ya digər gözlənilməz hadisələr nəticəsində itirildikdə asanlıqla bərpa oluna bilməz.

Cədvəl 2: Eksperimental dizayn üçün istinadlar və ümumi ardıcıllıq kimyası üçün mülahizələr.
Sıralama növü Resurslar
RNT ardıcıllığı [32,71,72]
Metagenomik ardıcıllıq [33,73,74]
Amplikon ardıcıllığı [75,76,77]
Mikrob təcridinin ardıcıllığı [78]
Eukaryotik genomların ardıcıllığı [79,80,81,82]
Bütün genomun təkrar sıralanması [83]
RAD ardıcıllığı [84,84,85,86,87,88]
tək hüceyrəli RNT-seq [89,90]

Təcrübəniz irəlilədikcə, mümkün qədər çox məlumatı izləyin: nümunənin toplanması, saxlanması və çıxarılması tarixləri və vaxtları, nümunə adları, toplama zamanı baş vermiş aberrasiyalar, ekstraksiya üçün istifadə edilən dəst lotu və edə biləcəyiniz hər hansı digər nümunə və ardıcıllıq ölçmələri. əldə edə bilmək (temperatur, yer, metabolit konsentrasiyası, kollektorun adı, quyunun nömrəsi, boşqab nömrəsi, məlumatlarınızın ardıcıllıqla tərtib edildiyi maşın və s.). Bu metadata sizə nümunələrinizi izləməyə, seçmə və ya eksperimental prosedurlar zamanı gözlənilmədən yığılma nəticəsində yarana biləcək toplu effektlərə nəzarət etməyə imkan verir və topladığınız məlumatları gələcək tətbiqlər və özünüz və başqaları tərəfindən təhlil üçün təkrar istifadə edilə bilən edir. Mümkün olduqda, aşağı axının emalını məhdudlaşdırmaq və bu metaməlumatları tələb edən təhlilləri sadələşdirmək üçün elmi hesablama üçün metaməlumatların formatlaşdırılması üçün standart təlimatlara əməl edin (bax: [10] ). Biz burada uzunmüddətli ekoloji tədqiqatlar zamanı verilənlərin idarə olunması üçün verilənlərin ardıcıllığına diqqət yetirmişik, tövsiyə edirik [91].

Məlumatların ardıcıllığına başlamaq

Dəyərli məlumatları qoruyun

Kodun özündən başqa, xam məlumatlar iş axını ilə əlaqəli ən vacib fayllardır, çünki təsadüfən dəyişdirildikdə və ya silindikdə onları bərpa etmək mümkün deyil. İş axını ilə yanaşı, xam məlumatların yalnız oxuna bilən nüsxəsinin saxlanması, həmçinin çoxsaylı ehtiyat nüsxələri məlumatlarınızı qəzalardan və kompüter nasazlığından qoruyur. Bu, həm də aralıq faylların saxlanması məcburiyyətini aradan qaldırır, çünki onlar iş axını ilə asanlıqla bərpa edilə bilər.

Faylları və nəticələri paylaşarkən və ya saxlayarkən, məlumat versiyasına nəzarət alət parametrləri və ya versiyalardakı dəyişikliklər kimi fayllardakı fərqləri izləyə bilər. İş axınına əsaslanan layihənin idarə edilməsi bölməsində müzakirə edilən versiyaya nəzarət vasitələri ilk növbədə kiçik faylları idarə etmək üçün nəzərdə tutulub, lakin GitHub Git Böyük Fayl Saxlama (LFS) və Open Science Framework (OSF), Figshare, Zenodo, və Dryad daha böyük faylları və verilənlər bazalarını saxlamaq üçün istifadə edilə bilər [49,70,92,93,94].

Layihələr və verilənlər dəstləri üçün versiya nəzarətini təmin etməklə yanaşı, bu alətlər həmçinin verilənlər dəstləri, rəqəmlər, təqdimatlar, kodlar və ilkin çaplar üçün rəqəmsal obyekt identifikatorlarının (doi) yaradılmasına imkan verməklə paylaşma və atribusiyanı asanlaşdırır. Pulsuz alətlər tez-tez saxlanıla bilən faylların ölçüsünü məhdudlaşdırdığından, Google Drive, Box, Dropbox, Amazon Web Services və Backblaze daxil olmaqla bir sıra bulud ehtiyat nüsxəsi və saxlama xidmətləri də almaq və ya universitet müqaviləsi vasitəsilə əldə etmək mümkündür. Tam kompüter ehtiyat nüsxələri bu saxlama yerlərində rclone [95] kimi alətlərlə aparıla bilər.

Köçürmə zamanı məlumatların bütövlüyünü təmin edin

Əgər siz ictimaiyyətə açıq olan data ilə işləyirsinizsə, məlumatların yüklənməsi və daşınması üçün tələb olunan vaxt və səydən yayınaraq, məlumatların artıq mövcud olduğu hesablama sistemində işləyə bilərsiniz. Sequence Read Archive (SRA) kimi verilənlər bazaları indi kommersiya bulud hesablama sistemlərində mövcuddur və Galaxy kimi açıq mənbəli layihələr SRA ardıcıllığı faylları ilə birbaşa veb brauzerdən işləməyə imkan verir [12,96]. NIH Ümumi Fondu Məlumat Ekosistemi kimi davam edən layihələr, NIH Ümumi Fondu məlumatlarını, o cümlədən biotibbi ardıcıllıq məlumatları, daha çox tapıla bilən, əlçatan, qarşılıqlı fəaliyyət göstərən və təkrar istifadə edilə bilən (FAIR) etmək üçün məlumat portalı hazırlamağı hədəfləyir.

Əksər hallarda siz hələ də bəzi məlumatları ötürməli olacaqsınız - ya xam məlumatları endirmək, ya da ehtiyat nüsxə və paylaşma (və ya hər ikisi) üçün mühüm aralıq və nəticə fayllarını ötürmək. Sıxılmış faylların (gzip, bzip2, BAM/CRAM və s.) ötürülməsi ötürmə sürətini yaxşılaşdıra və yerə qənaət edə bilər və köçürmədən sonra faylın bütövlüyünü təmin etmək üçün yoxlama məbləğlərindən istifadə edilə bilər (bax. Şəkil 8).

Hər addımda keyfiyyətə nəzarət edin

Giriş məlumatlarınızın keyfiyyəti, iş axınınızın altı nümunə və ya altı yüz nümunəni təhlil etməsindən asılı olmayaraq, çıxış nəticələrinin keyfiyyətinə böyük təsir göstərir. Hər bir təhlil addımında məlumatların qiymətləndirilməsi problemləri və səhvləri qiymətli vaxt və resurslar sərf etməzdən əvvəl aşkar edə bilər. Ölçüləri və vizuallaşdırmaları təmin edən keyfiyyətə nəzarət alətlərindən istifadə məlumat dəstlərinizi qiymətləndirməyə kömək edə bilər, xüsusən də daxil edilmiş məlumatların ölçüsü böyüdükcə. Bununla belə, müxtəlif növlərdən və ya ardıcıllıq növlərindən alınan məlumatlar anormal keyfiyyətə nəzarət nəticələri verə bilər. Siz son nəticədə sahib olduğunuz yeganə ən effektiv keyfiyyətə nəzarət vasitəsisiniz, ona görə də xüsusi məlumatlarınız üçün uyğun olanları müəyyən etmək üçün hər bir metrikanı tənqidi qiymətləndirmək vacibdir.

Fayllarınıza baxın Keyfiyyətə nəzarət giriş və çıxış məlumat fayllarının ilk və son bir neçə sətirinə baxmaq və ya bu faylların ölçüsünü yoxlamaq qədər sadə ola bilər (bax. Cədvəl 3). Müəyyən bir alət üçün düzgün giriş və çıxışların necə göründüyünə dair intuisiya inkişaf etdirmək üçün əvvəlcə test nümunəsini və ya proqram təminatı ilə paketlənmiş məlumatları işə salmaq çox vaxt faydalıdır. Bu giriş və çıxış fayl formatlarını öz məlumatlarınızla müqayisə etmək uyğunsuzluqları müəyyən etməyə və həll etməyə kömək edə bilər.

Cədvəl 3: Faylın məzmununu tez araşdırmaq üçün bəzi əmrlər. Bu əmrlər Unix və Linux əməliyyat sistemlərində ümumi formatlaşdırma problemlərini və ya digər anormallıqları aşkar etmək üçün istifadə edilə bilər.
əmr funksiyası misal
ls -lh insanların oxuya biləcəyi formatda məlumatı olan faylları siyahıya alın ls -lh *fastq.gz
baş faylın ilk 6 sətirini standart olaraq çap edin baş nümunələr.csv
quyruq faylın son 6 sətirini standart olaraq çap edin quyruq nümunələri.csv
az kaydırılan ekranda faylın məzmununu göstərin az nümunələr.csv
zless gziplənmiş faylın məzmununu sürüşdürə bilən ekranda göstərin zless sample1.fastq.gz
wc -l fayldakı sətirlərin sayını hesablayın wc -l ecoli.fasta
pişik faylı standart olaraq çap edin cat samples.csv
grep uyğun mətni tapın və xətti standart olaraq çap edin grep “>” ecoli.fasta
kəsmək cədvəldən sütunları kəsin cut -d“,” -f1 samples.csv

Məlumatlarınızı vizuallaşdırın Vizuallaşdırma qeyri-adi və ya gözlənilməz nümunələri seçmək üçün başqa bir güclü yoldur. Fayllara baxmaqdan böyük anormallıqlar aydın görünsə də, digərləri kiçik və tapmaq çətin ola bilər. FastQC ilə xam ardıcıllıq məlumatlarının vizuallaşdırılması (Şəkil 9A) və İnteqrativ Genom Baxıcısı kimi alətlərlə verilənlərin işlənmiş ardıcıllığı və python və ya R istifadə edərək cədvəlli nəticələr fayllarının planlaşdırılması anormal və ya uyğun olmayan nəticələrin izlənilməsini asanlaşdıra bilər [98,99].

Xəbərdarlıqlara və log fayllarına diqqət yetirin Bir çox alətlər işləyərkən log faylları və ya mesajlar yaradır. Bu fayllarda kəmiyyət, keyfiyyət və işin nəticələri haqqında məlumat və ya qaçışın niyə uğursuz olduğuna dair səhv mesajları var. Bu faylları yoxlamaq, alətlərin düzgün və ardıcıl işlədiyinə əmin olmaq və ya uğursuz qaçışları aradan qaldırmaq üçün faydalı ola bilər. MultiQC kimi alətlə log fayllarının təhlili və vizuallaşdırılması proqrama xas log fayllarının şərhini yaxşılaşdıra bilər (Şəkil 9 [101] ).

Məlumatların ardıcıllaşdırılmasında ümumi meylləri axtarın Məlumatların ardıcıllaşdırılmasında qərəzliliklər eksperimental dizayn, metodologiya, ardıcıllıq kimyası və ya iş axınlarından qaynaqlanır və keyfiyyətə nəzarət tədbirləri ilə xüsusi olaraq hədəflənməyə kömək edir. Xüsusi məlumat dəstində və ya iş prosesində dəqiq qərəzlər təcrübələr arasında çox dəyişəcək, ona görə də seçdiyiniz ardıcıllıq metodunu başa düşmək və müvafiq filtrasiya addımlarını iş axınınıza daxil etmək vacibdir. Məsələn, PCR dublikatları gücləndirmə addımından keçən kitabxanalarda problemlər yarada bilər və tez-tez aşağı axın analizindən əvvəl silinməlidir [102,103,104,105,106].

Çirklənməni yoxlayın Çirklənmə nümunələrin toplanması, nukleotidlərin çıxarılması, kitabxananın hazırlanması və ya PhiX kimi spike-in ardıcıllığı zamanı yarana bilər və çıxarılmasa, məlumatların şərhini dəyişə bilər [107,108,109]. Sərbəst adapterlərin yüksək konsentrasiyaları və ya aşağı konsentrasiyalı nümunələri olan kitabxanalar ştrix-kod hoppanmasını artıraraq nümunələr arasında çirklənməyə səbəb ola bilər [110] .

Məlumatlarınız üçün ciddi keyfiyyətə nəzarətin xərclərini və faydalarını nəzərdən keçirin Yaxşı aşağı axın təhlili üçün keyfiyyətli məlumatlar vacibdir. Bununla belə, ciddi keyfiyyətə nəzarət bəzən yaxşıdan çox zərər verə bilər. Məsələn, ardıcıllığın dərinliyindən asılı olaraq, RNT ardıcıllığı məlumatlarının ciddi keyfiyyətlə kəsilməsi izoformun kəşfini azalda bilər [111]. Xüsusi məlumat dəstinizi ən çox hansı problemlərin narahat edə biləcəyini müəyyən etmək üçün oxşar eksperimental dizayndan istifadə edərək son nəşrləri tapmaq və ya ardıcıllıq əsası üzrə mütəxəssislərlə danışmaq faydalı ola bilər.

Məlumatların ardıcıllığı və tətbiqləri çox müxtəlif olduğundan, keyfiyyətə nəzarət üçün hər kəsə uyğun bir həll yoxdur. Məlumatlarınızı və bioloji probleminizi nəzərə alaraq görməyi gözlədiyiniz nümunələr haqqında tənqidi düşünmək və mümkün olduqda texniki ekspertlərlə məsləhətləşmək vacibdir.

Müvafiq hesablama resurslarının qorunması və idarə edilməsi

Ardıcıllıq təhlili məlumatlarınız üçün adekvat saxlama və analiz gücünə malik hesablama sistemlərinə giriş tələb edir. Bəzi kiçik miqyaslı verilənlər bazası üçün yerli iş masası və ya hətta noutbuk sistemləri kifayət ola bilər, xüsusən də minhashing [112] kimi məlumatların azaldılması strategiyalarını həyata keçirən alətlərdən istifadə edilərsə. Bununla belə, daha böyük layihələr əlavə hesablama gücü tələb edir və ya müəyyən əməliyyat sistemləri (məsələn, linux) ilə məhdudlaşdırıla bilər. Bu layihələr üçün həllər tədqiqata əsaslanan yüksək performanslı hesablama sistemlərindən tədqiqata inteqrasiya olunmuş kommersiya təhlili platformalarına qədər dəyişir. Həm yalnız tədqiqat, həm də kommersiya qrupları öz hesablama resurslarına çıxışı təmin etmək üçün tədqiqat və təhsil təklifləri üçün imkanlar təqdim edir (bax: Cədvəl 4). Məlumatların təhlilinə hazırlaşarkən, saxlama və təhlil üçün kifayət qədər hesablama resursları və maliyyə ayırdığınızdan əmin olun, o cümlədən böyük aralıq faylları və kadr hazırlığı üçün tələb olunan resurslar. Nəzərə alın ki, iş axını sistemləri, bulud hesablama sistemləri arasında paylanma da daxil olmaqla, sizin üçün mövcud olan hesablama resursları daxilində təhlilinizin düzgün icrasını xeyli asanlaşdıra bilər.

Cədvəl 4: Hesablama Resursları Bioinformatik layihələr çox vaxt əlavə hesablama resursları tələb edir. Yerli və ya universitet tərəfindən idarə olunan yüksək performanslı hesablama klasteri mövcud deyilsə, hesablama resursları bir sıra qrant əsaslı və ya kommersiya provayderləri vasitəsilə əldə edilə bilər.
Provayder Giriş Modeli Məhdudiyyətlər
Amazon Veb Xidmətləri Ödənişli
Bionimbus Qorunan Məlumat Buludu Tədqiqat bölgüsü eRA commons hesabı olan istifadəçilər
Cyverse Atmosferi Sərhədlərlə pulsuz saxlama və hesablama saatları
EGI federal bulud Əlaqə ilə daxil olmaq Avropa tərəfdaş ölkələri
Qalaktika Yaddaş məhdudiyyətləri ilə pulsuz məlumat saxlama məhdudiyyətləri
Google Bulud Platforması Ödənişli
Google Colab Pulsuz hesablama noutbukları, resurs zəmanəti yoxdur
Microsoft Azure Ödənişli
NSF XSEDE Tədqiqat bölgüsü ABŞ tədqiqatçıları və ya əməkdaşları
Elm Məlumat Buludunu açın Tədqiqat bölgüsü
Vasabi Ödənişli yalnız məlumat saxlama həlli

Resursların idarə edilməsinə başlayın

Verilənlərin miqyası artdıqca, təhlil üçün tələb olunan resurslar havaya qalxa bilər. Bioinformatik iş axınları uzunmüddətli ola bilər, yüksək yaddaş sistemləri tələb edir və ya intensiv fayl manipulyasiyasını əhatə edir. Aşağıdakı strategiyalardan bəziləri layihəniz üçün hesablama resurslarını idarə etməyə kömək edə bilər.

Uyğun olduqda tədqiqat bölmələrinə müraciət edin Məlumat tələb edən tədqiqatçılara hesablama resursları təmin edən qrantlar təklif edən bir sıra bulud hesablama xidmətləri var (Cədvəl 4). Bəzi hallarda, təqdim olunan resurslar bütün təhlilinizi əhatə etmək üçün kifayət edə bilər.

Mümkün olduqda yerli kompüterdə inkişaf etdirin İş axınları sistemlər arasında asanlıqla ötürüldüyü üçün yerli noutbukda fərdi analiz addımlarını hazırlamaq faydalı ola bilər. Təhlil aləti yerli sisteminizdə işləyəcəksə, addımı iş axınlarının işlənib hazırlanmasına başlamaq bölməsində yaradılan kimi alt-nümunə verilənlərlə sınaqdan keçirin. İşlədikdən sonra yeni iş axını komponenti daha böyük hesablama sistemində miqyasda işlədilə bilər. İş axını sistemi aləti resurslarından istifadə hesabatı daha böyük sistemlərdə iş prosesini yerinə yetirmək üçün lazım olan artan resursları müəyyən etməyə kömək edə bilər. Pulsuz və ya verilmiş hesablama resurslarına çıxışı olmayan tədqiqatçılar üçün bu strategiya əhəmiyyətli xərclərə qənaət edə bilər.

Eskiz alqoritmlərindən istifadə edərək tez məlumat əldə edin Verilənlərin əsas strukturunu, nümunələr arasındakı əlaqəni və hər bir nümunənin təxmini tərkibini başa düşmək məlumatların təhlilinin əvvəlində çox faydalı ola bilər və çox vaxt təhlil qərarlarını əvvəlcə nəzərdə tutulandan fərqli istiqamətlərə yönəldə bilər. Əksər bioinformatika iş axınları bu cür anlayışlar yaratsa da, bunu sürətlə həyata keçirən bir neçə alət var ki, bu da istifadəçiyə daha geniş, incə dənəli analizlərlə yoxlana bilən sürətli fərziyyələr yaratmağa imkan verir. Eskiz alqoritmləri ardıcıllıq məlumatlarının sıxılmış təxmini təsvirləri ilə işləyir və bununla da iş vaxtlarını və hesablama resurslarını azaldır. Bu təxmini təsvirlər bir çox dəqiq, lakin hesablama baxımından intensiv iş axınlarının əsas nəticələrini təkrarlamaq üçün orijinal ardıcıllıq haqqında kifayət qədər məlumat saxlayır. Əksər eskiz alqoritmləri ardıcıllığın oxşarlığını müəyyən bir şəkildə təxmin edir və bu müqayisələrdən fikirlər əldə etməyə imkan verir. Məsələn, eskiz alqoritmləri Əsas Komponent Analizi və ya çoxölçülü miqyaslı süjet kimi vizuallaşdırıla bilən nümunə oxşarlığını qiymətləndirmək üçün istifadə edilə bilər və ya dəqiq topologiyaya malik filogenetik ağac qurmaq üçün istifadə edilə bilər. Eskiz alqoritmləri həmçinin verilənlər bazası (məsələn, bütün GenBank) ilə müqayisələr üçün iş vaxtını kəskin şəkildə azaldır və istifadəçilərə öz məlumatlarını böyük ictimai verilənlər bazaları ilə tez müqayisə etməyə imkan verir.

Rowe 2019 [113] eskiz alqoritmləri üçün proqramları və genomik istifadə hallarını nəzərdən keçirdi və bir sıra dərslik iş kitablarını təqdim etdi (məsələn, Nümunə QC notebooku: [114] ).

Sualınız üçün düzgün vasitələrdən istifadə edin Diferensial ifadə və ya transkript qruplaşması kimi RNT-seq analizi yanaşmaları transkript və ya gen sayılarına əsaslanır. Hər bir transkript və ya genlə üst-üstə düşən oxunmaların sayını müəyyən etməklə bu sayları yaratmaq üçün bir çox vasitələrdən istifadə etmək olar. Məsələn, STAR və HISAT2 kimi alətlər transkript başına oxunma saylarını yaratmaq üçün sonradan emal oluna bilən hizalamalar yaradır [115,116]. Bununla belə, bu alətlər hər bir oxunuş üçün bazaya uyğunlaşmaları təyin edərək, məlumatla zəngin çıxış yaradır. If you are only interested in read quantification, quasi-mapping tools provide the desired results while reducing the time and resources needed to generate and store read count information [117,118] .

Seek help when you need it In some cases, you may find that your accessible computing system is ill-equipped to handle the type or scope of your analysis. Depending on the system, staff members may be able to help direct you to properly scale your workflow to available resources, or guide you in tailoring computational unit allocations or purchases to match your needs.


Variant Discovery with GATK4

This workshop will focus on the core steps involved in calling germline short variants, somatic short variants, and copy number alterations ilə Broad’s Genome Analysis Toolkit (GATK), using “Best Practices” developed by the GATK methods development team. A team of methods developers and instructors from the Data Sciences Platform at Broad will give talks explaining the rationale, theory, and real-world applications of the GATK Best Practices. You will learn why each step is essential to the variant-calling process, what key operations are performed on the data at each step, and how to use the GATK tools to get the most accurate and reliable results out of your dataset. If you are an experienced GATK user, you will gain a deeper understanding of how the GATK works under-the-hood and how to improve your results further, especially with respect to the latest innovations.

The hands-on tutorials for learning GATK tools and commands will be on Terra, a new platform developed at Broad in collaboration with Verily Life Sciences for accessing data, running analysis tools and collaborating securely and seamlessly. (If you’ve heard of or been a user of FireCloud, think of Terra as the new and improved user interface for FireCloud that makes doing research easier than before!)

  • Day 1: Introductory topics and hands-on tutorials. We will start off with introductory lectures on sequencing data, preprocessing, variant discovery, and pipelining. Then you will get hands-on with a recreation of a real variant discovery analysis in Terra.
  • Day 2: Germline short variant discovery. Through a combination of lectures and hands-on tutorials, you will learn: germline single nucleotide variants and indels, joint calling, variant filtering, genotype refinement, and callset evaluation.
  • Day 3: Somatic variant discovery. In a format similar to Day 2, you will learn: somatic single nucleotide variants and indels, Mutect2, and somatic copy number alterations.
  • Day 4: Pipelining and performing your analysis end-to-end in Terra. On the final day, you will learn how to write your own pipelining scripts in the Workflow Description Language (WDL) and execute them with the Cromwell workflow management system. You will also be introduced to additional tools that help you do your analysis end-to-end in Terra.

Please note that this workshop is focused on human data analysis. The majority of the materials presented does apply equally to non-human data, and we will address some questions regarding adaptations that are needed for analysis of non-human data, but we will not go into much detail on those points.


Requirements on bioinformatics solutions for clinical oncology

High-throughput NGS allows for time- and cost-effective molecular probing of tumors. However, the resulting sequencing data is challenging to analyze because of its large size and various confounding sources of variation, most notably amplification and sequencing errors. Careful analysis of NGS data is particularly important in the context of MTBs, where treatment suggestions based on mutation calls may have dramatic effects, ranging from recovery to death of a patient. Therefore, strict standards with respect to several aspects described below need to be followed.

First and foremost, experimental noise needs to be distinguished from true biological signals. Treatment decisions have to be based only on validated, real biological alterations and should not be misled by technical artifacts. Toward this end, appropriate computational data analysis pipelines have to be used that cover the entire process from primary analysis of the read data to clinical reporting. To understand the limitations of an implemented pipeline, it needs to be evaluated under defined conditions reflecting realistic use case conditions [20, 21]. Pipelines need to be robust with respect to new sequencing data that may differ in some aspects from previously analyzed samples. In addition, mutation calls should be reported with a confidence estimate. Although some mutation callers report, for example, P-values or posterior probabilities, it remains a major challenge to provide a meaningful notion of confidence for the results of an entire pipeline. This is particularly important, as the overlap of different approaches is often limited, as mentioned in [22�].

The results produced by a bioinformatics pipeline have to be reproducible. This requirement entails several technical prerequisites discussed below and includes controlling random seeds for all steps that involve randomization. Another important aspect of reproducibility is a rigorous documentation of each step of the pipeline, including complete documentation of the used tools, their version and parameter settings. This also holds for databases and ensures complete transparency [20]. For instance, in the past, most genomic studies have used as a reference genome GRCh37 from the Genome Reference Consortium or its equivalent from the University of California Santa Cruz, version hg19. Even though there are only minor differences in their genetic information, the naming scheme is different, which can lead to confusion. Moreover, the new human genome assembly GRCh38 not only updated the main chromosomes, and therefore changed their coordinates, but also included new contigs to represent population haplotypes, further complicating reproducibility. Therefore, it is necessary that for each file used in the pipeline, its generation and dependencies are clearly described. Such a setup also guarantees the traceability of all results. For example, it should be possible to trace back the call of a treatment-critical mutation, to assess the call manually and to validate it before recommending the treatment. In addition, genomic alterations in the patient which are not directly linked to cancer, known as incidental variants, may be discovered. As these variants may be reported in various ways with potential ethical implications, a clear strategy needs to be defined, for example, reporting all relevant incidental findings [26].

In addition to these requirements on stability, robustness, reproducibility and traceability of the computational pipeline, the size, sensitivity and complexity of comprehensive clinical data sets combined with the urgency caused by the often critical state of the respective patient result in a set of challenging technical prerequisites for the computational infrastructure and the implemented data analysis software of an MTB.


Snapshots of the code can be found in the GigaScience repository, GigaDB [ 21].

The authors would like to thank Shadrielle Melijah G. Espiritu and Andre Masella for their feedback on the manuscript/software. This project has been supported by funding from Genome Canada/Genome British Columbia (grant No. 173CIC), the Natural Science and Engineering Research Council of Canada (grant No. RGPGR 488167-2013), and Terry Fox Research Institute - Program Project Grants (grant No. 1021).


Videoya baxın: Xərçəng Xəstəliyinin Qarşısını Alan 8 Qida (Iyun 2022).