Məlumat

Genetik materialın ardıcıllığı, oxunması və kontigmaları arasında fərq nədir?


Mümkünsə, kimsə DNT kimi genetik materialın ardıcıllığı, oxunması və kontigmaları arasındakı fərqləri bir nümunə ilə izah edə bilərmi?

Mən bioinformatikada yeniyəm və internetdə bütün bu anlayışlar üçün qəti cavab tapmadım.


Bu üç sözü başa düşdüm:

  • ardıcıllıq bioloji hərflərin (DNT/RNT və ya amin turşuları) sırasını təsvir edən ümumi addır. Həm contigs, həm də oxunuşlar DNT/RNT və ya aa ardıcıllığıdır

  • oxuyur ardıcıl oxumaq üçün qısa bir əldir. Adətən ardıcıl oxunuşlar sekvensiya maşınından (məsələn, Illumina MySeq) əldə edilən və yaddaşda saxlanılan bir qədər rəqəmsal məlumata istinad edir.fastqbazaya görə keyfiyyət balları olan fayl. Oxumalar adətən qısa olur. Ancaq "qısa" sürətlə dəyişir. Hazırda MySeq 50-150 əsas cüt uzunluğu (bp) arasında istənilən yerdə oxunuşlar istehsal edir. Bir qaçışdan (bu, həqiqətən qaçışdan asılı olacaq) milyonlarla oxunuş əldə edə bilərsiniz, burada hər oxunuş bp ölçüsü, məsələn, 100bp uzunluğunda təyin olunacaq. Bütün oxunuşlar bir yerdə saxlanılırfastqhər replikat üçün fayl, burada həmin fayldakı bütün oxunmalar adətən vahid ölçüdədir, məsələn, bütün 5 milyon oxunuş 100bp uzunluğundadır.

Bir bioinformatik olaraq ilk işiniz bunların harada olduğunu müəyyən etməkdir oxuyur -dən gəlir. Eksperimental məqsəddən və hansı növ ardıcıllıqla etdiyinizdən asılı olaraq, məsələn, DNT-seq və ya RNT-seq ilə qarşılaşa və ya qarşılaşmaya bilərsiniz. contigs.

  • contigs sadəcə olaraq birlikdə yığılmış oxunuşlardır. Məsələn, əgər edirsinizsə de novo transkriptomiya. Onda siz:

    1. transkriptinizi toxumadan təmizləyin və ardıcıllığa göndərin
    2. Fastq fayllarınızı ardıcıl oxunuşlarla əldə edin, bunların hamısı qısa oxunuşlardır (məsələn, 100 bp)
    3. bu 100bp oxunuşları daha uzun bir yerə yığın contig inşallah fərdi transkriptinizə bənzəyəcək

@Serine ilə eyni şeyi deyəcəyəm, amma bir az fərqli kontekstdə. Siqaret çəkənləri çəkməyənlərlə müqayisə etmək istədiyiniz bir nümunə götürək.

Bu kontekstdə siqaret çəkən insanların DNT ardıcıllığını götürmək istərdiniz. Bununla belə, texnologiya məhdudiyyətinə görə siz ardıcıllıq maşınından tək bir DNT ardıcıllığı əldə etməyəcəksiniz. Oxumaq kimi tanınan milyonlarla qısa üst-üstə düşən DNT ardıcıllığı əldə edəcəksiniz.

Oxunmaların "xəritəsini çəkmək" və onları istinad genomu ilə müqayisə etmək üçün bizə assembler lazımdır. Bu nümunədə istinad genomu insan HG38 ola bilərdi.

Assembler üst-üstə düşən oxunuşları kontiglər kimi tanınan üst-üstə düşməyən bölgələr dəstinə birləşdirməlidir.


DNT və RNT Peyvəndi Arasındakı Fərq Nədir?

Laura Hensley, Kanadanın ən böyük redaksiyalarından bəzilərində çalışmış, mükafat qazanmış həyat tərzi jurnalistidir.

James Lacy, MLS, fakt yoxlayıcı və tədqiqatçıdır. Ceyms Dominikan Universitetində Kitabxana Elmləri üzrə Magistr dərəcəsi almışdır.

Əsas Çıxarışlar

  • DNT və RNT peyvəndləri ənənəvi peyvəndlərlə eyni məqsədə malikdir, lakin bir qədər fərqli işləyirlər.
  • Ənənəvi peyvənddə olduğu kimi virusun və ya bakteriyanın zəifləmiş formasını bədənə yeritmək əvəzinə, DNT və RNT peyvəndləri immunitet reaksiyasını stimullaşdırmaq üçün virusun öz genetik kodunun bir hissəsindən istifadə edir.
  • Pfizer və BioNTech tərəfindən birgə hazırlanmış COVID-19 üçün mRNA peyvəndi ABŞ-da fövqəladə hallarda istifadə üçün icazə verilən ilk növdür.
  • Bir neçə digər potensial DNT və RNT COVID-19 vaksinləri klinik sınaqlardadır, yəni onlar vaksinin inkişafının vacib və perspektivli sahəsidir.

Dünyadakı tədqiqatçılar SARS-CoV-2 yeni koronavirusunun yaratdığı xəstəlik olan COVID-19 üçün təhlükəsiz və effektiv peyvəndlər hazırlamaq üzərində işləyirlər. Hazırda ABŞ-da dörd əsas sınaq da daxil olmaqla bir neçə qlobal peyvəndin klinik sınaqları aparılır. Bu potensial COVID-19 peyvəndlərindən bəziləri peyvəndin inkişafı sahəsində inkişaf edən bir sahə olan RNT və DNT vaksinləridir.

Dekabrın 11-də Qida və Dərman İdarəsi Pfizer və BioNTech tərəfindən birgə hazırlanmış COVID-19 üçün messencer RNT (mRNA) peyvəndi üçün təcili istifadə icazəsi verdi. Bu fövqəladə istifadə 16 yaş və yuxarı insanlar üçün təsdiq edilmişdir.


Genetik material nədir?

Genetik material, göstərişlərin orqanizmlərin bir nəslindən digərinə ötürüldüyü mühitdir. Yerdəki həyatda o, genomlarda təşkil olunmuş nukleotid ardıcıllığı formasını alır. Genom canlının hüceyrəsində olan bütün DNT-dir. İnsan DNT-sinin hər bir molekulunda nərdivanların pillələri kimi düzülmüş milyardlarla nukleotid var.

Orqanizmin xüsusiyyətlərini təyin edən nukleotidlərin ardıcıllığıdır. Lokus adlanan müxtəlif yerlərdə, hər bir xromosom boyunca, kodlaşdırılmayan böyük hissələr arasında, nukleotidlərin DNT ardıcıllığı messencer zülallarına digər zülalları necə qurmağı öyrədən əlaqəli nümunələrə çevrilir. Bu zülallar hüceyrənin sitoplazmasında sintez olunur və canlı orqanizmin hər bir strukturunu qurmaq üçün çalışır. Genlər, nukleotid ardıcıllığının təbii nəticəsi olaraq, zülallar, zülallar isə bədənlər yaradır.

Genetik material böyük orqanizmlər arasında valideyndən nəslə şaquli ötürülmə yolu ilə keçir. Hər bir nəsil öz növünün təsadüfi seçilmiş üzvünə bənzəməkdən daha çox öz valideyninə bənzəyir, çünki bədənin necə qurulmasına dair genetik təlimatların dəqiq ardıcıllığı valideyndən miras qalıb. Genlərin kopyalanmasında kiçik səhvlər mutasiyalar kimi tanınır və onların genofondda yayılması təkamül prosesini sürətləndirir.


Genetik materialın ardıcıllığı, oxunması və kontigmaları arasında fərq nədir? - Biologiya

Sürətli haploid variant çağırışı və nüvə genomunun uyğunlaşdırılması

Snippy, haploid istinad genomu ilə NGS ardıcıllığınız arasında SNP-ləri tapır. O, həm əvəzetmələri (snps), həm də əlavələri/silmələri (indels) tapacaq. Bir kompüterdə verə biləcəyiniz qədər CPU istifadə edəcək (64 nüvəyə sınaqdan keçirilmişdir). O, sürət nəzərə alınmaqla hazırlanmışdır və bir qovluqda ardıcıl çıxış faylları dəsti istehsal edir. Daha sonra eyni istinaddan istifadə edərək bir sıra Snippy nəticələrini götürə və əsas SNP uyğunlaşdırılmasını (və nəticədə filogenomik ağac) yarada bilər.

Homebrew (MacOS) və ya LinuxBrew (Linux) quraşdırın, sonra:

Bu, ən son versiyanı birbaşa Github-dan quraşdıracaq. Snippy-nin zibil kataloqunu $PATH-ə əlavə etməlisiniz.

İstədiyiniz versiyanın olduğundan əmin olun:

Bütün asılılıqların quraşdırıldığını və işlədiyini yoxlayın:

  • FASTA və ya GENBANK formatında istinad genomu (birdən çox kontigiyada ola bilər)
  • FASTQ və ya FASTA formatında (.gz sıxılmış ola bilər) ardıcıllıqla oxunan fayl(lar)
  • nəticələri yerləşdirmək üçün bir qovluq
Uzatma Təsvir
.tab Bütün variantların tab ilə ayrılmış sadə xülasəsi
.csv .tab faylının vergüllə ayrılmış versiyası
.html .tab faylının HTML versiyası
.vcf VCF formatında son şərh edilmiş variantlar
.yataq BED formatında olan variantlar
.gff GFF3 formatında olan variantlar
.bam BAM formatında düzülmələr. Xəritəsiz, multimapping oxunuşları daxildir. Dublikatları istisna edir.
.bam.bai .bam faylı üçün indeks
.log Əmrlərin icrası və onların çıxışları olan log faylı
.aligned.fa İstinad versiyası, lakin - ilə mövqedə dərinliyi=0 və N üçün 0 < dərinlik < --mincov (variantları yoxdur)
.consensus.fa İstinad genomunun bir versiyası hamısı variantları yaradılmışdır
.consensus.subs.fa İstinad genomunun bir versiyası yalnız əvəzetmə variantları yaradılmışdır
.raw.vcf Filtrlənməmiş variant Freebayes-dən zəng edir
.filt.vcf Filtrlənmiş variant Freebayes-dən zəng edir
.vcf.gz BGZIP vasitəsilə sıxılmış .vcf faylı
.vcf.gz.csi bcftools indeksi vasitəsilə .vcf.gz üçün indeks )

⚠️ ❌ Snippy 4.x edir YOX Snippy 3.x-in etdiyi aşağıdakı faylları istehsal edin

Uzatma Təsvir
.vcf.gz.tbi TABIX vasitəsilə .vcf.gz üçün indeks
.depth.gz .bam faylı üçün samtools dərinliyi -aa çıxışı
.depth.gz.tbi .depth.gz faylı üçün indeks

TAB/CSV/HTML formatlarında sütunlar

ad Təsvir
CHROM Variantın tapıldığı ardıcıllıq məsələn. FASTA arayışında >-dən sonra ad
POS 1-dən saymaqla ardıcıllıqla yerləşdirin
TİP Variant növü: snp msp ins del kompleksi
REF İstinaddakı nukleotid(lər).
ALT Oxumalar tərəfindən dəstəklənən alternativ nukleotid(lər).
DÜLÜL REF və ALT üçün tezliklər sayılır

Əgər siz Genbank faylını FASTA faylı əvəzinə --referans kimi təqdim etsəniz, Snippy variantın hansı xüsusiyyətə təsir etdiyini bildirmək üçün genom annotasiyasından istifadə edərək bu əlavə sütunları dolduracaq:

ad Təsvir
FTYPE Təsirə məruz qalan xüsusiyyətlər sinfi: CDS tRNA rRNA .
STRAND Strand xüsusiyyəti aktiv idi: + - .
NT_POS Xüsusiyyət daxilində variantın nukleotid mövqeyi / nt ilə uzunluq
AA_POS Qalıq mövqeyi / aa ilə uzunluq (yalnız FTYPE CDS olduqda)
LOCUS_TAG Xüsusiyyətin /locus_tag (əgər varsa)
GEN Xüsusiyyətin /gen etiketi (əgər varsa)
MƏHSUL Xüsusiyyətin /məhsul etiketi (əgər varsa)
ETKİ Bu variantın snpEff annotasiya edilmiş nəticəsi (.vcf-də ANN teqi)

Növ ad Misal
snp Tək nukleotid polimorfizmi A => T
mnp Çoxlu nuklotid polimorfizmi GC => AT
ins Daxiletmə ATT => AGTT
del Silinmə ACGG => ACG
kompleks snp/mnp birləşməsi ATTC => GTTA

Variant zəngi Freebayes tərəfindən həyata keçirilir. İstifadəçi nəzarəti altında olan əsas parametrlər bunlardır:

  • --mincov - nəzərə alınacaq saytı əhatə edən minimum oxunma sayı (default=10)
  • --minfrac - istinaddan fərqlənməli olan oxunuşların minimum nisbəti
  • --minqual - minimum VCF variantı "keyfiyyət" çağırışı (defolt = 100)

Snippy-vcf_report ilə variantları ətraflı nəzərdən keçirin

Snippy-ni --report seçimi ilə işlətsəniz, o, avtomatik olaraq snippy-vcf_report-u işlədəcək və snps.vcf-də hər SNP üçün bu kimi bölməyə malik snps.report.txt faylını yaradacaq:

Bu hesabatı yaratmaq istəyirsinizsə sonra Snippy-ni işə salmısınız, onu birbaşa işə sala bilərsiniz:

Veb brauzerdə baxmaq üçün HTML versiyasını istəyirsinizsə, --html seçimindən istifadə edin:

O, hər bir variant üçün samtools tview-i işlətməklə işləyir, əgər 1000-lərlə variantınız varsa, bu çox yavaş ola bilər. Mümkün qədər yüksək --cpus istifadə etmək tövsiyə olunur.

--rgid BAM və VCF faylında Read Group ( RG ) ID ( ID ) və Nümunəni ( SM ) təyin edəcək. Əgər təchiz olunmasa, o, həm ID, həm də SM üçün --outdir qovluq adından istifadə edəcək.

--mapqual variant zəngində qəbul ediləcək minimum xəritələmə keyfiyyətidir. BWA MEM 60-dan istifadə edərək oxunmanın "unikal şəkildə xəritələndiyini" bildirir.

--basequal variant çağırışda nukleotidin istifadə edilməli olduğu minimum keyfiyyətdir. Səhv ehtimalına uyğun gələn 13-dən istifadə edirik

5%. Bu, ənənəvi SAMtools dəyəridir.

--maxsoft, hizalanmadan imtina etməzdən əvvəl yumşaq şəkildə kəsilməyə imkan verən hizalanmanın neçə əsasıdır. Bu, yerli uyğunlaşma üzərində qlobal təşviq etməkdir və samclip alətinə ötürülür.

--mincov və --minfrac mövcud statistik ölçüdən kənar çağırış variantına sərt həddlər tətbiq etmək üçün istifadə olunur. Optimal dəyərlər ardıcıllıq dərinliyinizdən və çirklənmə dərəcənizdən asılıdır. 10 və 0.9 dəyərləri ümumiyyətlə istifadə olunur.

--targets BED faylını götürür və yalnız həmin bölgələrdəki variantları çağırır. Əgər siz yalnız xüsusi lokuslardakı variantlarla (məsələn, AMR genləri) maraqlanırsınızsa, lakin hələ də amplikon ardıcıllığından daha çox WGS həyata keçirmirsinizsə, adətən tələb olunmur.

--contigs SNP-ləri oxumaqdansa, kontiglərdən çağırmağa imkan verir. Çox nümunəli analizdə zəngləri digər oxunmuş nümunələrlə bərabər səviyyədə qoymaq üçün kontigləri sintetik oxunuşlara ayırır.

Eyni istinaddan çoxlu təcrid üçün SNP-lərə zəng etsəniz, yüksək dəqiqlikli filogeniya yaratmaq üçün istifadə edilə bilən (mümkün rekombinasiyaya məhəl qoymayaraq) “əsas SNP-lərin” uyğunlaşdırılmasını yarada bilərsiniz. "Əsas sayt" mövcud olan genomik mövqedir hamısı nümunələri. Əsas sahə hər nümunədə eyni nukleotidə malik ola bilər (“monomorf”) və ya bəzi nümunələr fərqli ola bilər (“polimorf” və ya “variant”). Əgər "ins", "del" variant növlərinin fəsadlarına məhəl qoymasaq və sadəcə variant saytlarından istifadə etsək, bunlar "əsas SNP genomu"dur.

Eyni istinada qarşı bir sıra təcrid ardıcıllığının (oxumalar və ya kontiglər) icrasını sadələşdirmək üçün siz snippy-multi skriptindən istifadə edə bilərsiniz. Bu skript tələb edir nişan ayrılmışdır giriş faylı aşağıdakı kimidir və qoşalaşmış son oxunuşları, tək uçlu oxunuşları və yığılmış kontigləri idarə edə bilər.

Sonra biri çıxış skriptini yaratmaq üçün bunu işlədəcək. Birinci parametr input.tab faylı olmalıdır. Qalan parametrlər hər hansı qalan paylaşılan snippy parametrləri olmalıdır. ID hər bir izolatın --outdir üçün istifadə olunacaq.

O, həmçinin əsas genom SNP uyğunlaşdırma faylları nüvəsini yaratmaq üçün sonunda snippy-core işləyəcək.* .

Uzatma Təsvir
.aln --aformat formatında əsas SNP uyğunlaşdırılması (defolt FASTA)
.full.aln Bütün genom SNP uyğunlaşması (invariant saytlar daxildir)
.tab Tab ilə ayrılmış sütunlu siyahısı əsas Allelləri olan SNP saytları, lakin qeydlər YOXDUR
.vcf Bütün aşkar edilmiş allellər üçün genotip GT etiketləri ilə çox nümunəli VCF faylı
.mətn Hizalanma/əsas ölçülü statistikanın tab ilə ayrılmış sütunlu siyahısı
.ref.fa FASTA versiyası/nüsxəsi --ref
.özünü_maska.yataq BED faylı --mask auto istifadə edildikdə yaradılır.

Niyə core.full.aln əlifba şorbasıdır?

core.full.aln faylı FASTA formatlı çoxlu ardıcıl düzülmə faylıdır. Onun istinad üçün bir ardıcıllığı və əsas genom hesablamasında iştirak edən hər bir nümunə üçün bir ardıcıllığı var. Hər bir ardıcıllıq istinad ardıcıllığı ilə eyni uzunluğa malikdir.

Xarakter Məna
ATGC İstinad kimi
atgc İstinaddan fərqlidir
- Bu nümunədə sıfır əhatə dairəsi və ya istinada nisbətən silinmə
N Bu nümunədə aşağı əhatə dairəsi (--mincov əsasında)
X Maskalı istinad bölgəsi (--mask-dan)
n Heterozigot və ya keyfiyyətsiz genotip (GT=0/1 və ya QUAL < --minqual snps.raw.vcf var)

Siz daxil edilmiş snippy-clean_full_aln istifadə edərək bütün "qəribə" simvolları silə və onları N ilə əvəz edə bilərsiniz. Bu, onu ağac qurma və ya rekombinasiya-çıxarma alətinə ötürmək lazım olduqda faydalıdır:

  • Əgər siz genomun müəyyən bölgələrini maskalamaq istəyirsinizsə, --mask parametri ilə BED faylı təqdim edə bilərsiniz. Bu bölgələrdəki hər hansı SNP xaric ediləcək. Bu kimi genomlar üçün adi haldır M.tuberculosis sinir bozucu təkrarlanan PE/PPE/PGRS genləri yanlış pozitivlərə səbəb olur və ya faj bölgələrini maskalayır. Üçün --mask yataq faylı M.tb etc/Mtb_NC_000962.3_mask.bed qovluğunda Snippy ilə təmin edilir. O, https://gph.niid.go.jp/tgs-tb/ ünvanından XLSX faylından götürülüb.
  • Əgər snippy --cleanup seçimindən istifadə etsəniz, istinad faylları silinəcək. Bu o deməkdir ki, snippy-core istinadı "avtomatik tapa" bilməz. Bu halda siz sadəcə olaraq FASTA formatında arayış təqdim etmək üçün snippy-core --reference REF istifadə edirsiniz.

Çox oxuduqda sürəti artırır

Bəzən SNP-lərə zəng etməyiniz lazım olan daha çox ardıcıllıq dərinliyinə sahib olacaqsınız. Ümumi problem tək bir bakterial izolat üçün bütün MiSeq axını hüceyrəsidir, burada 25 milyon oxunuş 2000x-ə qədər genom dərinliyi ilə nəticələnir. Bu, Snippy-ni lazım olduğundan daha yavaş edir, çünki əksər SNP-lər 50-100x dərinlikdə bərpa olunacaq. Ehtiyacınız olandan 10 dəfə çox məlumatınız olduğunu bilirsinizsə, Snippy FASTQ məlumatlarınızı təsadüfi olaraq alt-nümunə edə bilər:

Yalnız müəyyən bölgələrdə SNP-lərə zəng etmək

Xüsusi SNP-lər axtarırsınızsa, deyək ki, istinad genomunuzdakı xüsusi genlərdə AMR ilə əlaqəli olanlar, orada yalnız variantlara zəng etməklə çox vaxta qənaət edə bilərsiniz. Sadəcə maraqlı bölgələri BED faylına qoyun:

Contigs arasında SNP-lərin tapılması

Bəzən nümunələrinizdən biri müvafiq FASTQ oxunuşları olmadan yalnız kontiglər kimi mövcuddur. Siz hələ də istinada qarşı variantlar tapmaq üçün Snippy ilə bu kontiglərdən istifadə edə bilərsiniz. O, bunu kontigləri 250 bp tək uclu oxunuşlara 2 &times --mincov vahid əhatə dairəsinə parçalayaraq edir.

Bu funksiyadan istifadə etmək üçün --R1 və --R2 təmin etmək əvəzinə contigs faylı ilə --ctgs seçimindən istifadə edirsiniz:

Bu çıxış qovluğu snippy-core ilə tamamilə uyğundur, beləliklə siz hizalamalar yaratmaq üçün FASTQ və contig əsaslı snippy çıxış qovluqlarını qarışdıra bilərsiniz.

Montaj səhvlərinin düzəldilməsi

The de novo montaj prosesi oxunuşları əldə etdikləri orijinal DNT ardıcıllığına yenidən qurmağa çalışır. Bu yenidən qurulmuş ardıcıllıqlar adlanır contigs və ya iskeleler. Müxtəlif səbəblərə görə, montaj prosesində istifadə edilən orijinal oxunuşlar tərəfindən dəstəklənməyən yığılmış kontiglərə kiçik səhvlər daxil edilə bilər.

Ümumi strategiya uyğunsuzluqları yoxlamaq üçün oxunuşları kontiglərə uyğunlaşdırmaqdır. Bu səhvlər variantlar kimi görünür (SNP və indekslər). bacarsaq tərs bu variantlardan daha çox kontigləri orijinal oxunuşların təqdim etdiyi dəlillərə uyğunlaşdıra bilərik. Aydındır ki, diqqətli olmadıqda bu strategiya səhv ola bilər Necə oxunuş düzülüşü yerinə yetirilir və hansı variantlar qəbul edilir.

Snippy bu kontigiyanın düzəldilməsi prosesində kömək edə bilər. Əslində o, snps.consensus.fa FASTA faylı istehsal edir, bu fayl təqdim edilmiş ref.fa giriş faylıdır, lakin snps.vcf-də aşkar edilmiş variantlar tətbiq olunur!

Bununla belə, Snippy mükəmməl deyil və bəzən şübhəli variantlar tapır. Adətən siz snps.vcf (gəlin buna düzəlişlər.vcf deyək) nüsxəsini çıxarar və etibar etmədiyimiz variantlara uyğun olan sətirləri silərdiniz. Məsələn, Roche 454 və PacBio SMRT kontigasiyalarını düzəldərkən biz ilk növbədə homopolimer xətalarını tapmağı gözləyirik və buna görə də snp tipli variantlardan daha çox ins görməyi gözləyirik.

Bu halda, aşağıdakı addımlardan istifadə edərək düzəliş prosesini əl ilə icra etməlisiniz:

İstəyə bilərsiniz təkrarlamaq Bu proses, Snippy-nin təkrar işləməsi üçün düzəldilmiş.fa-dan yeni --ref kimi istifadə etməklə. Bəzən bir səhvin düzəldilməsi BWA-ya əvvəllər edə bilmədiyi şeyləri uyğunlaşdırmağa imkan verir və yeni səhvlər aşkar edilir.

Snippy montajları düzəltməyin ən yaxşı yolu olmaya bilər - siz PILON və ya iCorn2 kimi xüsusi alətləri nəzərdən keçirməli və ya Quiver parametrlərini tənzimləməlisiniz (Pacbio məlumatları üçün).

Bəzən oxuduqları şeylərlə maraqlanırsınız yox istinad genomuna uyğunlaşdırın. Bu oxunuşlar yeni olan DNT-ni təmsil edir sənin potensial maraqlı olan nümunə. Standart strategiya budur de novo tez-tez plazmidlər kimi mobil genetik elementlərdən ibarət olan bu yeni DNT elementlərini tapmaq üçün xəritələnməmiş oxunuşları toplayın.

Varsayılan olaraq, Snippy edir yox Xəritəsiz oxunuşları hətta BAM faylında da saxlamayın. Onları saxlamaq istəyirsinizsə, --unmapped seçimindən istifadə edin və uyğunlaşdırılmamış oxunuşlar sıxılmış FASTQ faylında saxlanılacaq:

Snippy adı SNP ("snip" tələffüz olunur) , snappy ("sürətli" deməkdir) və Skippy the Bush Kengaroo (avstraliya mənşəli olduğunu ifadə etmək üçün) birləşməsidir.

Snippy GPL (versiya 2) altında buraxılan pulsuz proqramdır.

Lütfən, Problem İzləyicisinə təkliflər və səhv hesabatları təqdim edin

  • perl >= 5.18
  • biooperl >= 1.7
  • bwa mem >= 0.7.12
  • minimap2 >= 2.0
  • samtools >= 1.7
  • bcftools >= 1.7
  • yataq alətləri >= 2.0
  • GNU paralel >= 2013xxxx
  • freebayes >= 1.1 (freebayes, freebayes-paralel, fasta_generate_regions.py)
  • vcflib >= 1.0 (vcfstreamsort, vcfuniq, vcffirstheader) >= 0.5
  • snpEff >= 4.3
  • samclip >= 0.2
  • seqtk >= 1.2
  • snp-saytları >= 2.0
  • any2fasta >= 0.4
  • wgsim >= 1.8 (yalnız sınaq üçün - wgsim əmri)

Linux (Ubuntu 16.04 LTS-də tərtib edilmişdir) və macOS (High Sierra Brew-də tərtib edilmişdir) üçün ikili faylların, JAR-ların və skriptlərin bəziləri daxil edilmişdir.


Müzakirə

Biz cins daxilində ikievli növ üçün ilk genomu yaratdıq Solanum, cinsi fərqləndirmə və cinsi təyinetmənin erkən ortaya çıxmasını və genomik imzalarını qiymətləndirmək. Bunun üçün biz yüksək keyfiyyətli genom yığdıq, a kCinslə əlaqəli genomik bölgələri tapmaq üçün -mer yanaşması və cinsiyyət təyini və cinsi dimorfizmdə iştirak edən genləri tapmaq üçün çiçək toxumalarının RNT-seq təcrübəsini həyata keçirdi. Biz bunu ikitərəfli tapdıq S. appendiculatum Bu yaxınlarda inkişaf etmiş cinsi təyinetmə bölgəsinə sahib olduğu və kişilərin heteroqametik cins olma ehtimalı olduğu görünür. Həqiqətən də, müşahidə etdiyimiz kişi-qadın ardıcıllığının fərqlilik nümunələri cinsi təyin etməkdə iştirak edən genləri ehtiva edən böyük bir rekombinasiya etməyən bölgənin mövcudluğunu göstərmir. Üstəlik, cinsi fərqləndirmə ilə əlaqəli spesifik lokuslar, bu sistemdə dioezin təkamülündə pektin sintezinin və deqradasiyasının tənzimlənməsində, o cümlədən funksional olaraq qadın çiçəklərində müşahidə olunan spesifik fenotipik keçidlərdə dəyişikliklərin iştirak etdiyini göstərir. Bu genom və əlaqəli namizəd genlər dioeziyaya son keçidlərin davamlı tədqiqi üçün qiymətli genomik mənbədir. Solanum.

Məhdud cinsi qərəzli gen ifadəsi və az sayda cinsi əlaqəli bölgələr cinsi dimorfizmin son təkamülü ilə uyğun gəlir.

Biz çiçək qönçələrində çox az miqdarda cinsi qərəzli gen ifadəsini və yetkin çiçəklərin ifadə profillərində daha böyük, lakin hələ də məhdud cinsi fərqləri tapdıq. Gen ifadəsinin cinsi spesifikliyinin cinsi dimorfizmin mənşəyindən bəri zamanla yığılmasının gözlənildiyini nəzərə alsaq (Ellegren və Parsch 2007), bir neçə genin cinsi qərəzli ifadə nümayiş etdirdiyi müşahidəsi gənc cinsiyyət təyinetmə sistemi ilə uyğun gəlir. Cinslər arasındakı bu çox təvazökar genomik və transkriptomik fərq, ikievli gecə kölgələrində ən az tələffüz edilən erkək və dişi çiçəklər arasında incə morfoloji fərqləndirmə ilə uyğun gəlir ( Anderson et al. 2015).

Yetkin çiçəklər üçün cinsi əsaslı genlər kişilərə nisbətən qadınlarda daha çox ifadə edildi (şək. 2B). Bu tapıntı, iki sistem arasında cinsi ifadədə inkişaf fərqləri səbəbindən yaxınlarda inkişaf etmiş cinsi təyin edən bölgəyə - bağ qulançarına (Harkess et al. 2015) malik başqa bir növlə ziddiyyət təşkil edir. Qulançarda dişi çiçəklərdə mikrospor mayozundan əvvəl anter inkişafı dayandırılır (Caporali et al. 1994), beləliklə, daha sonra polen inkişafı ilə əlaqəli genlərin yalnız kişilərdə ifadə ediləcəyi gözlənilir (Harkess et al. 2015). Bunun əksinə olaraq, in S. appendiculatum dişi çiçəklərdə yetkin tozcuqlar əmələ gəlir, lakin apertural bölgələrdə primeksin yatırmır (Zavada və Anderson 1997). Daha çox qadın meyilli genləri müşahidə edirik S. appendiculatum buna görə də, dişi çiçəklərdə həm funksional üslubların (dişi reproduktiv hissələri) həm də (qeyri-adekvat) tozcuqların aktiv istehsalının (Levine və Anderson 1986) bu saxlanmasına uyğundur və görünür, erkək bitkilərdə dişi reproduktiv hissələrin bəzi funksiyalarının itirilməsini göstərir. Bu mümkün funksiya itkisi, tam qadın reproduktiv hissələrinə malik olan erkək çiçəklərin morfologiyasında əks olunmur (daha qısa üslublarla olsa da, Anderson 1979 Anderson və Levine 1982).

Aperturat polen əmələ gəlməsi üçün potensial mexanizm kimi pektinin tənzimlənməsi

Potensial qadınlaşdırıcı və ya kişiləşdirici təsirlər oynayan namizəd genlərin müəyyən edilməsi bu yaxınlarda təkamülləşmiş ikievli növlərdə cinsiyyət təyinini başa düşmək üçün vacibdir. Kollektiv olaraq, bu tədqiqatda üç fərqli yanaşma - gen ailəsi dinamikası, cinsi qərəzli ifadə və cinsə spesifik k-mers - üçün fərqlənən bir sıra lokuslar aşkar etdi S. appendiculatum. Bunlardan bəziləri, ehtimal ki, bu növün diosiyaya keçidi ilə heç bir əlaqəsi yoxdur, bəziləri isə cins fərqləndirmə və cinsi təyinetmədə birbaşa iştirak etməkdənsə, bu çoxalma sisteminin keçidinin ümumi fizioloji nəticələri ilə əlaqələndirilir. Məsələn, gen ailəsi analizimiz, xüsusən də S1 ailəsinin öz-özünə uyğunsuzluq zülalının daralmasını aşkar etdi. S. appendiculatum. Dioesinin təkamülü öz-özünə mayalanma ehtimalını kəskin şəkildə azaltdığından, bu keçidin funksional öz-özünə uyğunsuzluq genlərini saxlamaq üçün seçimi rahatlaşdıracağı gözlənilir. (məsələn, özünə uyğunluq Wu et al. 2019). Buna baxmayaraq, aşkar edilmiş genetik dəyişikliklər arasında, hər üç fərqli yanaşmamızın cinsi diferensiallaşma ilə əlaqəli pektinlə əlaqəli genləri aşkar etməsi təəccüblüdür. S. appendiculatum, o cümlədən pektin asetilesterazlar (PAE), pektin liazaya bənzər zülallar (PLL) və pektin metilesteraz inhibitorları (PMEI). Bizim tapıntımız xüsusilə maraqlıdır, çünki pektin sintezi və tənzimlənməsi polen divarının inkişafında və polen funksiyasında daha geniş rol oynadığı bilinir. Pektin, metil- və asetil-esterləşə bilən homogalakturonandan (HG) ibarətdir (Wu et al. 2018) və pektin polisaxaridləri polen divarının kritik komponentləridir. Pektin polisaxaridini sintetik və deqrasiya edən fermentləri kodlayan genlərdəki mutantlar, o cümlədən pektin metilesteraza (PME), poliqalatkturonaza (PG), PAE və PLL - tez-tez qüsurlu primeksin, intin və ya digər polen divarı strukturlarını göstərir (Shi et al. 2015 Wu et al. 2018). Təəccüblü şəkildə, in Nikotiyana (Solanaceae), bir pektin asetilesteraz geninin transgen mutantları, PAE1, polen taxıllarının səthində cücərmə məsamələrinin itirilməsini nümayiş etdirir (Gou et al. 2012) - bu, dişi çiçəklərdə müşahidə edilən qeyri-perturasiya poleninə çox oxşar bir fenotipdir. S. appendiculatum. Həddindən artıq ifadə PAE1 transgen tütündə polen taxıllarının cücərməsinə və polen borularının böyüməsinə təsir edərək şiddətli kişi sonsuzluğu ilə nəticələnir (Gou et al. 2012).

Digər pektinlə əlaqəli zülallar da polen borularının cücərməsində və böyüməsində, o cümlədən PME-lər və onların inhibitorları-PMEI-lər arasında əlaqələndirilmiş tənzimləmə vasitəsilə çoxsaylı funksional rollarda iştirak edir (Mollet et al. 2013). Məsələn, PME böyüməni davam etdirmək üçün kifayət qədər plastikliyi təmin edən artan polen borularının apikal zonasında metil esterləşdirilmiş HG istehsalı üçün vacibdir (Cheung və Wu 2008). Metil ester qruplarının PME tərəfindən çıxarılması PLL və ya PG kimi pektinləri parçalayan fermentlərə HG onurğasını parçalamağa imkan verə bilər ki, bu da hüceyrə divarının sərtliyinə təsir göstərə bilər (Gaffe et al. 1994 Micheli 2001). Apikal hüceyrə divarında güc və plastiklik arasında tarazlığı qorumaq üçün polen hüceyrəsinin PMEI-lər tərəfindən tənzimlənməsi yolu ilə yaxından tənzimlənən PME fəaliyyəti səviyyəsini qoruya biləcəyi təklif edilmişdir (Bosch və Hepler 2005, 2006). Məsələn, səsin susdurulması PME1 tütündə gen (Bosch və Hepler 2006) və PMEI-nin bastırılması At1g10770 in Ərəbidopsis (Zhang et al. 2010), hər ikisi polen borusu böyüməsinin yavaşlaması ilə nəticələnir.

PAE-nin cinsə xas ifadəsini aşkar etməklə yanaşı, biz həmçinin namizəd cinsini təyin edən bölgədə (scf14997) üç PMEI tapdıq. S. appendiculatum. Bu ehtimal edilən cinsi təyin edən genlər arasındakı düzülmə və əlaqə, digər ikiotlu bitkilərdə tapılanlara bənzər son dublikasiyalarla uyğun gəlir (Harkess et al. 2017 Akagi et al. 2018). Bu genlərin spesifik funksiyası hələ məlum olmasa da, PMEI, PAE və digər əlaqəli zülalların polenin əmələ gəlməsində və funksiyasında ümumi rolları iki cinsin cinsinə məxsus polen funksiyalarının yaranması üçün bəzi mümkün modelləri təklif edir. S. appendiculatum. Məsələn, bu PMEI nüsxələrinin PAE daxil olmaqla, yetkin çiçəklərdə aşağı axın pektinlə əlaqəli genlərin diferensial (cinslə əlaqəli) ifadə modellərinə təsir göstərməsi və bununla da qadın çiçəklərində müşahidə olunan feminizasiya effektini (yəni, qeyri-perturativ polen) inhibə etməsi və ya başlaması mümkündür. . Bu proses digər sıx bağlı genləri də əhatə edə bilər: eyni sintenik blokda a üçün kodlaşdıran gen var LOB domen zülalı (sapp25115), the Ərəbidopsis orfoloqu (AT1G06280) xüsusi olaraq anterlərdə tapetum və mikrospor inkişafı zamanı ifadə edilir (Oh et al. 2010 Zhu et al. 2010). Diferensial şəkildə ifadə olunan digər genlər də aydın şəkildə müvafiq funksiyalara malikdir. Məsələn, piruvat dehidrogenaz E1 komponenti alt birimi alfa (sapp29734) yetkin çiçək piruvat dehidrogenazda kişilər və qadınlar arasında fərqli şəkildə ifadə edildi, polen taxıllarının ekzin təbəqəsinin əsas komponenti olan sporopollenin biosintezinin erkən mərhələlərini katalizləyir (Jiang et al. 2013).

Pektinlə əlaqəli genlər dioesiya təkamülündə gözlənilən kişi sterilizasiyası mərhələsi üçün perspektivli namizədlər olsalar da, onların cinsi təyin etmənin əsas tənzimləyicisinin aşağı axınında olması mümkündür. Məsələn, scf15476-da tapılana oxşar MYB kimi transkripsiya faktoru (gen) sapp39069) cinsiyyətin müəyyən edilməsində iştirak etmişdir Qulançar officinalis (Murase et al. 2017) və onun ehtimal olunan ortoloqunun sökülməsi kişilərdə kişi sonsuzluğuna səbəb olur. Arabidopsis thaliana (Zhu et al. 2008). Baxmayaraq ki sapp39069 transkripsiya faktoru cinsiyyətin tənzimləyicisi ola bilər, R2R3 MYB super ailəsinin tənzimləmə funksiyalarının həddindən artıq müxtəlifliyinə malik olduğu göstərilmişdir (Yanhui et al. 2006) və bizdə bu genin rolunu müəyyən etmək üçün hələ kifayət qədər məlumat yoxdur. S. appendiculatum. Buna görə də, yuxarıdakı bəzi genetik dəyişikliklərin pektinlə əlaqəli genlərdə aşağı axın dəyişikliklərinə səbəb olub-olmaması gələcək tədqiqatlarda araşdırılmalıdır. Məsələn, erkək və dişi çiçəklərin əlavə inkişaf mərhələlərinin transkriptom təhlili çiçəklərin inkişafı zamanı pektin tənzimlənməsinin necə dəyişdiyini və kişi və dişi çiçəklər arasında fərqli ifadə fərqlərinin xüsusi vaxtını aydınlaşdıra bilər. Asılı olmayaraq, gen ekspresyon analizləri ilə birlikdə cinsə xas ardıcıllıqların genom miqyasında axtarışı ilə biz həm ehtimal olunan cinsi təyin edən bölgələri, həm də cinsdən gələn yolda gözlənilən iki addımdan ən azı birinə töhfə verə biləcək genləri aşkar edə bildik. hermafroditizmdən dioikliyə. Bu lokuslar bu sistemdə birbaşa funksional analiz üçün, xüsusən də qadın çiçəklərində qeyri-perturativ polen inkişafı fenotipləri üçün aydın namizədlər təqdim edir.

The S. appendiculatum Genom, Dioesiyaya təkrarlanan keçidləri həll etmək üçün bir təməl təmin edir

Speciose cinsi olmasına baxmayaraq Solanum 20-dən az sənədləşdirilmiş ikievli növdən ibarətdir, dioikliyin ən azı 4 dəfə müstəqil olaraq yarandığı təxmin edilir (Anderson et al. 2015). Bu keçidlərin bir çoxunun ümumi fenotipik xüsusiyyətləri, xüsusən də qadın fərdlərində qeyri-perturativ polen inkişafı və kişi çiçəklərində pistilin kəskin azalması kimi görünür ( Anderson et al. 2015). Beləliklə, bu gənc cins (təxminən ∼17 My old Särkinen et al. 2013) təkrarlanan, son dioesiyaya keçidlərin genomik xüsusiyyətlərini və genetik mexanizmlərini həll etmək üçün perspektivli bir sistem təklif edir.

Solanum appendiculatum ardıcıl genomları olan ən son təkamül etmiş ikievli angiospermlər arasındadır (<4 My Echeverría-Londoño et al. 2020). Burada yaradılan resurslar yüksək keyfiyyətli yığılmış genom, annotasiya və gen ifadəsi analizləri üçün transkriptom xarakteristikası və paralel sistemlərdə istiqamətləndirilmiş kəşfiyyat üçün bir sıra namizəd yerləri də daxil olmaqla yüksək spesifik cinsdə dioesiyaya əlavə keçidləri araşdırmaq üçün dəyərli çərçivə təmin edir. Əksər ikievli gecə kölgələri oxşar cinsi əlamətlərə, o cümlədən dişi çiçəklərin erkəkciklərində qeyri-perturativ polenlərə malik olduğundan ( Anderson et al. 2015), bu qrupdakı dioikliyin paralel mənşəyinə toxunmaqla bu keçidlərin genomik, genetik, və inkişaf səviyyələri. ilə birlikdə S. appendiculatum genom, digər iki evlilikdən ardıcıllıq məlumatları Solanum cinsi təyin etmənin bu paralel mənşəyini araşdırmaq üçün növlərdən istifadə edilə bilər Solanum, o cümlədən, bunların oxşar genomik xüsusiyyətlərə malik olub-olmaması (cinsi təyin etməkdə olan bölgələrin sayı, ölçüsü və paylanması baxımından), eyni növ genomik/genetik dəyişikliklərdən (yəni, ortoloji cinslə əlaqəli bölgələr) və/ və ya eyni spesifik yolları və fərdi lokusları, o cümlədən cinsi fərqləndirmənin erkən ortaya çıxmasında pektinlə əlaqəli lokusların ümumi rolunun olub-olmamasını əhatə edir. Bu kontekstdə, S kimi növlərdə cinsi ifadənin genetik nəzarətinin öyrənilməsi. çoxarvadlılıqS. conocarpum—both of which bear anthers on female flowers, but that anthers are largely devoid of any pollen ( Anderson et al. 2015)—could prove especially informative. Data from multiple recent, parallel systems will also be critical for testing the general predictions of theoretical models of the evolution of dioecy and assessing whether the complexity of genomic transitions that underpinning real empirical transitions matches well with these theoretical expectations.


Genomics & Systems Biology

David P. Clark , Nanette J. Pazdernik , in Molecular Biology (Second Edition) , 2013

2 Assembling Small Genomes by Shotgun Sequencing

As described in Chapter 8 , individual dideoxy sequencing reactions give lengths of sequence that are several hundred base pairs long. A whole genome must be assembled from vast numbers of such short sequences. There are three approaches to whole genome assembly: shotgun sequencing , cloned contig sequencing, and the directed shotgun approach, which is really a mixture of the first two.

In shotgun sequencing the genome is broken randomly into short fragments (1 to 2 kbp long) suitable for sequencing. The fragments are ligated into a suitable vector and then partially sequenced. Around 400–500 bp of sequence can be generated from each fragment in a single sequencing run. In some cases, both ends of a fragment are sequenced. Computerized searching for overlaps between individual sequences then assembles the complete sequence. Overlapping sequences are assembled to generate contigs ( Fig. 9.04 ). The term contig refers to a known DNA sequence that is contiguous and lacks gaps.

Figure 9.04 . Shotgun Sequencing

The first step in shotgun sequencing an entire genome is to digest the genome into a large number of small fragments suitable for sequencing. All the small fragments are then cloned and sequenced. Computers analyze the sequence data for overlapping regions and assemble the sequences into several large contigs. Since some regions of the genome are unstable when cloned, some gaps may remain even after this procedure is repeated several times.

Sequencing very large numbers of small fragments provides enough information to assemble a complete genome sequence—if your computer is powerful enough.

Since fragments are cloned at random, duplicates will quite often be sequenced. To get full coverage the total amount of sequence obtained must therefore be several times that of the genome to allow for duplications. For example, 99.8% coverage requires a total amount of sequence that is 6- to 8-fold the genome size. In principle, all that is required to assemble a genome, however large, from small sequences is a sufficiently powerful computer. No genetic map or prior information is needed about the organism whose genome is to be sequenced. The original limitation to shotgun sequencing was the massive data handling that is required. The development of faster computers overcame this problem.

The first bacterial genome to be sequenced was Hemofil qripi. The sequence was deduced from just under 25,000 sequences averaging 480 bp each. This gave a total of almost 12 million bp of sequence—six times the genome size. Computerized assembly using overlaps resulted in 140 regions of contiguous sequence—that is, 140 contigs.

Bakteriya hemofil had the honor of being the first organism to be totally sequenced.

The gaps between the contigs may be closed by more individualistic procedures. The easiest method is to re-screen the original set of clones with pairs of probes corresponding to sequences on the two sides of each gap. Clones that hybridize to both members of such a pair of probes presumably carry DNA that bridges the gap between two contigs. Such clones are then sequenced in full to close the gaps between contigs. However, many of the gaps between contigs are due to regions of DNA that are unstable when cloned, especially in a multicopy vector. Therefore, a second library in a different vector, often a single copy vector such as a lambda phage, is often used during the later stages of shotgun cloning. Pairs of end-of-contig probes are used to screen the new library for clones that hybridize to both probes and carry DNA that bridges the gap between the two contigs ( Fig. 9.05A ). A third approach, which avoids cloning altogether, is to run PCR reactions on whole genomic DNA using random pairs of PCR primers corresponding to contig ends. A PCR product will result only if the two contig ends are within a few kb of each other ( Fig. 9.05B ).

Figure 9.05 . Closing Gaps between Contigs

To identify gaps between contigs, probes or primers are made that correspond to the ends of the contigs (pink). In (A) a new library of clones (green) is screened with end-of-contig probes. Clones that hybridize to probes from two sides of a gap are isolated. In this example, a probe for the end of contig #3 (3b) and the beginning of contig #4 (4a) hybridize to the fragment shown. Therefore, the sequence of this clone should close the gap between contig #3 and #4. (B) The second approach uses PCR primers that correspond to the ends of contigs to amplify genomic DNA. If the primer pair is within a few kilobases of each other, a PCR product is made and can be sequenced.


Metodlar

Kriptosporidium specimens

dörd C. hominis specimens were used in whole genome sequencing in the study: specimens 30974 and 37999 of the IbA10G2 subtype and 30976 and 33537 of the IaA28R4 subtype. Specimen 30974 was collected from a patient from a cryptosporidiosis outbreak in July 2010 in Columbia, South Carolina associated with a splash pad that had problems with filtration and chlorination. Testing of filter backflush and stools from six patients all identified the presence of the C. hominis IbA10G2 subtype. Specimen 30976 was collected from a patient in a cryptosporidiosis outbreak in July 2010 in the St. Louis area in Illinois and Missouri associated with swimming pools and a water park. Testing of nine patient specimens identified the occurrence of C. hominis IaA28R4 in seven patients, IaA24R4 in one patient, and IdA15G1 in another patient. Specimen 33537 was collected from a patient from a cryptosporidiosis outbreak in July 2011 in Walsenburg, Colorado associated with a waterpark that had problems with the chlorinator. Testing of filter backflush and stools from five patients identified IaA28R4 in all. Specimen 37999 was collected from a sporadic cryptosporidiosis patient in Twin Falls, Idaho in September 2012. All stool specimens were collected fresh from symptomatic patients and stored in 2.5% potassium dichromate at 4°C prior to being used in Kriptosporidium oocyst isolation for whole genome sequencing within 6 months. Kriptosporidium species and subtypes were determined by PCR-RFLP analysis of the small subunit rRNA and sequence analysis of the 60 kDa glycoprotein (gp60) genes, respectively [17].

Oocyst isolation and whole genome amplification

Kriptosporidium oocysts were isolated from stool specimens by discontinuous sucrose and cesium chloride gradients as previously described [52]. They were further purified by immunomagnetic separation using the Dynabeads Anti-Kriptosporidium kit (Invitrogen, Carlsbad, CA). After treating the purified oocysts with 10% commercial bleach on ice for 10 min and five cycles of freezing and thawing, DNA was extracted from them by using the Qiagen DNeasy Blood & Tissue Kit (Qiagen, Valencia, CA). Whole genome amplification (WGA) of the 25–100 ng of extracted DNA was conducted by using the REPLI-g Midi Kit (Qiagen). The quality of the WGA products was verified by sequencing BamHI-digested WGA products cloned into a pUC19 vector (Fermantas, Pittsburgh, PA). The sequencing was done by using the ABI BigDye Terminator v3.1 Cycle Sequencing Kit on an ABI3130 Genetic Analyzer (Applied Biosystems, Foster City, CA).

454 and Illumina sequencing and de novo contig assembly

The WGA products from specimens 30974 and 33537 were sequenced with 454 technology on a GS-FLX Titanium System (Roche, Branford, CT) by using approximately 1 μg of DNA for library construction and following standard Roche library protocols, with an average insert size of 600 bp. One full PTP plate was used in the analysis of each specimen. The sequence reads from each run were assembled using Newbler in the GS De Novo Assembler (http://www.454.com/products/analysis-software/) with the default settings.

The WGA products from specimens 30976 and 37999 were used to generate Illumina TruSeq (v3) libraries (average insert size: 350 bp) and sequenced 100×100 bp paired-end on an Illumina Genome Analyzer IIx (Illumina, San Diego, CA). The sequence reads with a minimum quality of 20 were trimmed by using CLC Assembly Cell 4.1.0 (http://www.clcbio.com/products/clc-assembly-cell/). The data were then assembled with default parameters and a minimum contig length of 500 bp, with scaffolding using paired-end data.

Comparative genomic analyses

For comparisons of sequences at the genome level, contigs of each specimen were aligned with reference sequences of the near complete genome of the C. parvum IOWA isolate (version AAEE00000000.1) and the 1,422 contigs of the C. hominis TU5205 isolate (version NZ_AAEL00000000.1) using Nucmer, a tool in MUMmer 3.23 (http://mummer.sourceforge.net/) [53]. Multiple genome alignments were also constructed by using the progressive alginment algorithm of the Mauve 2.3.1 (http://asap.genetics.wisc.edu/software/mauve/) with default options [54]. In-house perl scripts were developed to calculate the average nucleotide identities. For the detection of SNPs, Fastqc 0.10.0 (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) was used for the QC analysis of Illumina sequence reads, and PRINSEQ 0.20.3 (http://prinseq.sourceforge.net/) [55] was used to remove low quality reads, with a min_qual_mean setting of 20 and min_len of 65. Reads were then aligned to reference sequences by using Bowtie 0.12.7 (http://bowtie-bio.sourceforge.net/index.shtml) [56]. The resulting SAM files were processed, sorted and duplicates were removed by using Picard 1.126 (http://broadinstitute.github.io/picard/). The mpileup in SAMtools (http://samtools.sourceforge.net/) was finally used to create the pileup file for SNP variant calls using the mpileup2snp in VarScan 2.3.7 (http://varscan.sourceforge.net/) [57]. Default parameters for VarScan were used except that min-avg-qual was set to 30.

PCR verification

As the comparative genomic analysis had identified some nucleotide sequences (AAEL01000413, AAEL01000728, and AAEL01000717) in the published C. hominis that had not been seen in the published C. parvum genome, primers were designed based on these sequences to verify the source of these sequences by PCR (Additional file 6: Table S1). Five specimens each of C. parvumC. hominis were used in PCR analysis of each target. In addition, two C. andersoni specimens were used in confirmation of Kriptosporidium-origin of contig AAEL01000728. Each specimen was analyzed in duplicate nested PCR using 50 μl PCR mixture consisting of 1 μl (

100 ng) of extracted DNA or 2 μL of primary PCR products (in secondary PCR), 200 μM deoxynucleoside triphosphate, 1× PCR buffer (Applied Biosystems), 3.0 mM MgCl2, 5.0 U of Taq polymerase (Promega, Madison, WI), 100 nM primers, and 400 ng/μl of non-acetylated bovine serum albumin (Sigma-Adrich, St. Louis, MO). The primary and secondary PCR reactions were performed in a GeneAmp PCR 9700 thermocycler (Applied Biosystems) for 35 cycles of 94°C for 45 s, 55°C for 45 s, and 72°C for 60 s, with an initial denaturation (94°C for 5 min) and a final extension (72°C for 7 min). The secondary PCR products were sequenced in both directions using Sanger technology described above. Nucleotide sequences obtained were aligned with reference sequences downloaded from GenBank by using ClustalX (http://www.clustal.org/).

NCBI BioProject No.

Nucleotide sequences generated from the project, including all SRA data and assembled contigs, were submitted to the NCBI BioProject under the accession number PRJNA252787.

Etika bəyanatı

The study was done on delinked residual diagnostic specimens. It was covered by Human Subjects Protocol No. 990115 “Use of residual human specimens for the determination of frequency of genotypes or sub-types of pathogenic parasites”, which was reviewed and approved by the Institutional Review Board of the Centers for Disease Control and Prevention (CDC). No personal identifiers were associated with the specimens at the time of submission for diagnostic service at CDC.


Təşəkkürlər

The authors thank Otto van Poeselaere, Sabine Van Leirberghe and Lucas N. Davey for stimulating discussions during the preparation of this manuscript. We acknowledge access to the Syngenta Musa 3'EST database, donated by Syngenta to Bioversity International within the framework of the Global Musa Genomics Consortium. We thank Bioversity International, Dr. Gerard Ngoh-Newilah of CARBAP, Djombe, Cameroon, Dr. Angela Kepler of Pacific-Wide Ecological Consulting, Hawaii, and the late Dr. Lois Engelberger of Pohnpei for providing samples of fruit. We thank the Ministry of Higher Education, Malaysia, for University of Malaya grants RG006-09BIO, PV109/2011A and FRGS grant FP005-2011A to JAH, GR and NZK. We would like to thank Wendy Chin Yi Wen from Plant Biotechnology Research Laboratory, University of Malaya for providing the embryogenic cell suspension. Finally the authors would like to thank Mathieu Rouard from Bioversity International, Montpellier for constructing the website to host the data generated here.


Electronic supplementary material is available online at https://doi.org/10.6084/m9.figshare.c.4853220.

Məhdudiyyətsiz istifadəyə icazə verən Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/ şərtlərinə əsasən Royal Society tərəfindən nəşr olunub, orijinal müəllif və mənbə qeyd olunmaqla.

İstinadlar

2016 Challenges in microbial ecology: building predictive understanding of community function and dynamics . ISME J. 10, 2557-2568. (doi:10.1038/ismej.2016.45) Crossref, PubMed, ISI, Google Scholar

Knight R, Callewaert C, Marotz C, Hyde ER, Debelius JW, McDonald D, Sogin ML

. 2017 The microbiome and human biology . Annu. Rev. Genomics Hum. Genet. 18, 65-86. (doi:10.1146/annurev-genom-083115-022438) Crossref, PubMed, ISI, Google Scholar

Gilbert JA, Blaser MJ, Caporaso JG, Jansson JK, Lynch SV, Knight R

. 2018 Current understanding of the human microbiome . Nat. Med. 24, 392-400. (doi:10.1038/nm.4517) Crossref, PubMed, ISI, Google Scholar

2004 Community structure and metabolism through reconstruction of microbial genomes from the environment . Təbiət 428, 37-43. (doi:10.1038/nature02340) Crossref, PubMed, ISI, Google Scholar

. 2008 Colloquium paper: resistance, resilience, and redundancy in microbial communities . Proc. Natl akad. Sci. ABŞ 105(Suppl. 1), 11 512-11 519. (doi:10.1073/pnas.0801925105). Crossref, ISI, Google Scholar

Fuhrman JA, Cram JA, Needham DM

. 2015 Marine microbial community dynamics and their ecological interpretation . Nat. Rev. Mikrobiol. 13, 133-146. (doi:10.1038/nrmicro3417) Crossref, PubMed, ISI, Google Scholar

2016 Thousands of microbial genomes shed light on interconnected biogeochemical processes in an aquifer system . Nat. Kommun. 7, 13219. (doi:10.1038/ncomms13219) Crossref, PubMed, ISI, Google Scholar

Bardgett RD, Freeman C, Ostle NJ

. 2008 Microbial contributions to climate change through carbon cycle feedbacks . ISME J. 2, 805-814. (doi:10.1038/ismej.2008.58) Crossref, PubMed, ISI, Google Scholar

2004 Environmental genome shotgun sequencing of the Sargasso Sea . Elm 304, 66-74. (doi:10.1126/science.1093857) Crossref, PubMed, ISI, Google Scholar

Quince C, Walker AW, Simpson JT, Loman NJ, Segata N

. 2017 Shotgun metagenomics, from sampling to analysis . Nat. Biotexnol. 35, 833-844. (doi:10.1038/nbt.3935) Crossref, PubMed, ISI, Google Scholar

Koskella B, Hall LJ, Metcalf CJE

. 2017 The microbiome beyond the horizon of ecological and evolutionary theory . Nat. Ekol. Təkamül. 1, 1606-1615. (doi:10.1038/s41559-017-0340-2) Crossref, PubMed, ISI, Google Scholar

Hansen SK, Rainey PB, Haagensen JA, Molin S

. 2007 Evolution of species interactions in a biofilm community . Təbiət 445, 533-536. (doi:10.1038/nature05514) Crossref, PubMed, ISI, Google Scholar

Lawrence D, Fiegna F, Behrends V, Bundy JG, Phillimore AB, Bell T, Barraclough TG

. 2012 Species interactions alter evolutionary responses to a novel environment . PLoS Biol. 10, e1001330. (doi:10.1371/journal.pbio.1001330) Crossref, PubMed, ISI, Google Scholar

. 2018 It takes a village: microbial communities thrive through interactions and metabolic handoffs . mSystems 3, e00152-17. (doi:10.1128/mSystems.00152-17) Crossref, PubMed, ISI, Google Scholar

Robinson CD, Klein HS, Murphy KD, Parthasarathy R, Guillemin K, Bohannan BJM

. 2018 Experimental bacterial adaptation to the zebrafish gut reveals a primary role for immigration . PLoS Biol. 16, e2006893. (doi:10.1371/journal.pbio.2006893) Crossref, PubMed, ISI, Google Scholar

Marbouty M, Baudry L, Cournac A, Koszul R

. 2017 Scaffolding bacterial genomes and probing host-virus interactions in gut microbiome by proximity ligation (chromosome capture) assay . Sci. Adv. 3, e1602105. (doi:10.1126/sciadv.1602105) Crossref, PubMed, ISI, Google Scholar

Truong DT, Tett A, Pasolli E, Huttenhower C, Segata N

. 2017 Microbial strain-level population structure and genetic diversity from metagenomes . Genom Res. 27, 626-638. (doi:10.1101/gr.216242.116) Crossref, PubMed, ISI, Google Scholar

Garud NR, Good BH, Hallatschek O, Pollard KS

. 2019 Evolutionary dynamics of bacteria in the gut microbiome within and across hosts . PLoS Biol. 17, e3000102. (doi:10.1371/journal.pbio.3000102) Crossref, PubMed, Google Scholar

. 2019 Tracking microbial evolution in the human gut using Hi-C . Nat. Mikrobiol. 5, 343-353. (doi:10.1038/s41564-019-0625-0) Crossref, PubMed, ISI, Google Scholar

. 1980 Selfish genes, the phenotype paradigm and genome evolution . Təbiət 284, 601-603. (doi:10.1038/284601a0) Crossref, PubMed, ISI, Google Scholar

. 1980 Selfish DNA: the ultimate parasite . Təbiət 284, 604-607. (doi:10.1038/284604a0) Crossref, PubMed, ISI, Google Scholar

Bergstrom CT, Lipsitch M, Levin BR

. 2000 Natural selection, infectious transfer and the existence conditions for bacterial plasmids . Genetika 155, 1505-1519. PubMed, ISI, Google Scholar

. 2006 Genes in conflict: the biology of selfish genetic elements . Harvard, MA : Belknap Press . Crossref, Google Scholar

. 2003 Evolution experiments with microorganisms: the dynamics and genetic bases of adaptation . Nat. Rev Genet. 4, 457-469. (doi:10.1038/nrg1088) Crossref, PubMed, ISI, Google Scholar

Rainey PB, Remigi P, Farr AD, Lind PA

. 2017 Darwin was right: where now for experimental evolution? Curr. Opin Genet. Dev. 47, 102-109. (doi:10.1016/j.gde.2017.09.003) Crossref, PubMed, ISI, Google Scholar

Maltez Thomas A, Prata Lima F, Maria Silva Moura L, Maria da Silva A, Dias-Neto E, Setubal JC

. 2018 Comparative metagenomics . Metodlar Mol. Biol. 1704, 243-260. (doi:10.1007/978-1-4939-7463-4_8) Crossref, PubMed, Google Scholar

. 2011 Microbial diversity of cellulose hydrolysis . Curr. Opin Microbiol. 14, 259-263. (doi:10.1016/j.mib.2011.04.004) Crossref, PubMed, ISI, Google Scholar

. 2002 Enzymology and bioenergetics of respiratory nitrite ammonification . FEMS Mikrobiol. Rev. 26, 285-309. (doi:10.1111/j.1574-6976.2002.tb00616.x) Crossref, PubMed, ISI, Google Scholar

Goddard MR, Godfray HCJ, Burt A

. 2005 Sex increases the efficacy of natural selection in experimental yeast populations . Təbiət 434, 636-640. (doi:10.1038/nature03405) Crossref, PubMed, ISI, Google Scholar

McDonald MJ, Rice DP, Desai MM

. 2016 Sex speeds adaptation by altering the dynamics of molecular evolution . Təbiət 531, 233. (doi:10.1038/nature17143) Crossref, PubMed, ISI, Google Scholar

. 2011 Horizontal gene exchange in environmental microbiota . Ön. Mikrobiol. 2, 158. (doi:10.3389/fmicb.2011.00158) Crossref, PubMed, ISI, Google Scholar

Colombi E, Straub C, Kunzel S, Templeton MD, McCann HC, Rainey PB

. 2017 Evolution of copper resistance in the kiwifruit pathogen Pseudomonas syringae pv. actinidiae through acquisition of integrative conjugative elements and plasmids . Ətraf. Mikrobiol. 19, 819-832. (doi:10.1111/1462-2920.13662) Crossref, PubMed, ISI, Google Scholar

Hall JPJ, Brockhurst MA, Harrison E

. 2017 Sampling the mobile gene pool: innovation via horizontal gene transfer in bacteria . Fil. Trans. R. Soc. B 372, 20160424. (doi:10.1098/rstb.2016.0424) Link, ISI, Google Scholar

. 2003 Prophages and bacterial genomics: what have we learned so far? Mol. Mikrobiol. 49, 277-300. (doi:10.1046/j.1365-2958.2003.03580.x) Crossref, PubMed, ISI, Google Scholar

2015 CDD: NCBI's conserved domain database . Nuklein turşuları Res. 43, D222-D226. (doi:10.1093/nar/gku1221) Crossref, PubMed, ISI, Google Scholar

Seed KD, Lazinski DW, Calderwood SB, Camilli A

. 2013 A bacteriophage encodes its own CRISPR/Cas adaptive response to evade host innate immunity . Təbiət 494, 489-491. (doi:10.1038/nature11927) Crossref, PubMed, ISI, Google Scholar

. 2016 Horizontal gene transfer of chromosomal Type II toxin-antitoxin systems of Escherichia coli . FEMS Mikrobiol. Lett. 363, fnv238. (doi:10.1093/femsle/fnv238) Crossref, PubMed, ISI, Google Scholar

. 2017 Carriage of type II toxin-antitoxin systems by the growing group of IncX plasmids . Plazmid 91, 19-27. (doi:10.1016/j.plasmid.2017.02.006) Crossref, PubMed, ISI, Google Scholar

Singhania RR, Patel AK, Sukumaran RK, Larroche C, Pandey A

. 2013 Role and significance of beta-glucosidases in the hydrolysis of cellulose for bioethanol production . Bioresur. Texnologiya. 127, 500-507. (doi:10.1016/j.biortech.2012.09.012) Crossref, PubMed, ISI, Google Scholar

2005 The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes . Nuklein turşuları Res. 33, 5691-5702. (doi:10.1093/nar/gki866) Crossref, PubMed, ISI, Google Scholar

. 2017 Convergence and divergence in a long-term experiment with bacteria . am. Nat. 190, S57-S68. (doi:10.1086/691209) Crossref, PubMed, ISI, Google Scholar

Chu HY, Sprouffske K, Wagner A

. 2018 Assessing the benefits of horizontal gene transfer by laboratory evolution and genome sequencing . BMC Evol. Biol. 18, 54. (doi:10.1186/s12862-018-1164-7) Crossref, PubMed, ISI, Google Scholar

Frazão N, Sousa A, Lässig M, Gordo I

. 2019 Horizontal gene transfer overrides mutation in Escherichia coli colonizing the mammalian gut . Proc. Natl akad. Sci. ABŞ 116, 17 906-17 915. (doi:10.1073/pnas.1906958116) Crossref, ISI, Google Scholar

Zhao SJ, Lieberman TD, Poyet M, Kauffman KM, Gibbons SM, Groussin M, Xavier RJ, Alm EJ

. 2019 Adaptive evolution within gut microbiomes of healthy people . Cell Host Microbe 25, 656. (doi:10.1016/j.chom.2019.03.007) Crossref, PubMed, ISI, Google Scholar

. 1989 Reviving the superorganism . J. Teor. Biol. 136, 337-356. (doi:10.1016/S0022-5193(89)80169-9) Crossref, PubMed, ISI, Google Scholar

Swenson W, Wilson DS, Elias R

. 2000 Artificial ecosystem selection . Proc. Natl akad. Sci. ABŞ 97, 9110-9114. (doi:10.1073/pnas.150237597) Crossref, PubMed, ISI, Google Scholar

. 2019 Simulations reveal challenges to artificial community selection and possible strategies for success . PLoS Biol. 17, e3000295. (doi:10.1371/journal.pbio.3000295) Crossref, PubMed, ISI, Google Scholar

Black AJ, Bourrat P, Rainey PB.

Mətbuatda. Ecological scaffolding and the evolution of individuality . Nat. Ekol. Təkamül. (doi:10.1038/s41559-019-1086-9) ISI, Google Scholar

. 1934 The struggle for existence . Baltimore, MD : Williams & Wilkins . Crossref, Google Scholar

Rosenzweig RF, Sharp RR, Treves DS, Adams J

. 1994 Microbial evolution in a simple unstructured environment: genetic differentiation in Escherichia coli . Genetika 137, 903-917. PubMed, ISI, Google Scholar

Rainey PB, Buckling A, Kassen R, Travisano M

. 2000 The emergence and maintenance of diversity: insights from experimental bacterial populations . Trends Ecol. Təkamül. 15, 243-247. (doi:10.1016/S0169-5347(00)01871-1) Crossref, PubMed, ISI, Google Scholar

. 2002 Functional redundancy in ecology and conservation . Oikos 98, 156-162. (doi:10.1034/j.1600-0706.2002.980116.x) Crossref, ISI, Google Scholar

2018 Function and functional redundancy in microbial systems . Nat. Ekol. Təkamül. 2, 936-943. (doi:10.1038/s41559-018-0519-1) Crossref, PubMed, ISI, Google Scholar

Landsberger M, Gandon S, Meaden S, Rollie C, Chevallereau A, Buckling A, Westra ER, van Houte S

. 2018 Anti-CRISPR phages cooperate to overcome CRISPR-Cas immunity . Hüceyrə 174, 908-916. (doi:10.1016/j.cell.2018.05.058) Crossref, PubMed, ISI, Google Scholar

Marbouty M, Cournac A, Flot JF, Marie-Nelly H, Mozziconacci J, Koszul R

. 2014 Metagenomic chromosome conformation capture (meta3C) unveils the diversity of chromosome organization in microorganisms . eLife 3, e03318. (doi:10.7554/eLife.03318) Crossref, PubMed, ISI, Google Scholar

. 2011 Microbial nitrogen cycling processes in oxygen minimum zones . Annu. Rev. Mar. Sci. 3, 317-345. (doi:10.1146/annurev-marine-120709-142814) Crossref, PubMed, ISI, Google Scholar

Givens DI, Adamson AH, Cobby JM

. 1988 The effect of ammoniation on the nutritive value of wheat, barley and oat straws. II. Digestibility and energy value measurements in vivo and their prediction from laboratory measurements . Anim. Feed Sci. Texnologiya. 19, 173-184. (doi:10.1016/0377-8401(88)90065-X) Crossref, ISI, Google Scholar

. 2007 Biology's next revolution . Təbiət 445, 369. (doi:10.1038/445369a) Crossref, PubMed, ISI, Google Scholar

. 2009 Darwinian evolution in the light of genomics . Nuklein turşuları Res. 37, 1011-1034. (doi:10.1093/nar/gkp089) Crossref, PubMed, ISI, Google Scholar

. 2010 Horizontal gene transfer in evolution: facts and challenges . Proc. R. Soc. B 277, 819-827. (doi:10.1098/rspb.2009.1679) Link, ISI, Google Scholar

Ochman H, Lawrence JG, Groisman EA

. 2000 Lateral gene transfer and the nature of bacterial innovation . Təbiət 405, 299-304. (doi:10.1038/35012500) Crossref, PubMed, ISI, Google Scholar

. 2011 Eqoist genetik elementlər, genetik münaqişə və təkamül yenilikləri. Proc. Natl akad. Sci. ABŞ 108(Suppl. 2)), 10 863-10 870. (doi:10.1073/pnas.1102343108) Crossref, ISI, Google Scholar

. 2013 Horizontal gene transfer and the evolution of bacterial and archaeal population structure . Trendlər Genet. 29, 170-175. (doi:10.1016/j.tig.2012.12.006) Crossref, PubMed, ISI, Google Scholar

Fullmer MS, Soucy SM, Gogarten JP

. 2015 The pan-genome as a shared genomic resource: mutual cheating, cooperation and the black queen hypothesis . Ön. Mikrobiol. 6, ARTN 728. (doi:10.3389/fmicb.2015.00728) Crossref, ISI, Google Scholar

. 2018 Processes and patterns of interaction as units of selection: an introduction to ITSNTS thinking . Proc. Natl akad. Sci. ABŞ 115, 4006-4014. (doi:10.1073/pnas.1722232115) Crossref, PubMed, ISI, Google Scholar

. 2011 FLASH: fast length adjustment of short reads to improve genome assemblies . Bioinformatika 27, 2957-2963. (doi:10.1093/bioinformatics/btr507) Crossref, PubMed, ISI, Google Scholar

. 2011 Quality control and preprocessing of metagenomic datasets . Bioinformatika 27, 863-864. (doi:10.1093/bioinformatics/btr026) Crossref, PubMed, ISI, Google Scholar

2016 The MG-RAST metagenomics database and portal in 2015 . Nuklein turşuları Res. 44, D590-D594. (doi:10.1093/nar/gkv1322) Crossref, PubMed, ISI, Google Scholar

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ

. 1990 Basic local alignment search tool . J. Mol. Biol. 215, 403-410. (doi:10.1016/S0022-2836(05)80360-2) Crossref, PubMed, ISI, Google Scholar

Li D, Liu CM, Luo R, Sadakane K, Lam TW

. 2015 MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph . Bioinformatika 31, 1674-1676. (doi:10.1093/bioinformatics/btv033) Crossref, PubMed, ISI, Google Scholar

Rice P, Longden I, Bleasby A

. 2000 EMBOSS: the European molecular biology open software suite . Trendlər Genet. 16, 276-277. (doi:10.1016/S0168-9525(00)02024-2) Crossref, PubMed, ISI, Google Scholar

Niu B, Zhu Z, Fu L, Wu S, Li W

. 2011 FR-HIT, a very fast program to recruit metagenomic reads to homologous reference genomes . Bioinformatika 27, 1704-1705. (doi:10.1093/bioinformatics/btr252) Crossref, PubMed, ISI, Google Scholar


Influenza Virus Genome Sequencing and Genetic Characterization

Influenza viruses are constantly changing, in fact all influenza viruses undergo genetic changes over time (for more information, see How the Flu Virus Can Change: &ldquoDrift&rdquo and &ldquoShift&rdquo). An influenza virus&rsquo genome consists of all genes that make up the virus. CDC conducts year-round surveillance of circulating influenza viruses to monitor changes to the genome (or parts of the genome) of these viruses. This work is performed as part of routine U.S. influenza surveillance and as part of CDC&rsquos role as a World Health Organization (WHO) Collaborating Center for Reference and Research on Influenza. The information CDC collects from studying genetic changes (also known as &ldquosubstitutions,&rdquo &ldquovariants&rdquo or &ldquomutations&rdquo) in influenza viruses plays an important public health role by helping to determine whether vaccines and antiviral drugs will work against currently-circulating influenza viruses, as well as helping to determine the potential for influenza viruses in animals to infect humans.

Genome sequencing reveals the sequence of the nucleotides in a gene, like alphabet letters in words. Nucleotides are organic molecules that form the structural unit building block of nucleic acids, such as RNA or DNA. All influenza viruses consist of single-stranded RNA as opposed to dual-stranded DNA. The RNA genes of influenza viruses are made up of chains of nucleotides that are bonded together and coded by the letters A, C, G and U, which stand for adenine, cytosine, guanine, and uracil, respectively. Comparing the composition of nucleotides in one virus gene with the order of nucleotides in a different virus gene can reveal variations between the two viruses.

Genetic variations are important because they can affect the structure of an influenza virus&rsquo surface proteins. Proteins are made of sequences of amino acids.

The substitution of one amino acid for another can affect properties of a virus, such as how well a virus transmits between people, and how susceptible the virus is to antiviral drugs or current vaccines.

Genome sequencing reveals the sequence of the nucleotides in a gene, like alphabet letters in words. Comparing the composition of nucleotides in one virus gene with the order of nucleotides in a different virus gene can reveal variations between the two viruses.

Genetic variations are important because they affect the structure of an influenza virus&rsquo surface proteins. Proteins are made of sequences of amino acids.

The substitution of one amino acid for another can affect properties of a virus, such as how well a virus transmits between people, and how susceptible the virus is to antiviral drugs or current vaccines.

Influenza A and B viruses &ndash the primary influenza viruses that infect people &ndash are RNA viruses that have eight gene segments. These genes contain &lsquoinstructions&rsquo for making new viruses, and it&rsquos these instructions that an influenza virus uses once it infects a human cell to trick the cell into producing more influenza viruses, thereby spreading infection.

Influenza genes consist of a sequence of molecules called nukleotidlər that bond together in a chain-like shape. Nucleotides are designated by the letters A, C, G and U.

Genom ardıcıllığı is a process that determines the order, or sequence, of the nucleotides (i.e., A, C, G and U) in each of the genes present in the virus&rsquos genome. Full genome sequencing can reveal the approximately 13,500-letter sequence of all the genes of the virus&rsquo genome.

Each year CDC performs whole genome sequencing on about 7,000 influenza viruses from original clinical samples collected through virologic surveillance. An influenza A or B virus&rsquo genome contains eight gene segments that encode (i.e., determine the structure and features of) the virus&rsquo 12 proteins, including its two primary surface proteins: hemagglutinin (HA) and neuraminidase (NA). An influenza virus&rsquo surface proteins determine important properties of the virus, including how the virus responds to certain antiviral drugs, the virus&rsquo genetic similarity to current influenza vaccine viruses, and the potential for zoonotic (animal origin) influenza viruses to infect human hosts.

Genetic Characterization

CDC and other public health laboratories around the world have been sequencing the genes of influenza viruses since the 1980s. CDC contributes gene sequences to public databases, such as GenBank external icon and the Global Initiative on Sharing Avian Influenza Data (GISAID) external icon , for use by public health researchers. The resulting libraries of gene sequences allow CDC and other laboratories to compare the genes of currently circulating influenza viruses with the genes of older influenza viruses and viruses used in vaccines. This process of comparing genetic sequences is called genetic characterization. CDC uses genetic characterization for the following reasons:

  • To determine how closely &ldquorelated&rdquo or similar flu viruses are to one another genetically
  • To monitor how flu viruses are evolving
  • To identify genetic changes that affect the virus&rsquo properties. For example, to identify the specific changes that are associated with influenza viruses spreading more easily, causing more-severe disease, or developing resistance to antiviral drugs
  • To assess how well an influenza flu vaccine might protect against a particular influenza virus based on its genetic similarity to the virus
  • To monitor for genetic changes in influenza viruses circulating in animal populations that could enable them to infect humans.

The relative differences among a group of influenza viruses are shown by organizing them into a graphic called a &lsquophylogenetic tree.&rsquo Phylogenetic trees for influenza viruses are like family (genealogy) trees for people. These trees show how closely &lsquorelated&rsquo individual viruses are to one another. Viruses are grouped together based on whether their genes&rsquo nucleotides are identical or not. Phylogenetic trees of influenza viruses will usually display how similar the viruses&rsquo hemagglutinin (HA) or neuraminidase (NA) genes are to one another. Each sequence from a specific influenza virus has its own branch on the tree. The degree of genetic difference (number of nucleotide differences) between viruses is represented by the length of the horizontal lines (branches) in the phylogenetic tree. The further apart viruses are on the horizontal axis of a phylogenetic tree, the more genetically different the viruses are to one another.

Şəkil. A phylogenetic tree.

For example, after CDC sequences an influenza A(H3N2) virus collected through surveillance, the virus sequence is cataloged with other virus sequences that have a similar HA gene (H3), and a similar NA gene (N2). As part of this process, CDC compares the new virus sequence with the other virus sequences, and looks for differences among them. CDC then uses a phylogenetic tree to visually represent how genetically different the A(H3N2) viruses are from each other.

CDC performs genetic characterization of influenza viruses year round. This genetic data is used in conjunction with virus antigenic characterization data to help determine which vaccine viruses should be chosen for the upcoming Northern Hemisphere or Southern Hemisphere influenza vaccines. In the months leading up to the WHO vaccine consultation meetings in February and September, CDC collects influenza viruses through surveillance and compares the HA and NA gene sequences of current vaccine viruses against those of circulating flu viruses. This is one way to assess how closely related the circulating influenza viruses are to the viruses the seasonal flu vaccine was formulated to protect against. As viruses are collected and genetically characterized, differences can be revealed.

For example, sometimes over the course of a season, circulating viruses will change genetically, which causes them to become different from the corresponding vaccine virus. This is one indication that a different vaccine virus may need to be selected for the next flu season&rsquos vaccine, although other factors, including antigenic characterization findings, heavily influence vaccine decisions. The HA and NA surface proteins of influenza viruses are antigens, which means they are recognized by the immune system and are capable of triggering an immune response, including production of antibodies that can block infection. Antigenic characterization refers to the analysis of a virus&rsquos reaction with antibodies to help assess how it relates to another virus.

Methods of Flu Genome Sequencing

One influenza sample contains çoxlu influenza virus particles that were grown in a test tube and that often have small genetic differences in comparison to one another among the whole population of sibling viruses.

Traditionally, scientists have used a sequencing technique called &ldquothe Sanger reaction&rdquo to monitor influenza evolution as part of virologic surveillance. Sanger sequencing identifies the predominant genetic sequence among the many influenza viruses found in an isolate. This means small variations in the population of viruses present in a sample are not reflected in the final result. Scientists often use the Sanger method to conduct partial genome sequencing of influenza viruses, while newer technologies (see next paragraph) are better suited for whole genome sequencing.

Over the past five years, CDC has been using &ldquoNext Generation Sequencing (NGS)&rdquo methodologies, which have greatly expanded the amount of information and detail that sequencing analysis can provide. NGS uses advanced molecular detection (AMD) to identify gene sequences from each virus in a sample. Therefore, NGS reveals the genetic variations among many different influenza virus particles in a single sample, and these methods also reveal the entire coding region of the genomes. This level of detail can directly benefit public health decision-making in important ways, but data must be carefully interpreted by highly-trained experts in the context of other available information. See AMD Projects: Improving Influenza Vaccines for more information about how NGS and AMD are revolutionizing flu genome mapping at CDC.