Məlumat

Contig- və oxu-əsaslı ardıcıllıqla düzülmə arasındakı fərq nədir?

Contig- və oxu-əsaslı ardıcıllıqla düzülmə arasındakı fərq nədir?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Oxuma əsaslı və kontig əsaslı hizalama arasındakı fərqi anlamağa çalışıram. Contig əsaslı uyğunlaşma de novo montajına istinad edir və sonra istinad genomuna uyğunlaşdırılır. Başım qarışıqdır ki, əgər siz əsaslı uyğunlaşdırmanı oxumusunuzsa, onda istinadda kontigləri uyğunlaşdırmağın əhəmiyyəti nədir.


Mən heç vaxt “contig-based alignment” ifadəsini eşitməmişəm və sizin sualınız bu dəqiq sorğunun yeganə Google hitidir (2012-ci il patent müraciətindən başqa).

Bununla belə və dəqiq konteksti bilmədən mən sizin mahiyyətcə haqlı olduğunuzu fərz edirəm: kontigma əsaslı uyğunlaşma, ehtimal ki, de novo oxunuşların kontiglərə yığılması, daha sonra istinaddan istifadə edərək bir iskeleyə uyğunlaşdırılır.


SRST2, ARIBA və KmerResistance arasında müqayisələr

SRST2 1, ARIBA 2 və KmerResistance (veb xidməti, kod) 3 bakterial genomlarda hədəf genlərin oxunmuş əsaslı aşkarlanması üçün üç geniş istifadə olunan müstəqil proqram təminatıdır. 2014-cü ildə nəşr olunan SRST2 bu üç alət 2, 3 arasında qabaqcıl kimi tanınır. Bu yazıda mən gen aşkarlanması üçün uyğun proqram seçiminə işıq salmaq üçün bu vasitələrin əsasını təşkil edən metodologiyaları qısa şəkildə müqayisə edirəm. Xüsusilə, mən burada antimikrobiyal müqavimət determinantlarının aşkar edilməsinin yeganə istifadə halıdır. Müəyyən edilmədikdə, bu yazıda istinad edilən proqram təminatı versiyaları bunlardır: SRST2 v0.2.0, ARIBA 2.14.4 və KmerResistance v2.2.


Fon

Metagenomika mədəniləşdirilməmiş mikrob müxtəlifliyini açmaq və həyat ağacını genişləndirmək və tədqiq edilməmiş mühitlərdə yaşayan mikroblar haqqında yeni bioloji anlayışlar vermək üçün istifadə edilə bilən güclü və sürətlə inkişaf edən bir yanaşmadır [1]. Həm köpəklərin mədə-bağırsaq traktına (GI), həm də nəcis mikrobiomlarına tətbiq edildikdə, metagenomika sağlamlıq və xəstəliklər haqqında məlumat verir, həmçinin spesifik patologiyaların qarşısının alınması və ya müalicəsi ilə bağlı əsas ipuçları verir.

Əvvəlki tədqiqatlar köpək və insan GI mikrobiomu arasında oxşarlıqlar olduğunu bildirdi. Ümumiyyətlə, müxtəlif mədə-bağırsaq xəstəlikləri dəyişdirilmiş GI mikrobiomuna aiddir, digər tərəfdən, pəhriz və pəhriz əlavələri (məsələn, pre-və probiotiklər) ilə modulyasiya edilə bilər (geniş rəylər üçün [2,3,4,5]-ə baxın) . Baytarın marağından başqa, itlər GI mikrobiom tədqiqatları üçün digər heyvan modellərinə nisbətən insanlara daha yaxın modellər hesab edilir [6, 7].

Mikrobiom tədqiqatları əsasən ya marker-spesifik (məsələn, Bakteriyalar üçün 16S rRNA geni) və ya bütün metagenom ardıcıllığıdır [8]. Bu günə qədər mövcud olan köpəklərin GI mikrobiomu tədqiqatları yeni nəsil sekvensiyadan - qısa oxunan ardıcıllıqla - və ya daha əvvəlki texnologiyalardan istifadə edir və əsasən amplikona əsaslanan strategiyalardır (16S rRNA geni). Yalnız üç tədqiqat bütün mikrob icmasını və it nəcisindəki gen tərkibini xarakterizə etmək üçün qısa oxunan ardıcıllıqla ov tüfəngi metagenomikasından istifadə etmişdir [7, 9, 10].

Uzun müddət oxunan ardıcıllığın metagenomikaya tətbiqi yüksək tamlıqla metagenom yığılmış genomları (MAG) əldə etməyə imkan verir. Uzun müddət oxunan metagenomikada ən son strategiya, qaralama metagenom birləşməsini əldə etmək üçün uzun oxunuşlardan istifadə edir - MAG-lərin ən böyük bitişikliyini təmin edir - və ümumi dəqiqliyi cilalamaq və yaxşılaşdırmaq üçün qısa oxuyur. Bu strategiya insanın mədə-bağırsaq mikrobiomunu [11] qiymətləndirmək üçün tətbiq edilmişdir, məsələn, saxta icmalar [12], inək rumen [13], təbii zərdab başlanğıc mədəniyyətləri [14] və ya tullantı suları [15]. Nəzərə almağa layiq olan bəzi müəlliflər uzun müddət oxunan məlumatları cilalamaq üçün qısa oxunma ehtiyacını ya çərçivə dəyişikliyindən xəbərdar olan korreksiya [16] kimi korreksiya proqramından istifadə etməklə, ya da genomların ultra dərin əhatə dairəsi ilə [12] aradan qaldıra biləcəyimizi təklif edirlər. .

Əvvəlki işimizdə taksonomiyanı qiymətləndirmək və it nəcis mikrobiomunda növlərin eyniləşdirilməsinə nail olmaq üçün uzun müddət oxunan metagenomikadan istifadə etdik. Aşağı dərinlikli ardıcıllıq yanaşmasından istifadə etsək də, biz bir dairəvi kontig yığdıq. mədəniyyətsiz CrAssphage [17].

Bu araşdırmada biz qısa oxunuşlarla cilalanma ehtiyacını aradan qaldırmaq üçün nanopore uzun oxunan metagenomikadan və çərçivə dəyişikliyindən xəbərdar düzəlişdən istifadə edirik. Nəticədə, biz səkkiz yüksək keyfiyyətli MAG əldə edirik və xarakterizə edirik və itin nəcis mikrobiomu haqqında yeni bioloji anlayışlar əldə edirik.


Nəticələr

Genetik müxtəliflik və populyasiya xüsusiyyətləri

1961-ci il pambıqları üçün orta dərinlikdə genomik variasiya analizi üçün DNT-nin təkrar ardıcıllığı məlumatlarını topladıq.

Hər biri üçün 14,8× [3,4,5,6, 16, 33, 34]. Təkrarlanan birləşmələr ləğv edildikdən sonra, SNP və InDel analizi üçün cəmi 1913 pambıq birləşmədən istifadə edilmişdir ki, bunlara 256-sı daxildir. G. hirsutum landraces (Ghlandraces), 438 təkmilləşdirildi G. hirsutum ABŞ və digər ölkələrdən (GhImpUSO) sortlar, 929 təkmilləşdi G. hirsutum Çindən çeşidlər (GhImpCHN), 261 G. barbadense qoşulmalar və 29 digər Gossypium kənar qrup kimi istifadə edilmiş növlər (Əlavə fayl 1: Cədvəl S1). Bu məlumatları istinad genomuna uyğunlaşdırdıq G. hirsutum acc. “TM-1” [12] və 63.084.975 SNP və 12.354.432 kiçik əlavə və ya silinmə (InDels uzunluğu ≤ 20 bp) müəyyən etdi, burada əsas variasiya məlumat dəstinə 19.246.497 SNP və 4.815.497 SNP və 4.815.15 və ya daha çox InDele və ya daha çox InDele (min. homozigot variasiyaları olan beş birləşmədən çox (Cədvəl 1 Əlavə fayl 1: Cədvəllər S2-S6 Əlavə fayl 3). Əsas SNP məlumatlarına əsaslanaraq, əhalinin strukturunu araşdırdıq G. hirsutumG. barbadense. Qonşu birləşən ağacın təhlili göstərdi ki, 1913-cü il birləşmələri 12 təbəqəyə təsnif edilir. G. hirsutum birləşmələr 8 təbəqədən ibarətdir, G. barbadense birləşmələr 3 təbəqəni, digər növlər isə 1 təbəqəni təşkil edir (Şəkil 1a Əlavə fayl 2: Şəkil S1). Əhali təhlili bunu göstərdi G. barbadense birləşmələrdən ayrıldı G. hirsutum landraces, GhImpUSO və GhImpCHN (Şəkil 1b, c Əlavə fayl 2: Şəkil S2). G. hirsutum nukleotid müxtəlifliyi (π) torpaq irqlərində 1,07 × 10 - 3, GhImpUSO-da 3,74 × 10 - 4, GhImpCHN-də 3,34 × 10 - 4 və 1,01 × 10 - 3 düym olaraq qiymətləndirilir. G. barbadense (Əlavə fayl 2: Şəkil S3), pambıqda son tədqiqatlara bənzər [3,4,5,6, 34] (Şəkil 1d).

Əhali quruluşu və genetik müxtəliflik G. hirsutumG. barbadense qoşulmalar. a 1913-cü il pambıq birləşmələrinin çəkisiz qonşu-birləşən filogenetik ağacı əsas SNP-lərdən 20.000 təsadüfi SNP əsasında qurulmuşdur. The G. tomentosum (AD3), G. mustelinum (AD4), G. darwinii (AD5), G. ekmanianum (AD6), G. stephensii (AD7) tetraploid növləri, G. dendrari (A2) və G. Davidsonii (D3-ddiploid növlərin ) kənar qrup kimi xidmət edir. b Bütün qoşulmalar üçün ilk iki komponentin əsas komponent analizi (PCA) planı. c Müxtəlif sayda klasterlərlə bütün pambıq birləşmələrinin STRUKTUR təhlili K = 6 və K = 12 (K = 12 optimal qiymətdir). The x-ox kənar qrup növlərini siyahıya alır (boz), G. barbadense (mavi), G. hirsutum landrace birləşmələri (narıncı), və G. hirsutum müvafiq olaraq təkmilləşdirilmiş qoşulmalar (yaşıl) və y-ox hər bir qoşulmada genetik müxtəlifliyi kəmiyyətləşdirir. Digər struktur nəticələri Əlavə fayl 2-də göstərilir: Şəkil S2. d Nukleotid müxtəlifliyi (π) və fiksasiya indeksinin fərqliliyi (Fst) beş qrup üzrə. e Beş populyasiyada silinmələrin, dublikasiyaların, inversiyaların və translokasiyaların sayı (qonşu qruplar üçün ikitərəfli Wilcoxon rütbə cəmi testi, P < 0,001). Hər node bir qoşulmanı təmsil edir. Bu analizdə SV-lərin sayı TM-1 istinad genomu ilə göstərildi

Biz yüksək ardıcıllıq dərinliyi (> 10×) olan 742 pambıq birləşmədən istifadə etdik. G. hirsutum “TM-1” istinad genomu (Əlavə fayl 1: Cədvəl S1 Əlavə fayl 3) və 32,099 silinmə, 7576 dublikasiya, 1112 inversiya və 357 translokasiya müəyyən edilmişdir (Əlavə fayl 1: Cədvəl S7). Ghlandrace-də GhImpUSO və GhImpCHN qruplarından daha çox SV var (Şəkil 1e). Bundan əlavə, 742 qoşulmada 173,166 (MAF ≥ 0,01) nüsxə nömrəsi dəyişikliyi (CNVs) müəyyən edilmişdir, o cümlədən landraslarda 82,431, GhImpUSO-da 59,309 və GhImpCHN qrupunda 38,057 (Əlavə T8). 742 girişdə CNV-lərin populyasiya genetik xüsusiyyətləri göstərdi G. hirsutum landraces SNP əsaslı nəticəyə bənzər təkmilləşdirilmiş qoşulmalardan aydın şəkildə ayrıldı, lakin GhImpUSO və GhImpCHN qoşulmaları ilə birlikdə qruplaşdırıldı (Əlavə fayl 2: Şəkil S4). Bu nəticələr yüksək inamlı CNV-lər arasında güclü fərq olduğunu göstərdi G. hirsutum landrace və təkmilləşdirilmiş populyasiya və mürəkkəb kəmiyyət əlamət lokuslarını (QTL) aşkar etmək üçün istifadə edilə bilər. Bu hərtərəfli müxtəlif verilənlər bazası pambıq populyasiyasının genetikası, əhliləşdirmə təhlili və aqronomik allel identifikasiyası üçün genomik resurs təmin edir (Əlavə fayl 2: Şəkil S5).

Evcilləşdirmə və təkmilləşdirmə zamanı genomik divergensiyanın sübutu

Ev təsərrüfatı ilə bağlı əlamətlər toxum ölçüsünə, çiçəkləmə müddətinə, məhsuldarlığa, keyfiyyətə və məhsulun uyğunlaşmasına təsir edən vəhşi növlərdə seçilmiş genetik variasiyadan yaranır [35,36,37]. Pambığın əhliləşdirilməsi zamanı potensial seçim siqnallarını müəyyən etmək üçün biz hər bir becərilən qrupu onun müvafiq vəhşi qrupu ilə müqayisə edərək, nukleotid müxtəlifliyində allel tezliyinin diferensasiyası ilə genetik variasiyaları skan etdik. π-dən istifadə edərək 76 əhliləşdirmə bölgəsini (DSR) müəyyən etdikLandraceTəkmilləşdirilmiş (nisbət ≥ 15) və ehtimal metodu (XP-CLR, Top 5%) (Əlavə fayl 2: Şəkil S6a), A altgenomunda 66,8 Mb və D altgenomunda 51,4 Mb, o cümlədən 274 gen ilə əlaqəli 837 və 1272 gen tutur. homolog gen cütləri (Şəkil 2a). Az sayda qoşulma ilə əvvəlki tədqiqatlarla müqayisədə [3,4,5], bu evləşdirmə seçim təhlili 43,6 Mb tutan 31 yeni DSR müəyyən etdi (Əlavə fayl 1: Cədvəl S9). Bəzi liflə əlaqəli və məlum əhliləşdirilmiş genlər vəhşi/torpaq növləri və təkmilləşdirilmiş sortlar arasında diferensial şəkildə ifadə edilmişdir (Əlavə fayl 2: Şəkil S6b, c). Əhliləşdirmə seçilmiş genlər stress cavabında, hüceyrə divarının tənzimlənməsində, jasmonik turşuda, etilendə və sirkadiyalı ritm prosesində iştirak etmişdir (Əlavə fayl 2: Şəkil S7). Bu genlərin bitki hormonu yolunda və stresə cavab yollarında əlavə manipulyasiyası pambığın əhliləşdirilməsi zamanı lif keyfiyyətinin yaxşılaşdırılmasında və ətraf mühitə uyğunlaşmada onların ehtimal olunan tənzimləyici rolunu nümayiş etdirməyə kömək edə bilər [3, 38, 39]. Biz həmçinin 120 Mb (πGhImpUSOGhImpCHN ≥ 2) təkmilləşdirmə siqnalları ilə, o cümlədən A altgenomunda 1006 seçilmiş gen və 353 homolog gen cütü olan D altgenomunda 2369 (Şəkil 2a Əlavə fayl 2: Şəkil S6d) və təkmilləşdirmə seçim bölgələrinin 79,5% (95,4 Mb) əvvəllər müəyyən edilməmişdir [5] (Əlavə fayl 1: Cədvəl S10). Qeyd edək ki, 19 Mb ardıcıllığın həm evcilləşdirmə, həm də təkmilləşdirmə seçim siqnalları ilə yoxlanıldığı müşahidə edilir ki, burada D altgenomunda (441 gen) A altgenomundan (50 gen) daha çox gen var (Əlavə fayl 1: Cədvəl S11). Bu məlumatlar göstərir ki, D subgenomu həm əhliləşdirmə, həm də təkmilləşdirmə proseslərində daha güclü SNP əsaslı seçim siqnallarına malikdir.

Pambığın əhliləşdirilməsi zamanı aqronomik əlamətlər üzrə subgenomik divergensiya və GWAS üçün çoxölçülü variasiya. a Pambığın əhliləşdirilməsi və təkmilləşdirilməsi zamanı SNP və SV əsaslı seçim siqnallarını və QTL-ləri göstərən Circos süjeti. Seçim bölgəsi addım ölçüsü 200 kb olan 1 Mb sürüşmə pəncərəsində hesablanmışdır. I–VIII, Circos, gen sıxlığını (I), snpQTLs (II), cnvQTLs (III), SNP-lərə əsaslanan nukleotid müxtəlifliyinin nisbətini (π) göstərən 256 landrase və 1364 təkmilləşdirilmiş qoşulma arasında əhliləşdirmə (IV) göstərən xarici hissədən inter treklərə ), yaxşılaşdırmaq üçün 438 GhImpUSO qoşulması və 929 GhImpCHN qoşulması (V) arasında SNP-lərə əsaslanan nukleotid müxtəlifliyinin (π) nisbəti, torpaq irqi və təkmilləşdirilmiş birləşmələr (VI) və GhImpUSO və GhImpCHN ( arasında müqayisələrdə nisbi SV allel fərqi) VII). Track (VIII) əhliləşdirilmiş homologu təmsil edir. Yuxarı və aşağı panellər (VI) müvafiq olaraq delesiya və dublikasiya variasiyası allel fərqini təmsil edir. snpQTL-lər 890 pambıq birləşməsinin meta-GWAS analizindən istifadə etməklə müəyyən edilmişdir. Circos süjetinin ən kənar dairəsi bənövşəyi və sarı şriftdə müvafiq olaraq pleiotropik snpQTLs (psnpQTLs) və pleiotropic cnvQTLs (pcnvQTLs) göstərilir. b-i A () arasında nüsxə sayı dəyişikliklərinin seçici siqnalları (CNVs)b) və D (f) əhliləşdirmə zamanı subgenom. Üfüqi boz kəsik-kəsik xətlər vəhşi/torpaq irqi və təkmilləşdirilmiş pambıq birləşmələri (π) arasındakı nukleotid müxtəlifliyinin nisbəti ilə əhliləşdirmə siqnalı həddini göstərir.torpaq irqiTəkmilləşdirilmiş > 200). c–eg–i Toxum indeksi (SI) üçün əhliləşdirmə seçim siqnalları ilə üst-üstə düşən altı CNV əsaslı GWAS hitləri göstərilmişdir (c), lif uzunluğu (FL) (d), gövdə çəkisi (BW) (e), lif vahidliyi (FU) (g), lif uzanması (FE) (h) və çiçəkləmə tarixi (FD) (i). cnvQTL xəttinin həddi -log idi10 P = 4.4. Skripka süjeti aparıcı CNV genotipi ilə fenotipik variasiya göstərdi. Skripka süjetindəki rəqəmlər hər nüsxə üçün qoşulmaların sayını göstərir. Əhəmiyyətlilik fərqi ikitərəfli Wilcoxon rank-sum testi ilə hesablanmışdır (**P < 0,01, *P < 0,05)

Evcilləşdirmə vəhşi/yerli və əhliləşdirilmiş qruplar arasında CNV allel tezliyi fərqi üçün sürücüdür [37]. Ümumilikdə, pambığın əhliləşdirilməsi zamanı seleksiya siqnalları ilə 286 artıq olmayan CNV əsaslı bölgə müəyyən edilmişdir ki, bunlar A altgenomunda 297 Mb (Şəkil 2b) və D altgenomunda 105 Mb (Şəkil 2f) təşkil edir. SNP əsaslı yerliləşdirmə siqnallarının təxminən 55%-i (118 Mb-dan 65 Mb) CNV-əsaslı yerliləşdirmə siqnalları ilə üst-üstə düşür (Əlavə fayl 1: Cədvəl S12). Ümumilikdə, A altgenomunda 156 Mb və D altgenomunda 133 Mb olan təkmil seçim siqnalları ilə 217 CNV bölgəsi müəyyən edilmişdir. SNP əsaslı təkmilləşdirmə siqnallarının təxminən 44%-i (120 Mb-dan 52 Mb) CNV əsaslı təkmilləşdirmə siqnalları ilə üst-üstə düşür (Əlavə fayl 1: Cədvəl S13). Ümumilikdə, biz A altgenomunda 329 Mb (6339 geni əhatə edən) və D altgenomunda 127 Mb (4955 gen) SNP və CNV əsaslı evləşdirmə siqnalları ilə müəyyən etdik. Cəmi 173 Mb (5526 gen) və 184 Mb (8405 gen) ardıcıllığın A və D altgenomlarında təkmilləşdirmə siqnalları var. Əhliləşdirmə və təkmilləşdirmə zamanı seçmə siqnallarının müəyyən edilməsi mühüm aqronomik əlamətlərin genetik lokuslarını daha da müəyyən etməyə kömək edə bilər.

Aqronomik əlamətlərlə əlaqəli seçim siqnalları üçün QTL-ləri müəyyən etmək üçün biz 890-ın ​​genom-geniş assosiasiya tədqiqatı (GWAS) meta-analizi keçirdik. G. hirsutum bir çox mühitə malik üç müstəqil eksperimental işdən daxilolmalar (Əlavə fayl 3) [3, 5, 6]. 890 qoşulmada MAF ≥ 0,05 olan 2,291,437 yüksək keyfiyyətli SNP-nin genotip məlumatlarından istifadə edərək, 2952 əhəmiyyətli SNP (0,05/2,291,437) müəyyən etdik. P < 2.18 × 10 − 8 ) lif keyfiyyəti ilə əlaqəli əlamətlərlə əlaqələndirilir. Ciddi süzgəcdən sonra 11-i lif uzunluğu (FL), 17-si lifin uzanması (FE), 15-i lif möhkəmliyi (FS), 19-u lif uzunluğunun vahidliyi (FU), 10-u lif üçün də daxil olmaqla, 91 əsas liflə əlaqəli QTL-lər yerləşdirildi. mikroner (FM), lif yetkinliyi (MAT) üçün 7 və əyirmə ardıcıllığı indeksi (SCI) üçün 12 (Əlavə fayl 1: Cədvəl S14 və Əlavə fayl 2: Şəkil S8). Biz həmçinin 31 məhsuldarlıq və 3 çiçəkləmə tarixi (FD) ilə bağlı QTL müəyyən etdik. Ümumilikdə, 15 aqronomik əlamət üçün 4751 namizəd geni olan 125 əsas QTL müəyyən edilmişdir ki, bunlardan 78-i əvvəlki tədqiqatlara uyğundur [3, 5, 6, 15, 40, 41], digər 47-si isə meta-analizdə yeni aşkar edilmişdir ( Əlavə fayl 1: Cədvəl S14). 125 QTL-də 14-də əhliləşdirmə və təkmilləşdirmə zamanı seçim siqnalları var (Əlavə fayl 1: Cədvəl S15). Bundan əlavə, iyirmi bir QTL lokus lif keyfiyyətinə, məhsuldarlığa və çiçəkləmə tarixinə pleiotrop təsir göstərdi (Şəkil 2a Əlavə fayl 1: Cədvəl S16). Məsələn, tüy faizi (LP), qaba başına lif çəkisi (FWPB) və lint indeksi (LI) D02 xromosomunda birgə lokallaşdırılmış əsas QTL ilə məhsuldarlığın komponentləridir (Əlavə fayl 2: Şəkil S9a). Çiçəkləmə vaxtı əlamətləri üçün LP, FD və bütün böyümə dövrü (WGP) D03 xromosomunda birgə yerləşdirilmiş QTL-lərə malikdir (Əlavə fayl 2: Şəkil S9b).

Meta-GWAS-da müəyyən edilmiş lif uzanması ilə bağlı yeni QTL-lərə diqqət yetirdik. Yeni QTL (mqFE253) D05 xromosomunda (genomik bölgənin 11,3-12,5 Mb-də) yerləşdi. 64 namizəd gen haplotip analizi, gen ifadəsi və funksional annotasiyanın inteqrasiyası ilə proqnozlaşdırılıb (Əlavə fayl 2: Şəkil S10). Bir namizəd gen (Ghir_D05G013680, GhIDD7), qeyri-müəyyən domen 7 transkripsiya faktorunu kodlayan dörd lif inkişaf mərhələsində diferensial şəkildə ifadə edildi (Əlavə fayl 2: Şəkil S10f). 5′ UTR bölgəsinin iki əsas haplotipini təmsil edən birləşmələr lif uzanmasında və lif uzunluğunda əhəmiyyətli fərq göstərdi (Əlavə fayl 2: Şəkil S11a-b). Nokautdan sonra GhIDD7, yetkin lif yabanı tipli bitkilərdən əhəmiyyətli dərəcədə qısa idi (25,8 ± 0,3 və 27,1 ± 0,1) (Əlavə fayl 2: Şəkil S11c, d, e). Bu nəticələr onu göstərdi GhIDD7 lif keyfiyyəti ilə əlaqəli xüsusiyyətə töhfə verən əvvəllər xarakterik olmayan bir gen idi.

419-da 26,831 yüksək etibarlı CNV-nin (MAF ≥ 0,05) GWAS təhlili G. hirsutum qoşulmalar 50 QTL (cnvQTL) üçün 370 əhəmiyyətli CNV aşkar etdi (Əlavə fayl 1: Cədvəl S17), onlardan 5-i həm lif keyfiyyətinə, həm də tüy məhsuldarlığına pleiotrop təsir göstərdi (Şəkil 2a). SNP əsaslı QTL (snpQTL) ilə üst-üstə düşən on üç cnvQTL, digər 37 cnvQTL isə yalnız CNV-lər tərəfindən müəyyən edilir. Bu cnvQTL-lərdən 15-i əhliləşdirmə süpürgələri ilə, 10-u isə təkmilləşdirmə seçim siqnalları ilə üst-üstə düşdü (Əlavə fayl 1: Cədvəl S18). Fenotipik məlumatlar qurğuşun CNV-nin müxtəlif nüsxə nömrələri ilə pambıq birləşmələrində əhəmiyyətli fərq nümayiş etdirir (Şəkil 2c–e, g–i Əlavə fayl 2: Şəkil S12). Məsələn, A06 xromosomunda əhliləşdirmə siqnalı ilə toxum indeksi (SI) birliyi müəyyən edilmişdir (Şəkil 2c). Əhliləşdirmə siqnalı ilə lif uzunluğu (FL) əlaqəsi A10 xromosomunda yerləşirdi və 2 duplikasiya nüsxəsi olan FL, 0 nüsxə (istinad) alleli ilə müqayisədə əhəmiyyətli dərəcədə uzun idi (P < 0,01) (Şəkil 2d). Aparıcı CNV-nin cəlb olunduğu LD bölgəsində 78 namizəd kodlaşdıran gen var, onların bəziləri pambıq lifinin inkişafında iştirak edir, məsələn, UDP-qlükoza pirofosforilaza 3 (Ghir_A10G024310, UGP3) və AP2/B3 kimi transkripsiya faktoru (Ghir_A10G023950). Başqa bir nümunə, A12 xromosomunda yerləşmiş təkmil seçim siqnalı ilə lif yetkinliyi (MAT) assosiasiyasını göstərir (Əlavə fayl 2: Şəkil S13a, b, c). Bu assosiasiyada ksiloqlukan endotransqlükozilaz/hidrolaz 5-i kodlayan bir namizəd gen var.Ghir_A12G008500, XTH5). D altgenomunda güclü seçim siqnalları olan üç cnvQTL-nin D03, D06 və D07 xromosomlarında FD, FWPB və FS ilə əlaqəli olduğu aşkar edilmişdir (Əlavə fayl 2: Şəkil S13d, e, f, g). Bu nəticələr gələcək yetişdirmədə arzu olunan əlamətlərin yetişdirilməsi üçün tətbiq oluna bilən bir sıra cnvQTL namizədlərini təmin edir.

Pan-genomları G. hirsutum və G. barbadense növlər

Pan-genomların qurulması üçün istinad əsasında qurulan montaj yanaşmasından [21] istifadə etdik G. hirsutumG. barbadense. 1581-in ardıcıllıq məlumatları G. hirsutum (251 landrace, 424 GhImpUSO və 906 GhImpCHN) və 226 G. barbadense təkmilləşdirilmiş birləşmələr müvafiq olaraq “TM-1” və “3-79” istinad genomlarına uyğunlaşdırılmışdır [12]. Təxminən 5800 milyon xəritəsiz oxunur G. hirsutum və 1127 milyon xəritəsiz oxunuşdan G. barbadense de novo montaja tabe idi (Əlavə fayl 2: Şəkil S14, S15), minimum uzunluğu 500 bp olan müvafiq olaraq 5,047,083,790 bp və 1,517,253,311 bp kontig ardıcıllığı istehsal edir (Əlavə fayl 1: Cədvəl S19). Ehtiyatlar aradan qaldırıldıqdan sonra 1530 bp kontig N50 ilə 3704 Mb və 1422 Mb istinad olmayan ardıcıllıqlar (G. hirsutum) və 1108 bp (G. barbadense) son qeyri-istinad genomları üçün bütün filtrləmə addımlarını keçdi (Əlavə fayl 1: Cədvəl S20). Son 1041 Mb və 309 Mb qeyri-istinad ardıcıllığı G. hirsutumG. barbadense 1000 bp-dən çox uzunluqlu zülal kodlayan genlərin proqnozlaşdırılması üçün istifadə edilmişdir (Əlavə fayl 2: Şəkil S16). 32,569 əldə etdik G. hirsutum genlər (65.679 transkript) və 8851 G. barbadense genlər (12,076 transkript) (Əlavə fayl 1: Cədvəllər S21-S22). Son G. hirsutum pan-genom (Ghpan-genome) 102,768 gen ilə 3388 Mb ("TM-1" istinad genomunda 70,199 gen ilə 2347 Mb) və G. barbadense (Gbpan-genom) 80,148 gen ilə 2575 Mb ("3-79" istinad genomunda 71,297 gen ilə 2266 Mb) (Əlavə fayl 2: Şəkil S17).

Ghpan-genomunun əhatə dairəsi, o cümlədən 10 təmsilçi qoşulmanın PacBio oxunuşlarından istifadə edərək araşdırıldı. G. hirsutum yucatanense, G. hirsutum richmondi, G. hirsutum morrilli vəhşi/təbii irqlərdən, GhImpUSO qrupundan Acala, Paymaster 54, Stoneville 2B və GhImpCHN qrupundan Simian 3, CRI 7, Xinluzao 42 və Xuzhou 142 (Əlavə fayl 1: S23-S25 Əlavə fayl 2: Şəkil S18 ). De novo montajdan sonra (Əlavə fayl 3), yığılmış kontiglərin 93%-dən çoxu TM-1 istinad genomuna uyğunlaşdırıldı. Təxminən 18,9 Mb xəritələnməmiş kontiglər (TM-1 istinad genomunda təsvir olunmayan 10 birləşmədən cəmi 641 Mb kontig) 1581-in qeyri-referans ardıcıllığına uyğunlaşdırılıb. G. hirsutum qoşulmalar (istinadsız ardıcıllığın orta uzunluğu

655 kb 1041 Mb/1581 Mb). PacBio əsaslı məclislər, istinad olmayan genom ardıcıllığı üçün sübut təqdim edir G. hirsutumBu, pan-genom tikinti boru kəmərimizin böyük bir germplazma populyasiyasında PAV-ları əldə edə biləcəyini göstərir. Bəzi yüksək tezlikli PAV-lar həmçinin 23 təmsilçi qoşulmada PCR ilə təsdiq edilmişdir (Əlavə fayl 2: Şəkil S19).

Üçün G. hirsutum populyasiya, biz 102,768 pan geninə qarşı təkrar ardıcıllıq oxunmasını xəritələşdirdik ki, bu da 561 birləşmədə 17,100 gen (16,64%, tək ton) və 1020 birləşmədə 85,667 gen (dərinlik & gt 5) ilə nəticələndi. 1020 G. hirsutum qoşulmalara hamı tərəfindən paylaşılan 63,489 əsas gen daxildir G. hirsutum qoşulma, 990-1019 birləşmədə 5941 (5,78%) softkor gen (97-100%), 11-989 birləşmədə 3803 (3,7%) qabıq gen (1-97%) və 12,434 (12,1%) buluddan az 10 birləşmə (0-1%) (Şəkil 3a, b). Üçün G. barbadense pan-genom, 1536 təkil gen yalnız 49 aşağı dərinlikli birləşmədə meydana gəldi. Əlavə PAV analizi üçün 177 birləşmədə meydana gələn 78,612 pan genindən istifadə etdik. 177 G. barbadense qoşulmalara 68,789 (85,8%) əsas gen, 172-176 birləşmədə 1796 (2,24%) softkor gen (97-100%), 4-171 birləşmədə (2-97%) 5867 (7,32%) qabıq genləri və 2160 daxildir. (2.75%) 3-dən az birləşmədə buludlar (0-2%) (Şəkil 3c, d). İterativ təsadüfi seçmə ilə pan-genom ölçüsünün modelləşdirilməsi, Ghpan-genomun orta hesabla 81,688 pan geninə və 398 girişdə orta hesabla 65,595 əsas genə malik olduğunu göstərir (Şəkil 3e). Gbpan-genomunda doyma modelləşdirilməsi üçün 59 girişdə orta hesabla 78,607 pan gen və 69,563 əsas gen var (Şəkil 3f). Buna görə də, əsas genomun ölçüsü azaldı və pan-genom populyasiya ölçüsünün artması ilə artdı. GO təhlili göstərdi ki, əsas genlər hüceyrə metabolik prosesində və inkişafında iştirak edir, dəyişkən genlər isə “müdafiə reaksiyası”, “stressə cavab” və “ətraf mühitin uyğunluğunda siqnal ötürülməsi” ilə məşğuldur (Əlavə fayl 2: Şəkil S20).

Pan-genomları G. hirsutumG. barbadense növlər. a Gen sayı və mövcudluq tezliyi G. hirsutum pan genləri. Pasta diaqramı əsas (bütün birləşmələrdə mövcuddur), softkor, qabıq və bulud genlərinə uyğundur. Aşağı dərinlikli (< 5) birləşmələrdə təkton genləri əlavə PAV analizi üçün xaric edilmişdir. Dəyişən genlər Əlavə fayl 2-də istinad və qeyri-istinad genlərinə bölünür: Şəkil S17. b 1020 G. hirsutum qoşulmaların istilik xəritəsi dəyişən PAV-ların mövcudluğunu və olmamasını göstərdi. c Gen sayı və mövcudluq tezliyi G. barbadense pan genləri. d 177 G. barbadense qoşulmaların istilik xəritəsi dəyişən PAV-ların mövcudluğunu və olmamasını göstərdi. e, f 1020-də pan-genom ölçüsünün artması və nüvə-genom ölçüsünün azalmasının modelləşdirilməsi doyma əyrisi G. hirsutum (e) və 177 G. barbadense (f). Səhv çubuğu pambıq genomlarının beş təkrarı ilə 1000 təsadüfi birləşmə əsasında hesablanmışdır. Bənövşəyi və qırmızı rəngli üst və alt kənarlar maksimum və minimum gen sayını təmsil edir. Möhkəm xətlər pan genlərinin və əsas genlərin sayını təmsil edir

Daha sonra A və D altgenomları arasında əsas və dəyişən genlərin genomik xüsusiyyətlərini araşdırdıq. Əsas genlər hər ikisində dəyişən genlərdən daha yüksək ifadə səviyyələrinə malikdir G. hirsutumG. barbadense (Əlavə fayl 2: Şəkil S21). Maraqlıdır ki, A subgenomik dəyişən genləri D subgenomik genlərindən daha yüksək ifadə səviyyələrinə malikdir (Şəkil 4a). Dəyişən genlər əsas genlərə nisbətən daha yüksək bitişik (2 kb) TE daxiletmə ehtimalına malikdir, xüsusən qaraçı sinif (Əlavə fayl 2: Şəkil S22). D altgenomunda dəyişən genlər A altgenomunda olanlardan daha yüksək nisbətə malikdir (şəkil 4b). Təkamül seleksiyası təhlili göstərdi ki, hər ikisində əsas genlərdən daha çox dəyişkən gen müsbət seçimdən keçib. G. hirsutumG. barbadense, xüsusilə D altgenomunda (Şəkil 4c). Bundan əlavə, dəyişən genlər əsas genlərdən daha böyük nukleotid müxtəlifliyinə malikdir və D altgenomunda daha çox dəyişkən genlər daha yüksək müxtəlifliyə malikdir (P < 0.001) (Şəkil 4d Əlavə fayl 2: Şəkil S23). Bu məlumatlar D subgenomik dəyişən genlərinin A subgenomik genlərindən daha sürətli təkamül sürətinə malik olduğunu göstərdi.

A və D subgenomlarında əsas və dəyişən genlərin müqayisəsi. a Əsas və dəyişən genlərin ifadə səviyyələri G. hirsutumG. barbadense. Yumşaq genlər "Yumşaq" ilə təmsil olunur. b A və D altgenomlarında əsas və dəyişən genlərin yuxarı axınında 2 kb-da köçürülə bilən elementin (TE) daxiletmə tezliyinin nisbəti. c Sinonim/sinonim nisbəti (Ka/Ks) əsas və dəyişən genlərin mutasiyaları. d Əsas və dəyişən genlərin SNP müxtəlifliyi. Əsas və dəyişən genlər arasında gen ifadəsi, TE və SNP müxtəlifliyinin müqayisəsi ikitərəfli Kolmoqorov-Smirnov testindən istifadə etməklə həyata keçirilmişdir (*P < 0,05, **P < 0.01, ***P < 0,001)

Evləşdirmə və təkmilləşdirmə zamanı PAV seçimi

Landrace və təkmilləşdirilmiş pambıq arasında selektiv PAV-ların mənzərəsini yaratmaq üçün biz landrace, GhImpUSO və GhImpCHN qrupları arasında PAV tezliyini müqayisə etdik. Landrace qrupunda təkmil çeşidlərə nisbətən daha çox dəyişkən genlər var, bu da pambığın əhliləşdirilməsi zamanı gen itkisinin ümumi tendensiyasını göstərir (şək. 5a). PCA və PAV-ların filogenetik təhlili, landrace qrupunun təkmilləşdirilmiş sort qrupundan ayrıldığını göstərir (Şəkil 5b, c). Doğma Amerikadan olan torpaq irqləri yüksək etibarlı SNP-lərin klaster analizinə uyğun olaraq genetik tərkibdə Amerika becərilən pambıqla populyasiya qarışığına malik idi (Əlavə fayl 2: Şəkil S24). Yanlış-müsbət nisbətə nəzarət etmək üçün mənşəyi qeyri-müəyyən olan qarışıq populyasiya strukturunda səkkiz landrace və otuz dörd GhImpUSO qoşulması əlavə təhlildən çıxarıldı.

Pambığın əhliləşdirilməsi və təkmilləşdirilməsi zamanı PAV seçim siqnalları. a arasında gen sayı G. hirsutum landrace və təkmilləşdirilmiş birləşmələr. Wilcoxon rütbə cəmi testi (P < 0,001) əhəmiyyətli statistika üçün istifadə edilmişdir. b Qabıq PAV-lara əsaslanan 1020 birləşmənin PCA təhlili. c Maksimum ehtimal olunan filogenetik ağac və müxtəlif qruplarla populyasiya strukturu (K = 2, 3 və 4) 1020-ci ildə G. hirsutum 3803 qabıqlı PAV-lardan istifadə edərək qoşulmalar. Əhali strukturu filogenetik ağaca görə sıralanır. d, e Landrace ilə GhImpUSO qrupu (evcilləşdirmə) və GhImpUSO ilə GhImpCHN qrupu (təkmilləşdirmə) arasında əhəmiyyətli gen mövcudluğu tezliyinin müqayisəsi (FDR < 0.001, ikitərəfli Fisherin dəqiq testi). f Əhliləşdirmə və təkmilləşdirmə zamanı əlverişli və əlverişsiz genlərin sayı. g, h Əhliləşdirmə və təkmilləşdirmə zamanı əlverişli və əlverişsiz genlərin PAV mövcudluğu tezliyi. i, j Əlverişli genin GO zənginləşdirmə analizi (i) və əlverişsiz gen (j) əhliləşdirmə və təkmilləşdirmə zamanı qazanc və zərər

Evcilləşdirmə və təkmilləşdirmə zamanı PAV ilə əlaqəli genləri seçmə siqnalları ilə müəyyən etmək üçün "evcilləşdirmə" üçün dəyişən genlərin mövcudluğu tezliyindən istifadə edərək 182 landrace və 206 GhImpUSO qoşulması arasında iki müqayisə apardıq (Şəkil 5d Əlavə fayl 2: Şəkil S25) və “təkmilləşdirmə” üçün 206 GhImpUSO və 592 GhImpCHN qoşulmaları arasında (Şəkil 5e). Mövcudluq tezliyində əhəmiyyətli dəyişiklik olan genlər (FDR "əlverişsiz gen" üçün < 0,001 və tezlik qatının dəyişməsi > 2 və ya "əlverişli gen" üçün < 0,5) seçilmiş genlər kimi qəbul edilmişdir. Yer irqində GhImpUSO-ya nisbətən daha yüksək iştirak tezliyi və GhImpUSO-da GhImpCHN-dən daha yüksək olma tezliyi olan genlər potensial olaraq “əlverişsiz gen”, mövcudluq tezliyinin tərs nümunələri olan genlər isə “əlverişli gen” idi. Biz 2785 və 7867 alel qazancı ilə əlverişli genləri və əhliləşdirmə və təkmilləşdirmə zamanı allel itkisi olan 6753 və 3866 əlverişsiz genləri müəyyən etdik (Əlavə fayl 1: Cədvəllər S26, S27). GO zənginləşdirmə təhlili göstərdi ki, əlverişli genlər oksidləşmə-reduksiya ilə bağlı prosesdə, əlverişsiz genlər isə yağ turşusu biosintezində və genlərin tənzimlənməsində zənginləşib. Əlverişli və əlverişsiz genlər evcilləşdirmə və təkmilləşdirmə zamanı üç qrupda mövcudluq tezliyinə görə dörd müqayisəyə bölündü (Şəkil 5f). Həm əhliləşdirmə, həm də təkmilləşdirmə siqnalları olan 337 əlverişli genin davamlı seçimi yetişdirmə üçün elit namizəd ola bilər, halbuki GhImpCHN qrupunda daha aşağı mövcudluq tezlikləri nümayiş etdirən 308 əlverişsiz gen itki allellərini təmsil edir (Şəkil 5g Əlavə fayl 1: Cədvəl S28). Pambıq yetişdirilməsi zamanı əlverişli olandan daha çox əlverişsiz genlər aradan qaldırıldı (Şəkil 5h). Əlverişli qazanc genləri transmembran nəqlində və oksidləşmə-reduksiya prosesində, əlverişli itki genləri isə elektron nəqli zəncirində və ikincil metabolik prosesdə iştirak edirdi (şək. 5i, j). Əlverişsiz qazanc genlərinin təkmilləşdirilməsi zamanı əhəmiyyətli dərəcədə zənginləşdirilmiş proses yox idi (Şəkil 5j). Bu təhlillər göstərdi ki, əhliləşdirmə zamanı bir çox əlverişsiz genlər itirilib və təkmilləşdirmə prosesində xeyli əlverişli genlər saxlanılıb.

Pan-genom verilənlər bazasından istifadə edərək əlaqəli əlamətlər üçün genlər

Yuxarıdakı məlumatlara əsaslanaraq, biz pambığın təbii seçilməsi, əhliləşdirilməsi və təkmilləşdirilməsi üçün xülasə cədvəlini təklif edirik (şək. 6a). Biz inteqrasiya olunmuş SNP, CNV və PAV xəritələri vasitəsilə təqribən 456 Mb (yığılmış istinad genomunun 19,4%-i) və 357 Mb (15,2%) ardıcıllığı əhliləşdirmə və təkmilləşdirmə siqnalları ilə müəyyən etdik (Əlavə fayl 1: Cədvəl S29). Əhliləşdirmə bölgələrində 21,169 gen var, onlardan bəzilərinin çiçəkləmə tarixinin, morfologiyasının və lif inkişafının tənzimlənməsində iştirak etdiyi sübut edilmişdir. Çiçəkləmə tarixi üçün D03 xromosomunda əhəmiyyətli bir GWAS zirvəsi iki namizəd genə malikdir. COP1-interaktiv protein [6] (CIPI, Ghir_D03G008950) və CONSTANS kimi zülal [42] (COL2, Ghir_D03G011010), müxtəlif fotoperiodlara malik müxtəlif coğrafi ərazilərdə becərilən sortlara torpaq pambıqlarının uyğunlaşma dəyişməsi üçün tələb olunur. Səbəbli SNP allellərinin əlavə tədqiqi göstərir ki, əcdad allelləri əsasən landraslarda, təkmilləşdirilmiş sortlarda daha aşağı allel tezlikləri ilə paylanır (Şəkil 6b). Eynilə, biz torpaq irqinin və təkmilləşdirilmiş qrupların allel fərqliliyini nümayiş etdirdiyini gördük SON MERİSTEM ŞƏXSİYYƏTİ1 [43] (LMI1, Ghir_D01G021810) yarpaq formalarını tənzimləyən və əsas spiral-loop-heliks protein genində GRF (Ghir_A12G025340) pambıq glandular QTL üçün namizəd gendir [44] (Şəkil 6b). Coğrafi diferensiasiya analizi ilə evcilləşdirmə və təkmilləşdirmə seçimini yaşayan lif inkişafı üçün məsul olan bəzi genlər də aşkar edilmişdir. KCS2 (Ghir_D10G015750) və CesA6 (Ghir_D03G004880), lifin uzanmasından məsul olan [45,46,47,48] evcilləşdirmə və təkmilləşdirmə seçiminə məruz qalmışdır (Şəkil 6b). Evcilləşdirmə geni PRF3 (Ghir_D13G021640) has a strongly mutated allele in improved cultivars [49].

An available pan-genome dataset for cotton breeding. a A four-step model of variation during cotton domestication and breeding. b The spectrum of gene allele frequencies at the causal SNP polymorphisms of COL2, CIP1, PRF3, LMI1, GRF, KCS2, və CesA6 in landrace and two geographic groups. c The spectrum of domesticated PAV allele frequ encies of seven genes in landrace and two geographic groups. d An example of functional PAV located on the A08 chromosome. The dashed line in Manhattan plot indicates the threshold for GWAS signals (P < 2.62 × 10 − 8 −log P > 7.6). This locus includes four QTLs (lint percentage (LP), fiber weight per boll (FWPB), fiber micronaire (FM), fiber strength (FS)). e Four QTLs were displayed in a panel of multiple accessions. The two dashed lines represent GWAS thresholds for CNV (−log P > 6.45) and SNP (−log P > 4.42), respectively. f the phenotypic difference between presence and absence groups. The numbers below the violin plots show the accession numbers. The significance difference was calculated with a two-sided Wilcoxon rank-sum test (***P < 0.001, **P < 0,01). g Presence frequencies of Ghir_A08G006710 in 182 landrace, 206 GhImpUSO, and 592 GhImpCHN accessions

Pan-genome analysis uncovered favorable and unfavorable gene alleles during domestication and improvement, providing novel candidate genes for functional investigation (Fig. 5). For genes favorable to cotton improvement selection, SCD (short chain dehydrogenase, GhirPan.00056999), ST (sugar transporter, GhirPan.00054328), və RbfA (ribosome-binding factor A, GhirPan.00033905) have the lowest frequency in wild population and highest in domesticated cultivars (Fig. 6c Additional file 2: Figure S26). Some favorable genes exhibiting a decrease of frequency in the improvement process could be eliminated (308 genes), having almost the same allele frequency between wild and cultivated accessions, such as DXS (deoxyxylulose-5-phosphate synthase, Ghir_Scaffold1882G000030) və COX3 (cytochrome oxidase subunit 3, Ghir_Scaffold1273G00008). Genes unfavorable during domestication showed increased (182 genes) or decreased (5405 genes) frequency in the GhImpCHN group, such as RLP9 (receptor like protein 9, Ghir_D13G022380) və ZBD (Zinc-binding dehydrogenase, GhirPan.00044196) (Fig. 6c).

To determine the contribution of PAV to agronomic traits, we identified PAV-associated SNPs for 1196 PAVs (MAF ≥ 0.02) in 415 accessions (4 accessions were discarded from 419) using 1,904,926 SNPs and obtained 56,486 significant SNPs (P < 2.62 × 10 − 8 ) associated with 864 (72.2%) PAVs. Of these PAVs, 124 were overlapped with 89 trait-QTLs (Additional file 1: Table S30 Additional file 2: Figure S27). One representative PAV (Ghir_A08G006710, 543 bp, an uncharacterized gene in G. hirsutum) is located on chromosome A08 (Fig. 6d, Additional file 2: Figure S28). This hotspot region contained two yield-related (LP, FWPB) QTLs and two fiber quality-related (FM, FS) QTLs (Fig. 6e). These accessions with the presence haplotype of this gene showed significantly increased appearance of LP and FWPB traits than those with the absence haplotype, but no difference for FS and FM traits (Fig. 6f). Further presence frequency analysis showed that Ghir_A08G006710 was present in nearly all landrace and GhImpUSO accessions, but was absent in only a few GhImpCHN accessions (Fig. 6g). Interestingly, in the population RNA-Seq data of 15 DPA fiber [15], absence of this gene in 18 accessions was accompanied by significant low expression of an adjacent gene Ghir_A08G006730 (locating at upstream

61 kb, encoding an AUX/IAA transcriptional regulator family protein) compared with that representing presence of this gene in 233 accessions, supported by the change of IAA content in fibers of representative accessions (Additional file 2: Figure S29, S30). These results implied that this gene represented a recent loss event with a potential regulatory role in other gene expression during cotton improvement. These PAV localization and QTL analyses may improve the efficiency of identifying favorable genes associated with desirable agronomic traits.


Giriş

Phylogenetic reconstructions have traditionally used only a fraction of the sequence data of an organism’s genome, but due to the widespread application of Next Generation Sequencing (NGS) to phylogenetics the quantity of data continues to increase. Phylogenomic studies have therefore heavily relied on a handful of reduced representation approaches including transcriptome sequencing (RNASeq), DNA-based reduced representation techniques, and genome skimming. RNASeq was among the early, still fairly expensive, techniques to obtain large numbers of loci that are informative for deep phylogenetic divergences. Recently, the more cost-effective sequencing of targeted genomic DNA, enriched via hybrid capture, became popular and is at the core of widely used approaches including Ultra Conserved Element (UCE) (McCormack et al., 2012) and Anchored Hybrid Enrichment (Lemmon, Emme & Lemmon, 2012) methods. As sequencing costs have dropped during the past decade, genome skimming (low coverage whole genome sequencing) has become a viable alternative to target enrichment, at least for taxa with relatively small (1 Gbp) genomes. This technique is less challenging with respect to sample quality, involves less complicated lab protocols and does not require expensive probe synthesis. This last point is critical for sampling phylogenetically diverse taxa because the recovery of target sequences is not bound by limitations of the probe design.

While genome skimming does confer these potential benefits, the resulting data can be difficult to parse or integrate into a phylogenetic dataset and can pose substantial problems for analysis. For example, assembled sequences may differ from deep-sequenced model taxon genomes in being much less contiguous as well as unannotated. Genome skimming data also differ from RNASeq data, most notably by the presence of untranslated highly variable regions such as introns. As opposed to typical target capture data, where targeted loci have much higher coverage than non-target ones (Knyshov, Gordon & Weirauch, 2019), genome skimming produces more uniform coverage across the genome (Zhang et al., 2019), with differences associated primarily with sequence properties such as GC content (Barbitoff et al., 2020). Also unlike hybrid capture methodologies, where probes are typically designed for a particular set of taxa based on a related reference taxon (Faircloth, 2017 Young et al., 2016), genome skimming can be applied to taxa with or without available reference genomes or transcriptomes. Nevertheless, hybrid capture-based bioinformatic solutions are most commonly applied to the phylogenetic analysis of genome skimming data (Chen et al., 2018 Zhang et al., 2019).

Phylogenetically-oriented hybrid capture and genomic pipelines are subdivided into two main groups of approaches. Software in the first group identifies reads of interest with the help of reference sequences and subsequently assembles this limited pool of reads (aTRAM (Allen et al., 2015, 2018), HybPiper (Johnson et al., 2016), Assexon (Yuan et al., 2019), Kollector (Kucuk et al., 2017), and HybPhyloMaker (Fér & Schmickl, 2018)). The search for reads that match target regions typically makes use of read aligners (HybPiper, Kollector, HybPhyloMaker) or local similarity search algorithms on both the nucleotide and protein levels (aTRAM, HybPiper, Assexon). After reads are gathered, they are fed to an assembler, and assembled contigs are further processed. A benefit of this group of approaches is that there is no need to assemble the entire read pool, making them potentially faster and less memory demanding than approaches that use the whole read pool. Some drawbacks are the need to perform new read searches and assemblies for each new set of baits and the inability to work with assembled data.

The second group of approaches uses an assembly compiled from the total read pool. The assembly is queried for target sequences, which are then extracted and processed. Post-assembly dataset-specific target searches can be performed relatively quickly. However, especially for highly divergent taxa, the assembly process itself may be both a memory- and time-demanding procedure. Generating a set of contigs from transcriptomic assemblies can be relatively straightforward, because they mostly consist of spliced protein coding sequences. This approach is utilized in HaMStR (Ebersberger, Strauss & Von Haeseler, 2009), Orthograph (Petersen et al., 2017), Orthofinder (Emms & Kelly, 2019), and FortyTwo (Simion et al., 2017), among other applications. However, unannotated genomic assemblies may have contigs comprised of multiple genes or untranslatable introns of varying size. Gene prediction and protein extraction may be complicated when a target gene is fragmented into many small contigs. Recently, Zhang et al. (2019) suggested using Phyluce (Faircloth, 2016) for UCE extraction and Benchmarking Using Single Copy Orthologs (BUSCO) (Simão et al., 2015 Waterhouse et al., 2017) for OrthoDB Single Copy Ortholog (SCO) extraction from genomes at shallow phylogenetic levels, that is, from relatively closely related taxa. Between these two solutions, only BUSCO is specifically designed for genomic assemblies and has the capability to search for and predict genes de novo, but it is only feasible for a few predetermined sets of proteins. Phyluce was originally designed for short, conserved fragments and it is unclear how well it performs on longer multiexon genes. The recently published Assexon software (Yuan et al., 2019) is capable of searching for and retrieving sequences from genomic assemblies, but this module has not yet been extensively tested.

To address issues with commonly-used techniques for including genome-skimming data in phylogenies, we have developed a software, named ALiBaSeq (ALignment Based Sequence extraction), that is designed for sequence extraction based on a local alignment search and is applicable to all types of assembled data and a wide range of assembly qualities. The software is flexible with respect to both input and output, which will facilitate its incorporation into existing bioinformatics pipelines. Any read processing technique and assembler are supported to generate the input for the software, while the resulting sequences are output in FASTA format and can be grouped in several ways (per target locus, per sample, etc.) depending on what is required in downstream analyses. The software also allows for the integration of different types of datasets (e.g., transcriptomic and sequence capture data) allowing phylogenies with more complete taxon sampling as these various phylogenomic datasets become more and more available (Kieran et al., 2019). One of the software’s particular strengths is its ability to efficiently obtain orthologous regions from unannotated genome skimming data. Existing tools frequently rely on a particular type of sequence aligners (BLAST (Altschul et al., 1990) for aTRAM and FortyTwo, both BLAST and BWA (Li & Durbin, 2009) for HybPiper, Usearch for Assexon, LASTZ (Harris, 2007) for Phyluce). Our software supports several commonly utilized similarity search programs and their outputs. While we provide utility scripts for some of the tools, the aforementioned search programs can be run on their own, thus giving the user full control over search program settings if needed. Finally, compared to other programs, we offer greater customization of parameters, including different alignment score cutoff criteria, specification of number of alternative matches, and sequence output structure. The software is available for download at https://github.com/AlexKnyshov/alibaseq.

We here describe the implementation of this software, assess its performance, and benchmark it against other commonly utilized algorithms. Tests are conducted on (1) both conserved and variable loci as determined by average pairwise sequence distance, on (2) contiguous whole genome assembly, short read assemblies of variable depth of coverage, and a hybrid capture sample. We focus testing on the insect samples (see below), but also perform a subset of tests on a plant system to verify the software’s versatility, the details of which are available in the Text S1. Overall, we find that our software matches or outperforms other techniques applied to genome skimming data in recovering the most orthologous genes with the lowest amount of error in low-coverage, fragmented and unannotated genome assemblies. Furthermore, we determine that it works as well or better than other tools on high coverage genome assemblies and target capture assemblies especially at relatively deep phylogenetic levels (100–200 Mya). Thus, ALiBaSeq is a valuable tool for compilation of phylogenomic datasets across diverse taxa and diverse data types.


Müzakirə

Our data demonstrate the complex interaction between heterozygosity, genome assembler, and length thresholding effects with some problems becoming evident only after extensive comparison to a high-quality reference sequence. For example, from the 200 bp size cutoff assemblies, LAST showed an average of 10% sequence missing across the SOAPdenovo2 assemblies when compared to the reference, yet they were an average of 50% larger than the reference, in total assembly size. This suggests regional expansions account for a 60% excess of genomic sequence for these assemblies over the reference (S1 Table). To state this another way, an average of 40% of SOAPdenovo2 assemblies consist of expanded sequence (S1 Table). This may be an underestimate given that some regions have undergone sequence collapse (discussed below) which is also compensated by regional expansion. For the multigene pgp family we showed lower heterozygosity for the SOAPdenovo2 assemblies and one Platanus assembly (Fig 6). We interpret the lower heterozygosity in SOAPdenovo2 assemblies as evidence that these regions are not properly resolved and likely expanded regionally--consistent with duplicate genes observed throughout the phylogenetic tree in isolog clusters (Fig 5).

Confirming this, we performed PANTHER analysis of specific GO categories, yielding highly significant enrichment or depletion of 237 specific categories even after correction for false discovery rate to 0.01 (S5 Table and Fig 7A). These discrepancies can be at least partly explained by a complex interplay between regional heterozygosity and assembly parameters. While the reference genome does not display unusual heterozygosity or coverage of these regions (Fig 10) we documented in four categories that the assemblies of these regions diverge from the reference genome in terms of coverage, heterozygosity, and length assembled (Fig 7B, 7C and 7D). We would predict that if an assembler maximally “spreads out” the variation within a dataset into distinct contigs, length assembled would go up, while coverage and heterozygosity would go down as the reads are able to find their perfect match. In many cases this is precisely what we see: the assemblies shown for Oxidoreductase and Dehydrogenase behave in this way (Fig 7B, 7C and 7D) and are examples of ‘regional expansion’ (Fig 9). Somewhat surprisingly, this regional expansion appears to be far greater than one would expect for separation of alleles, which should lead to a doubling of the sequence length in most cases we saw well over 3-fold expansion of length and in one extreme case 7-fold (Fig 7C). Even Platanus, algorithmically optimized for heterozygous genome assembly, was prone to this artifact under specific parameter settings (Fig 7B and 7C). While Platanus step-size 1 performs particularly poorly with our dataset, step-size 3 and 7 both showed artifacts in our PANTHER analysis (Fig 7, see Oxidoreductase, Dehydrogenase, and Response to Heat) while yielding reasonable N50 values (step-size 3, N50 = 74 kb step-size 7, N50 = 70 kb). Therefore, our data highlight a potentially worrisome problem for genome assembly algorithms when confronted with moderate to highly heterozygous datasets.

The Amino Acid Transport category appears to violate the expectation that heterozygosity will behave similarly to coverage it is increased, not decreased, in two of three SOAPdenovo2 assemblies where coverage was decreased (Fig 7D). Hypothesizing that this might reflect collapsed repetitive elements that are intronically located within these genes, we ran RepeatMasker over the corresponding extracted genomic regions from the reference, SOAPdenovo2 23, 47, and 63, along with Platanus 20 (control). We found that while the reference assembly encodes a highly repetitive component (34.6%), the repetitive content of SOAPdenovo2 23, 47, and 63 were dramatically reduced (4.6%, 9.2%, and 9.2%, respectively). Platanus 20 (control) was 30.3% repetitive. Thus, while the Amino Acid Transport coding regions were expanded in length (Fig 7C) leading to PANTHER enrichment (Fig 7A), these genomic regions encode repeats which are collapsed leading to higher heterozygosity (Fig 7D). Thus, rather than reflecting a simple expansion or contraction (Fig 9), Amino Acid Transport-related genomic regions reflect a combination of expansion and collapse. The reasons for this anomaly remain to be investigated in future work, especially given that the repetitive elements included in these regions are unclassified by RepeatMasker. It is worth noting that the expansion of sequence encoding Amino Acid Transport-related genes, and the collapse of repetitive elements should lead to compensatory changes in coverage and heterozygosity (i.e., increased lengths should decrease the apparent heterozygosity, while collapsed repeats should increase the coverage) but overall deviations from reference are detectable (Fig 7). Indeed, the extreme length extension (7-fold, Fig 7C) of the k-mer 23 assembly may have created the apparent low heterozygosity, offsetting the effect of its highly collapsed repeat (Fig 7D). These data suggest that taken together, coverage and heterozygosity offer better information on genome assembly quality than coverage alone.

The extreme enrichment of heterozygosity for the category ‘response to heat’ for the SOAPdenovo2 23 assembly is particularly striking. While it would suggest the collapse of the genes in this category relative to the reference genome, the expected decrease in sequence length was not observed (Fig 7C). However, to construct Fig 7C we required a 98 percent identical BLASTn match or better between sequences, using blast_analysis.py (Fig 8). By relaxing this requirement to 80 percent identity we found a 3.57-fold contraction (43,083 bp from SOAPdenovo2 23 corresponding with 153,958 bp in the reference genome) which agrees with the 3.49-fold enrichment in heterozygosity (Fig 7D). (Read-mapping was performed with BWA-MEM and does not invoke a percent identity threshold). Platanus step-size 7 represents a curious case: it also is depleted for the ‘response to heat’ category but the increase in heterozygosity was only minor and coverage did not increase, suggesting these regions simply did not assemble well and were likely lost from the assembly when we filtered out contigs smaller than 1 kb, leaving the corresponding reads without a suitable target in the mapping step.


Data availability

Raw sequencing data used in this study can be found in the NCBI database under the following Bioproject accession numbers: PRJNA603155 (genome sequencing dataset of Harukei-3 melon), PRJNA624817 (genome sequencing dataset of seven melon accessions), PRJNA603146 (ONT cDNA RNA-seq), PRJNA603129 (ONT direct RNA-seq), PRJNA603204 (tissue-wide RNA-seq of Harukei-3 melon), or PRJNA603202 (leaf RNA-seq in the greenhouse). Genome assembly and annotation of Harukei-3 melon (ver. 1.41 genome reference) is available on Melonet-DB (https://melonet-db.dna.affrc.go.jp/ap/dnl).


Genom annotasiyası

To harness the full potential of a genome sequence, it needs to be annotated with biologically relevant information that can range from gene models and functional information, such as gene ontology (GO) terms (Gene Ontology Consortium 2004 Primmer et al. 2013 ) or ‘Kyoto encyclopedia of genes and genomes’ (KEGG) pathways (Kanehisa and Goto 2000 ), to microRNA and epigenetic modifications (The ENCODE Project Consortium 2012 ). In the context of genetic nonmodel organisms, annotation is often confined to protein-coding sequence (CDS) or transcripts more generally. Despite the considerable challenge to annotate genes in newly sequenced species where preexisting gene models are mostly lacking, automated gene annotation has in principle become possible for individual research groups (Yandell and Ence 2012 ). Still, a complete genome annotation constitutes a considerable effort and requires bioinformatic proficiency. We describe only the general workflow and refer the interested reader to a comprehensive review by Yandell and Ence ( 2012 ) for more details (Box 2). Before starting, it should be noted that successful annotation strongly depends on the quality of the genome assembly. Only contiguous near-complete (

90%) genomes interrupted only by small gaps will yield satisfying results. As a rule of thumb, large genomes have longer genes and thus need more contiguous assemblies for successful annotation (cf. Figure 1 in Yandell and Ence 2012 ).

The annotation process can be conceptually divided into two phases: a ‘computational phase’ where several lines of evidence from other genomes or from species-specific transcriptome data are used in parallel to create initial gene and transcript predictions. In a second ‘annotation phase’, all (sometimes contradicting) information is then synthesized into a gene annotation, following a set of rules determined by the annotation pipeline.

Prior to gene prediction, it is of vital importance to mask repetitive sequences including low-complexity regions and transposable elements. As repeats are often poorly conserved across species, it is advisable to create a species-specific repeat library using tools like RepeatModeler or RepeatExplorer (Novák et al. 2013 ). Once repeats are masked (e.g. with RepeatMasker http://www.repeatmasker.org), ab initio algorithms trained on gene models from related species can be used for baseline prediction of coding sequence (CDS) (e.g. AUGUSTUS Stanke et al. 2006 ). Protein alignments (using e.g. tblastx) and syntenic protein lift-overs from a variety of other species provide a valuable resource to complement the predicted gene models. Arguably, the best evidence comes from detailed EST or RNA-seq data, which in addition to CDS, provides gene models with information on splice sites, transcription start sites and untranslated regions (UTRs). If possible, mRNA should be sequenced strand-specifically, as this helps resolve gene models, facilitates transcriptome assembly and eventually aids in the evaluation of the genome assembly.

In a next step, all the evidence from ab initio prediction and protein-, EST- or RNA-alignments need to be synthesized into a final set of gene annotations. As the evidence is mostly incomplete and sometimes contradicting, this is a difficult task that often benefits from manual curation. Still, several automated annotation tools like MAKER (Cantarel et al. 2008 ) or PASA (Haas et al. 2003 ) exist that incorporate, and weigh the evidence from, several sources. Although these tools generally provide good results, qualitative validation is important (e.g. by assessing the length of open-reading frames). Visual inspection of the annotation is another vital component to detect systematic issues such as intron leakage (introns being annotated as exons due to the presence of pre-mRNA) or gene fusion. Tools like WebApollo (Lee et al. 2013 ) from the GMOD project are particularly useful, as they allow the user to edit the annotation directly through the visual interface.

Publishing the genome

Draft genome sequences are now being produced at an ever-increasing rate. Traditional databases such as ENSEMBL from the European Molecular Biology Labs (EMBL) and the Wellcome Trust Sanger Institute, or genomic databases from the National Center for Biotechnology Information (NCBI) providing access to genomes and meta-information can no longer annotate and curate all incoming genomes. NCBI therefore already provides the possibility to upload draft genome sequences and user-generated annotation. To allow other users to improve the assembly and its annotation, all available raw data should be uploaded, together with the assembled genome and all relevant meta-data, for example as a BioProject on NCBI.


Computational analysis of next generation sequencing data and its applications in clinical oncology

Rucha M. Wadapurkar , Renu Vyas , in Informatics in Medicine Unlocked , 2018

1.5.2 Aligning sequences

After assessing the quality of NGS reads, the reads are aligned to the reference genome . For that UCSC (University of Santa Cruz) and GRC (Genome Reference Consortium) are mainly used as sources of human reference genome [ 59–61 ]. There are some issues in selecting alignment software, the first is solving the problem of ambiguity in mapping short reads to the reference genome, which can be solved by considering paired-end reads as a better option [ 62 ]. Secondly, mutations generated from reads with many mismatches have to be discarded from further analysis steps.


This work was supported by the Netherlands Organization for Scientific Research [Vidi grant 864.14.004] to [B.E.D.] and the Conselho Nacional de Desenvolvimento Científico e Tecnológico [Science Without Borders program] to [D.D.C.] and [F.H.C.].

F. A. Bastiaan von Meijenfeldt and Ksenia Arkhipova contributed equally to this work.

Əlaqələr

Theoretical Biology and Bioinformatics, Science for Life, Utrecht University, Utrecht, The Netherlands

F. A. Bastiaan von Meijenfeldt, Ksenia Arkhipova, Diego D. Cambuy & Bas E. Dutilh

Centre for Molecular and Biomolecular Informatics, Radboud University Medical Centre, Nijmegen, The Netherlands

Felipe H. Coutinho & Bas E. Dutilh

Instituto de Biologia, Universidade Federal do Rio de Janeiro, Rio de Janeiro, RJ, Brazil

Present Address: Evolutionary Genomics Group, Departamento de Produccíon Vegetal y Microbiología, Universidad Miguel Hernández, Campus San Juan, San Juan, 03550, Alicante, Spain



Şərhlər:

  1. Bert

    Qoşuluram. Yuxarıda göstərilənlərin hamısı doğrudur.

  2. Procrustes

    Məncə, o səhvdir. Mən əminəm. Bunu müzakirə etməyi təklif edirəm.

  3. Loran

    Aramızda başqa cür alacaqdım.

  4. Anid

    İstilik! Gəlin!))

  5. Brody

    Məncə, səhv edirsən. PM-ə yazın, əlaqə saxlayaq.

  6. Norval

    It is remarkable, very valuable phrase

  7. Thorpe

    Düşünürəm ki, onlar səhvdirlər. Bunu müzakirə etməyi təklif edirəm. PM-də mənə yaz.



Mesaj yazmaq