Məlumat

Xərçəngin onkogenomik tədqiqatı üçün uzun müddət oxunan ardıcıllığın üstünlükləri hansılardır?

Xərçəngin onkogenomik tədqiqatı üçün uzun müddət oxunan ardıcıllığın üstünlükləri hansılardır?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Hal-hazırda mən nadir xərçəngin müəyyən növlərinin onkogenez mexanizmlərini öyrənmək üçün bütün genom nanopore sequencing, Illumina short read və 10x linked read istifadə edirəm. Mən bu sahədə nanopor ardıcıllığının üstünlükləri ilə maraqlanıram, məs. Illumina və 10x ilə müqayisədə füzyon geninin kəşfi, böyük struktur variantlarının və surət sayı dəyişikliklərinin (SV/CNA) aşkarlanması? Mən doktorluq dissertasiyası təklifimi yaratmaqda çətinlik çəkirəm, ona görə də hər hansı bir məsləhət qiymətləndiriləcək!


Növbəti Nəsil Sıralama Problemləri

Son 10 il ərzində yeni nəsil ardıcıllığı (NGS) sıçrayış və həddə çatdı. Çıxışlar artdı və xərclər aşağı düşdü - hər ikisi böyük ölçüdə. Bu tərəqqini göstərən NIH qrafiki o qədər çox istifadə olunur ki, onun əsas faydası indi cansıxıcı konfrans iştirakçılarına "buzzword bingo" kartlarını doldurmağa kömək etməkdir.

Dünyada quraşdırılmış 10 000-dən çox alətlə biz bir paradoksla qarşılaşırıq: indiki nəsil və gələcək nəsil bir və eynidir. "Növbəti", ardıcıllıq kontekstində demək olar ki, tamamilə mənasını itirdi. “Növbəti nəsil ardıcıllığının” indi sadəcə “ardıcıllıq” olduğunu qəbul edə bilərik.

Əsas platforma şirkətləri son bir neçə il ərzində istifadənin asanlığını yaxşılaşdırmağa diqqət yetirdilər. Illumina-nın NextSeq, MiSeq və MiniSeq sistemləri kimi daha yeni masa üstü sistemləri hamısı reagent patronlarının istifadəsi ilə işləyir, manipulyasiyaların sayını və "əldə" vaxtını azaldır.

Thermo Fisher Scientific-dən olan Ion Torrent platformalarının istifadəsi tarixən Illumina platformalarından daha çətin olub. Bununla belə, Thermo-nun ən son sistemi olan Ion S5, kitabxananın hazırlanmasından məlumatların yaradılmasına qədər bütün iş prosesini sadələşdirmək üçün xüsusi olaraq hazırlanmışdır.

Ardıcıllığın bir çox təkmilləşdirmələri - daha çox məhsul, daha az xərclər və daha yaxşı istifadə asanlığı haqqında eşitdikdən sonra təsadüfi müşahidəçi bütün çətin işlərin görüldüyünü və irəliləyiş üçün bütün maneələrin aradan qaldırıldığını təsəvvür edə bilər. Ancaq çətin iş yeni başlayıb və hələ də çoxlu çətinliklər var.

Problemlərin ortaya çıxa biləcəyi ilk sahələrdən biri çox vaxt ən çox diqqətdən kənarda qalan nümunə keyfiyyətidir. Platformalar tez-tez sınaqdan keçirilsə və yüksək seçilmiş nümunələrdən istifadə edilərək müqayisə edilsə də (məsələn, Şüşə Konsorsiumunda Genomun istinad materialı), real dünya nümunələri çox vaxt daha çox çətinlik yaradır.

İnsan ardıcıllığı üçün ən məşhur nümunə növlərindən biri FFPE-dir (formalinlə sabitlənmiş parafinə daxil edilmiş). FFPE müxtəlif səbəblərə görə məşhurdur, ən azı FFPE nümunələrinin çoxluğu deyil. Bəzi hesablamalara görə, dünyada bir milyarddan çox FFPE nümunəsi arxivdədir. Klinik nümunələrin FFPE bloklarında saxlanması sənaye miqyasında standart təcrübəyə çevrildiyi üçün bu rəqəm artmağa davam edəcək.

Geniş istifadə olunmaqla yanaşı, FFPE nümunələri çox vaxt inanılmaz dərəcədə faydalı fenotipik məlumat ehtiva edir. Məsələn, FFPE nümunələri tez-tez tibbi müalicə və klinik nəticə məlumatları ilə əlaqələndirilir.

FFPE nümunələri ilə bağlı problem həm fiksasiya prosesinin, həm də saxlama şəraitinin geniş DNT zədələnməsinə səbəb ola bilməsidir. “BioCule-nin QC platformasında 1000-dən çox nümunəni qiymətləndirərkən biz nümunə DNT-də zədələnmənin miqdarında və növlərində, məsələn, zəncirlərarası və intrastrand keçidlər, tək zəncirli DNT-nin yığılması və tək zəncirli DNT qırılmaları kimi böyük dəyişkənlik gördük. ” BioCule şirkətinin həmtəsisçisi və baş direktoru, Ph.D. Hans G. Thormar deyir.

Dəyişən məbləğlər və zərər növləri, nəzərə alınmasa, yekun nəticələrə mənfi təsir göstərə bilər. “Ardıcıllıq kimi aşağı axın tətbiqlərinə təsir dərin ola bilər: sadə kitabxana xətalarından tutmuş saxta məlumatlar istehsal edən kitabxanalara qədər, nəticələrin yanlış təfsirinə gətirib çıxarır” deyə Dr. Thormar davam edir. Buna görə də, ardıcıllıq layihəsinin əvvəlində hər bir nümunənin keyfiyyətini düzgün qiymətləndirmək çox vacibdir.


Növbəti nəsil ardıcıllıq iş axınlarında aşağı və ya dəyişkən keyfiyyət nümunələri kitabxananın hazırlanması kimi aşağı axın proseslərini poza bilər və nəticədə təhlili çaşdıra bilər. Nümunələr çarpaz keçidlər, qırılmalar, tək zəncirli DNT-nin yığılması və digər zədə formaları üçün qiymətləndirilməlidir.

Kitabxana Hazırlığı

Əsas ardıcıllıq platforması şirkətləri xam ardıcıllığın yaradılması xərclərini azaltmaq üçün illər sərf etsələr də, eyni şey kitabxana hazırlığı üçün doğru deyil. Bir nümunə üçün təxminən 50 dollar dəyərində insan genomunun ardıcıllığı üçün kitabxana hazırlığı hələ də ümumi xərclərin nisbətən kiçik bir hissəsidir. Lakin bakterial genomların ardıcıllığı və ya aşağı dərinlikli RNT ardıcıllığı (RNT-seq) kimi digər tətbiqlər üçün bu, xərclərin böyük hissəsini təşkil edə bilər.

Bir neçə qrup effektiv xərcləri azaltmaq üçün multipleksləşdirilmiş homebrew həlləri üzərində işləyir, lakin kommersiya cəbhəsində çoxlu inkişaflar olmayıb. Parlaq nöqtələrdən biri, paralel olaraq yüzlərlə və minlərlə nümunəni emal etmək üçün muncuq əsaslı sistemdən istifadə edən 10X Genomics-dən Chromium™ sistemi kimi tək hüceyrəli ardıcıllıq həllərinin işlənib hazırlanmasıdır.

10X Genomics-in həmtəsisçisi və baş direktoru, Ph.D., Serj Saxonov təkid edir: “Biz təkhüceyrəli RNT-seq-ni gen ifadə analizi etmək üçün düzgün yol kimi görürük”. "Növbəti bir neçə il ərzində dünyanın çox hissəsi RNT təcrübələri üçün tək hüceyrəli rezolyusiyaya keçəcək və biz platformamızın oraya yol göstərməsi üçün həyəcanlıyıq." Təkhüceyrəli RNT-seq üçün tələb olunanlar kimi böyük layihələr üçün yüksək multipleksləşdirilmiş məhlullar nümunə başına xərclərin kifayət qədər aşağı səviyyədə saxlanmasında mühüm rol oynayacaqdır.

Qısa Oxumalar və Uzun Oxumalar

Illumina-nın ardıcıllıq bazarındakı üstünlüyü o demək idi ki, indiyə qədər yaradılan məlumatların böyük əksəriyyəti qısa oxunuşlara əsaslanır. Çox sayda qısa oxunuşun olması genomik DNT-də tək nukleotidli polimorfizmlərin aşkarlanması və RNT transkriptlərinin sayılması kimi bir sıra tətbiqlər üçün uyğundur. Bununla belə, genomun çox təkrarlanan bölgələrini oxumaq və uzun məsafəli strukturları müəyyən etmək kimi bir sıra tətbiqlərdə tək qısa oxunuş kifayət deyil.

Pacific Biosciences-dən RSII və Sequel və Oxford Nanopore Technologies-dən MinION kimi uzun müddət oxunan platformalar müntəzəm olaraq 15-20 kilobaza (kb) diapazonunda oxunuşlar yarada bilirlər, fərdi oxunuşlar isə 100 kb-dən çox bildirilmişdir. Bu cür platformalar Davis, Kaliforniya Universitetinin molekulyar və hüceyrə biologiyası professoru, Ph.D. Charles Gasser kimi alimlərin hörmətini qazanmışdır.

“İnsanların de novo genom yığılması üçün uzun müddət oxunan üsullardan, xüsusən də qısa oxunan yüksək dəqiqlik məlumatları ilə birləşdirildikdə hibrid birləşmələrdə əldə etdikləri uğurdan heyran qaldım” deyə Dr. Gasser qeyd edir. "Texnologiyaların bu birləşməsi çox kiçik bir qrupa və minimal büdcəyə malik tək bir müstəntiqə yeni orqanizmin genomundan istifadə edilə bilən bir birləşmə yaratmağa imkan verir."

Uzun müddət oxunan bu platformalardan maksimum yararlanmaq üçün DNT nümunələrinin hazırlanmasında yeni üsullardan istifadə etmək lazımdır. Standart molekulyar biologiya üsulları ultra uzun DNT fraqmentlərini təcrid etmək üçün optimallaşdırılmamışdır, ona görə də uzun müddət oxunan kitabxanalar hazırlayarkən xüsusi diqqət yetirilməlidir.

Məsələn, satıcılar DNT fraqmentlərinin >100 kb təcrid edilməsi üçün xüsusi “yüksək molekulyar çəki” dəstləri yaratmışlar və hədəflənmiş DNT protokolları böyük DNT fraqmentləri üçün selektiv zənginləşdirmə üçün dəyişdirilmişdir. Maksimum uzun müddət oxunan məhsulu təmin etmək üçün bu yeni üsul və texnikalar mənimsənilməlidir.

Həqiqi uzun oxunuşlara alternativ olaraq bəziləri 10X Genomics-dən olanlar kimi əlaqəli-oxumalar adlanan qısa oxunuşların ixtisaslaşdırılmış formasına müraciət edirlər. Əlaqəli oxunuşlar, ümumiyyətlə >100 kb olan tək uzun DNT fraqmentindən yaradılan hər qısa oxuna unikal ştrix-kod əlavə etməklə yaradılır. Unikal barkodlar təhlil prosesi zamanı fərdi qısa oxumaları birləşdirmək üçün istifadə olunur. Bu, böyük haplotip bloklarının qurulmasına və mürəkkəb struktur məlumatlarının aydınlaşdırılmasına imkan verən uzunmüddətli genomik məlumat verir.

“Qısa oxunan ardıcıllıq yüksək dəqiqlik və ötürmə qabiliyyətinə görə olduqca güclü olsa da, genomik məzmunun yalnız bir hissəsinə daxil ola bilər” deyə doktor Saxonov məsləhət görür. "Bu, genomların əhəmiyyətli dərəcədə təkrarlanması və genomdakı məlumatların çoxunun uzun miqyasda kodlanmasıdır."


Tək nukleotid polimorfizmlərinin aşkarlanması kimi bəzi ardıcıllıq tətbiqləri qısa oxunan texnologiya ilə idarə oluna bilər. Struktur variantların aşkarlanması kimi digər tətbiqlər uzun müddət oxunan texnologiya tələb edə bilər və yeni orqanizmin genomunun yığılması kimi bəzi tətbiqlər mümkün olduqda dəqiqliyi və yüksək ötürmə qabiliyyətini təmin edən qısa oxunuşlarla birləşmiş yanaşma tələb edə bilər. və yüksək təkrarlanan genomik bölgələrlə mübarizə aparan uzun oxuyur. [ktsimage/Getty Images]

Məlumatların təhlili

Tədqiqatçıların üzləşdiyi başqa bir problem yaradılan məlumatların böyük miqdarıdır. Tək 30X insan genomu nümunəsi üçün BAM faylı (yarımsıxılmış uyğunlaşdırma faylı) təxminən 90 GB-dır. 100 nümunədən ibarət nisbətən sadə layihə 9 TB BAM faylı yarada bilər.

İldə 130 TB-dən çox məlumat yaratmağa qadir olan tək Illumina HiSeq X cihazı ilə yaddaş tez bir zamanda narahatlıq yarada bilər. Məsələn, Geniş İnstitut hər 12 dəqiqədə bir 30X genom sürətində ardıcıllıq məlumatları yaradır - hər il təxminən 4000 TB dəyərində BAM faylı.

BAM faylları VCF (variant zəng formatı) fayllarına çevrilə bilər ki, bunlarda yalnız istinad ardıcıllığından fərqli olan əsaslar üzrə məlumatlar var. Baxmayaraq ki, VCF faylları daha kiçik və işləmək daha asandır, tədqiqatçı gələcəkdə məlumatları yenidən emal etmək niyyətindədirsə, yenə də xam ardıcıllıq fayllarını saxlamaq lazımdır.

Ardıcıllığın dəyəri aşağı düşdükcə, bəziləri çoxlu material olan nümunələrin təkrar sıralanmasının daha asan və bəlkə də daha ucuz olduğu qənaətinə gəldilər. Və bu böyük miqdarda məlumatı təhlil etməyə gəldikdə, tədqiqatçılar seçim üçün korlanır. Əslində, OMICtools-da (omicX tərəfindən idarə olunan kataloq) sadalanan 3000-dən çox ardıcıl analiz aləti ilə tədqiqatçılar ən yaxşı variantı tapmaq istəyərkən asanlıqla çaşqın ola bilərlər.

Klinik Təfsir və Ödəniş

Nəhayət, klinik nümunələr üçün, xüsusən də xəstə baxımına aid olduğu üçün, ardıcıllıq variantlarının ardıcıl, etibarlı şərhini təqdim etmək çətinliyi qalır. Tipik bir ekzom nümunəsi 10.000 ilə 20.000 arasında varianta malik olacaq, halbuki bütün genom nümunəsi ümumiyyətlə 3 milyondan çox olacaq. İşləri daha idarəolunan etmək üçün variantlar tez-tez xəstəliyə səbəb olma ehtimalına görə süzülür.

Klinisyenlərə istiqamət vermək üçün Amerika Tibbi Genetika və Genomika Kolleci, Molekulyar Patologiya Assosiasiyası və Amerika Patoloqlar Kolleci variantları təsnif etmək üçün sistem yaratmışdır. Kateqoriyalara patogen, ehtimal patogen, qeyri-müəyyən əhəmiyyəti (hazırda ekzoma və bütöv genom nümunələrində böyük əksəriyyəti təşkil edir), ehtimal ki, xoşxassəli və xoşxassəli kateqoriyalar daxildir.

Bununla belə, bu cür sxemlərin öz məhdudiyyətləri var. Eyni verilənlər toplusunda ümumi təsnifat sxemindən istifadə edildikdə belə, müxtəlif qruplar fərqli şərhlərlə çıxış edə bilər. Yeni sistem üzrə pilot tədqiqatda iştirakçı klinik laboratoriyalar öz təsnifatları ilə bağlı zamanın yalnız 34%-də razılığa gəliblər.

Nəticələri şərh etmək üçün fikir ayrılığının olduğu və ya əlavə təhlilə ehtiyac duyulduğu hallarda, kompensasiya problemi maneəyə çevrilir. NGS-ə əsaslanan testlərin əvəzinin ödənilməsi böyük problem ola bilər, lakin tərcümə üçün ödənişin ödənilməsi demək olar ki, mümkün deyil.

Rady Uşaq Genomik Tibb İnstitutunun klinik tədqiqatçısı Jennifer Friedman, "Laboratoriyaların təfsir üçün hesab verməsi üçün heç bir yol yoxdur" dedi. “Bu, mövcud ola biləcək çox dəyərli bir xidmətdir, lakin bu məkanda heç kim həqiqətən yoxdur.

“Bunun üçün ödəniş etmək üçün heç bir yol yoxdur - sığorta şirkətləri bunun üçün ödəməyəcək. Təfsir klinisist və ya laboratoriya tərəfindən olsun, dəqiq tibbə diqqətin artmasına baxmayaraq, bu ən vacib cəhət səhiyyə ödəyiciləri tərəfindən tanınmır və qiymətləndirilmir.

Bu dəyişikliklərə qədər, bu xəstə nümunələrinin təhlili mahiyyətcə tədqiqat layihəsi kimi nəzərdən keçirilməlidir, ümumiyyətlə yalnız tədqiqat xəstəxanası şəraitində və yalnız məhdud sayda xəstələr üçün mövcud olan bir seçimdir.

İrəli Baxırıq

Son bir neçə il ərzində nə qədər irəliləyiş olsa da, nümunənin hazırlanmasından məlumatların təhlilinə qədər bütün NGS iş prosesində bir çox problem qalmaqdadır. Əsas texnologiyalarda yeni irəliləyişlər əldə olunduqca, yeni problemlər ortaya çıxmağa davam edəcək. Bu çağırışların öhdəsindən gəlmək bu genomik texnologiyaların geniş şəkildə mənimsənilməsini təmin etmək və onların insan sağlamlığına təsirini artırmaq üçün çox vacib olacaqdır.

Struktur Variantların Uzun və Qısa

Baxmayaraq ki, növbəti nəsil sekvensiya tək əsaslı genetik dəyişkənliyi aşkar etmək qabiliyyətimizdə sürətli irəliləyiş əldə etsə də, bu platformalar tərəfindən istehsal olunan qısa oxunan ardıcıllıqların təbiətinə görə bütün variantların başqa bir kateqoriyası mənzərədən kənarda qalmışdır. Bu variantlar sitogenetik üsullarla aşkar etmək üçün çox kiçikdir, lakin qısa oxunan ardıcıllıqla etibarlı şəkildə aşkar etmək üçün çox böyükdür. Bu, əhəmiyyətsiz məsələ deyil: hər bir insan genomunda 20.000-ə yaxın struktur variantı var və bir çoxunun xəstəliklərə səbəb olduğu sübut edilmişdir.

Tək molekullu, real vaxt (SMRT) ardıcıllıq texnologiyası, qismən onun yaratdığı əsaslı uzun oxunuşlara görə yüksək həssaslıqla bu struktur variantlarını müəyyən etmək problemini həll edir. SMRT ardıcıllığı qısa oxunan sequencerlər üçün 200 və ya 300 baza ilə müqayisədə çox kilobaza uzunluğunda oxunuşlar istehsal edir, beləliklə, onlar əlavələr, silinmələr, dublikasiyalar, inversiyalar, təkrar genişlənmələr və s. kimi struktur variantlarının əksəriyyətini tam həll edə bilirlər.

Bir çox tədqiqatlar indi struktur variantın kəşfi üçün uzun müddət oxunan SMRT ardıcıllığı məlumatlarından istifadə edir. Keçən il Amerika İnsan Genetikası Cəmiyyətində təqdim edilən layihədə NA12878 insan nümunəsi Pacific Biosciences-in Nəticə Sistemində 10 qat əhatə dairəsinə salındı ​​və struktur variantları Baylor Tibb Kollecinin PBHoney aləti ilə çağırıldı.

Bu yanaşma, Şüşə həqiqət dəstindəki Genomla müqayisəyə əsaslanaraq, genomdakı struktur variantlarının təxminən 90%-ni tapdı. Bundan əlavə, uzun müddət oxunan əhatə dairəsi qısa oxunan verilənlər bazasında tapılmayan minlərlə yeni variantı müəyyən etdi, əksəriyyəti de novo montaj tərəfindən təsdiqləndi.

Səylər böyük qruplarda struktur variantlarının təhlilinə yönəldiyi üçün həssaslıq və xərclər arasında tarazlığı saxlamaq vacibdir. Aşağı qatlı SMRT ardıcıllığı əhatə dairəsi insan genomlarında struktur variantının kəşfi üçün effektiv və əlverişli həll potensialına malikdir və faydalar digər mürəkkəb genomlara da aiddir.


Nanopore Sequencing uzun məsafəyə baxır

Oxford Nanopore Technologies (ONT) bəyan edir ki, onun missiyası “hər kəs tərəfindən, hər yerdə hər hansı bir şeyin genetik analizini” təmin etməkdir. Həqiqətən, ONT-nin sekvenserləri 80 ölkədə istifadə olunur. Portativliyi ilə yanaşı, ONT texnologiyası 2018-ci ildə bildirilən ilk >2 Mb DNT ardıcıllığını yaradan ultra uzun oxunuşların istehsalı ilə məşhurdur. Texnologiya 2016-cı ildə Ebola epidemiyası zamanı Liberiyada aparılan diaqnostik testlərdən tutmuş yeni insanın yaradılmasına qədər müxtəlif layihələri dəstəkləyib. istinad genomu.

2014-cü ilin iyun ayında Böyük Britaniyanın Birmingem Universitetinin mikrobiologiya professoru, PhD Nik Loman inqilabi yeni ardıcıllıq alətindən istifadə edərək toplanmış ilk məlumatları dərc etmək üçün Twitter-ə müraciət etdi. Qrafikdə təqdim olunan məlumatlar, “hərəkət süjeti” kimi tanınan, bir DNT zəncirinin bakteriya kanalını sürətlə keçməsi zamanı elektrik cərəyanının zamanla necə dəyişdiyini təsvir edirdi. Lomanın komandası qrafikin zirvələrini və vadilərini əsas DNT ardıcıllığına çevirib. Pseudomonas aeruginosa.

1989-cu ildə Santa Cruz Kaliforniya Universitetində biomolekulyar mühəndis olan PhD David Deamer nanoporələrin ardıcıllığının əsaslarını yaratmağa kömək edən bir qeyd dəftərinə qeyd etdi. Qeydlər göstərir ki, Deamer bir DNT zəncirinin nanopordan keçəcəyi təqdirdə, hər bir ardıcıl DNT bazasının təməlin ölçüsü və formasından asılı olaraq müəyyən edilmiş elektrik cərəyanını fərqli dərəcədə pozacağını başa düşdü.

Loman, İngilis biotexnoloji şirkəti Oxford Nanopore Technologies select ONT tərəfindən istehsal edilən ilk alət olan portativ DNT sequencer olan minION-un erkən fədaisi idi). Onun tviti Santa Cruz, Kaliforniya Universitetində biomolekulyar mühəndislik üzrə tədqiqat professoru, PhD David Deamer tərəfindən nanopor sekvensiyası konsepsiyasının ortaya çıxmasından təxminən 25 il sonra gəldi.

1989-cu ilin iyununda Deamer xatırlayır ki, bir DNT zəncirinin membrandakı kanaldan gərginlik altında keçəcəyi təqdirdə nə baş verəcəyini düşünəndən sonra nanoporələrin ardıcıllığının mərkəzi anlayışına toxundu.

O zaman, Harvard Tibb Məktəbinin professoru, PhD, genom alimi George Church oxşar ideyalar üzərində işləyirdi. Bir neçə il sonra, 1995-ci ildə Deamer, Church, Den Branton, PhD, biologiya professoru, Harvard Universitetinin fəxri professoru və başqaları öz ideyalarını patent ərizəsinə çevirdilər. Brantonun sözlərinə görə, Harvard patent ofisi belə fikirləşdi: “Bu, çox vəhşi fikirdir. Heç vaxt işləməyəcək." Kilsənin müdafiəsi isə inandırıcı oldu. Harvard imtina etdi və patenti verən ABŞ Patent İdarəsinə ərizə verdi.

Vizyon həyata keçirmək

Gordon Sanghera, PhD, Oxford Nanopore Technologies

2005-ci ildə ONT Oksford Universitetinin kimyəvi biologiya professoru, PhD Hagan Bayley tərəfindən Oxford Nanolabs kimi təsis edilmişdir. Gordon Sanghera, PhD, qurucu baş direktor vəzifəsinə işə götürüldü. Həmçinin şirkətin yaradılmasında o zaman IP Group-da olan və hazırda ONT-nin biznesin inkişafı üzrə baş direktoru olan PhD Spike Willcocks iştirak edirdi. Sanghera şirkətin ilk böyük sərmayəsini – İP Qrupdan £500,000 – Bayley laboratoriyasından bir neçə blok aralıda yerləşən Oksford meyxanasında içkilərə görə təmin etdi.

Clive Brown, Oxford Nanopore Technologies

2012-ci ilin fevral ayına qədər, Marko adasında, FL-də keçirilən ilk AGBT-nin genom biologiyası və texnologiyasında irəliləyişlər) konfransında ONT-nin baş texnologiya direktoru Klayv Braun “Tək Molekul 'Strand” adlı məruzəsində MinION-a baxış keçirdi. ' Protein Nanopores və Ölçeklenebilir Elektron Cihazlardan istifadə edərək ardıcıllığın müəyyən edilməsi. Braun əvvəllər 2007-ci ildə Illumina tərəfindən satın alınan Britaniyanın növbəti nəsil sekvensiyası seçmə NGS) şirkəti olan Solexa-da çalışmışdı. Onun vəzifəsi NGS bazarının böyük bir hissəsini ələ keçirmiş platformanın qurulmasına kömək etdiyi texnologiyanı birtəhər aradan qaldırmaq idi.

ONT təkcə Illumina ilə deyil, həm də Pacific Biosciences və MGI ilə, eləcə də ardıcıllıq oyununa yenicə girən startaplarla rəqabət aparır. PacBio-nun uzun, dəqiq HiFi oxunuşları və MGI-nin CoolMPS kimyası ilə yeni ardıcıllıq platforması, şirkətin pandemiyadan dərhal əvvəl bu il AGBT-də elan etdiyi 100 dollarlıq genom seçimini təqdim edə biləcəyini iddia edir.

ONT texnologiyası 2012-ci ildən əhəmiyyətli dərəcədə inkişaf etmişdir. ONT-nin 512 nanopor kanalı olan cib ölçülü cihazına əlavə olaraq, ONT məhsul sırasına beşə qədər MinION Axın Hüceyrəsini işə salmaq və təhlil etmək üçün nəzərdə tutulmuş daha böyük GridION kompakt tezgah üstü cihazı daxildir. 150 Gb-a qədər məlumat yaratarkən. Daha böyük tətbiqlər üçün ONT, 8 Tb-a qədər məlumat yaratmağa qadir olan 48 axın hüceyrəsi ilə ONT-nin ən yüksək ötürmə qabiliyyəti ardıcıllığı olan PromethION-u işləyib hazırlamışdır.

Daha yeni məhsul, Flongle, bu alətləri daha kiçik testlər və təcrübələr üçün daha sürətli və daha əlçatan edən MinION və ya GridION üçün adapterdir. Bioinformatika üzrə məsləhətçi, PhD Albert Vilella deyir GEN ONT-nin son yeniləmələrində işarə etdiyi bir şey olan Flongle flowcell ilə 100 dollarlıq bir təcrübə etmək qabiliyyətinin "oyunu dəyişdirici" olacağını və ONT texnologiyasının daha çox qəbul edilməsinə səbəb olacağını gözləyir. Villela iddia edir ki, rəqabətin heç biri texnologiyanı bu qiymətə yerləşdirməyə "heç bir yerdə yaxın deyil".

Paralel olaraq daha çox sayda kiçik, sürətli sınaqları həyata keçirə bilən, mahiyyətcə 96-yaxşı boşqaba uyğun olan Flongle olan Plongle tezliklə buraxılmalıdır.

Brown London Calling konfransında qeyd etdi ki, hər dəfə bu “dəli adlardan” biri haqqında düşünəndə bu, “Avstraliyada kobud bir şey ifadə edir”. Həmçinin inkişaf mərhələsində olan SmidgION ONT-nin smartfonlar və ya digər mobil, aşağı güclü cihazlarla istifadə üçün nəzərdə tutulmuş ən kiçik cihazı olacaq.

İndi, yaranmasından 15 il sonra ONT öz potensialını tam reallaşdırmaq üçün fürsət görür. Sanghera uzun müddətdir ki, ONT sensorunun diabet xəstələri üçün pinprick testi kimi DNT-nin sürətli oxunmasını təmin etmək qabiliyyətinə işarə edir. COVID-19 pandemiyası məhz belə bir fürsət təqdim edir. Və paylar çətin ki, daha yüksək ola bilər.

Ardıcıllıq yaratmaqdan tutmuş diaqnozlara qədər

Avqustun əvvəlində yüksək profilli bir elanla ONT, pandemiya akademik alimləri və şirkətləri qeyri-adi sürətlə yenilik etməyə sövq etdiyi üçün COVID-19-un diaqnostikasında təsir göstərmək əzmində olduğunu bildirdi. ONT, Böyük Britaniyanın Səhiyyə və Sosial Baxım Departamenti ilə razılaşaraq, COVID-19 testi olan LamPORE-nin istifadəyə verildiyini elan etdi.

LamPORE tamponlar və tüpürcək nümunələri üzərində işləmək üçün nəzərdə tutulmuşdur. Bir MinION 1500-ə qədər ştrix kodlu xəstə nümunəsini saxlaya bilər və təxminən 90 dəqiqə ərzində bir qaçışı tamamlaya bilər.

"LamPORE yüksək effektiv və ən əsası əlçatan qlobal sınaq həllini təqdim etmək potensialına malikdir" dedi Sanghera. "Təkcə COVID-19 üçün deyil, bir sıra digər patogenlər üçün."

LamPORE iki prosesin nikahıdır, döngə vasitəçiliyi ilə izotermik gücləndirmə seçmə LAMP) və nanoporə ardıcıllığı. LAMP yüksək spesifiklik və effektivliklə DNT-ni gücləndirmək üçün nisbətən az texniki xidmət tələb edən prosesdir. Sabit bir temperaturda bir boruda ucuz şəkildə edilə bilər.

İyirmi il əvvəl bir qrup yapon tədqiqatçısı tərəfindən hazırlanmış LAMP, COVID-19 diaqnostikasında tətbiq oluna bildiyinə görə bu yaxınlarda yenidən canlandı. Color, Sherlock Biosciences və STOPCovid daxil olmaqla, COVID diaqnostikasını inkişaf etdirən digər qruplar da gücləndirmə üçün LAMP-a etibar edirlər.

Gücləndirildikdən sonra LamPORE SARS-CoV-2 virusunun üç genini müəyyən etmək üçün nanopore ardıcıllığından istifadə edir. Metod virusun mövcudluğunu və gücləndirmə zamanı baş verə biləcək səhvləri ayırd edə bilər - yanlış müsbət nəticələr mənbəyi. Bundan əlavə, test nümunələrin toplanması zamanı səhvləri müəyyən etmək üçün insan mRNT-nin daxili nəzarətini əhatə edir, məsələn, yanlış-mənfi nəticələrin mənbəyi ola bilən zəif sürtmə proseduru birliyi.

SARS-CoV-2-yə əlavə olaraq, ONT A qripi seçilmiş H1N1 və H3N2 qripi B və tənəffüs sinsitial virusu da daxil olmaqla, bir nümunə daxilində çoxsaylı patogenləri yoxlamaq üçün LamPORE hazırlayır. Keith Robison, PhD, uzun müddət genomika bloggerinin yazdığı kimi, "Tənəffüs virusu testlərinin daha geniş yayılması və istifadəsi pandemiyanın qaranlıq buludundan nazik bir gümüş astar ola bilər."

LamPORE, cəbhə bölgəsindəki işçi qüvvələrinin yoxlanılmasını və hava limanları, qocalar evləri və məktəblər kimi ərazilərdə sürətli müayinəni təmin edə bilən genişlənmə qabiliyyətinə görə böyük hissədə həyəcan toplayır. LamPORE üçün tənzimləyici təqdimatlar davam edir və təsdiqini gözləyir.

Tez ardıcıllığın dəyişdirilməsi

Adaptiv ardıcıllıq - seçmə ardıcıllığın bir növü - maraq ardıcıllığının mövcud olub-olmamasından asılı olaraq ardıcıllıq prosesində qərar nöqtəsi yaradır. Uyğunlaşma ardıcıllığını başa düşmək üçün əvvəlcə nanoporə ardıcıllığının necə işlədiyini anlamaq vacibdir “Nanopore Sequencing's Nuts and Bolts” adlı yan panelə baxın).

Əgər maraq dairəsi mövcuddursa, ardıcıllıq davam edir. Əks halda, gərginlik tərsinə çevrilir, DNT zənciri atılır və nanopor yeni bir zəncir üçün sərbəst buraxılır. Bu qərar nöqtəsi DNT ardıcıllığını istinad ardıcıllığına uyğunlaşdıran bir proses vasitəsilə qəbul edilir.

Bu texnologiya ilə tədqiqatçı əvvəlcədən hazırlıq və ya nümunə zənginləşdirmədən seçici ardıcıllığa malik ola bilər. Və o, real vaxt rejimində məsamə gərginliklərinə nəzarət etməklə proses zamanı dinamik dəyişikliklərə imkan verir.

Johns Hopkins Universitetində kompüter elmləri və biologiya üzrə dosent, PhD Michael Schatz, tipik bir ardıcıllıq qaçışı zamanı izah edir, məlumatlar lazımsız ola bilər və ya genomun uyğun olmayan bölgələrindən ola bilər. Schatz qeyd edir ki, "Adaptiv ardıcıllıq bütün bunları dəyişir", çünki o, müəyyən bir layihə üçün uyğun olan oxunuşları seçici şəkildə hədəfləyə bilər.

O izah edir ki, "qatil tətbiqi" məqsədyönlü ardıcıllıq üçün - tədqiqatçı müəyyən bir gen dəsti ilə maraqlandıqda. Schatzın laboratoriyasındakı tədqiqatçılar uyğunlaşma ardıcıllığından istifadə edərək irsi xərçənglə əlaqəli 148 geni hədəf aldıqda, standart beş və ya altı deyil, bir axın hüceyrəsi ilə genləri ardıcıllıqla sıralaya bildilər.

Schatz, uyğunlaşma ardıcıllığının metagenomikada faydasına, maraq doğuran genomların seçici ardıcıllığına və az miqdarda materialın zənginləşdirilməsinə işarə edir. Nəhayət, Schatz qeyd edir ki, onlar hazırda cDNA-ya yanaşmanı genişləndirmək və transkriptlərin seçmə ardıcıllığını təmin etmək üçün birbaşa RNT ardıcıllığını genişləndirmək üzərində işləyirlər. O deyir GEN o, "bütün nanoporələrin ardıcıllığının bu yanaşmadan DNT və RNT ardıcıllığı layihələri üçün istifadə edəcəyi" bir günü görə biləcəyini söylədi.

“Uzun”u yenidən təyin etmək

Uzun müddət oxunan ardıcıllığın böyük üstünlüklərindən biri - ONT və PacBio-nun gücü - DNT-nin mürəkkəb, çox təkrarlanan bölgələrini oxumaq qabiliyyətidir. İnsan Genomu Layihəsinin tamamlanmasından sonra ardıcıllıq texnologiyasında böyük irəliləyişlərə baxmayaraq, elm adamları tapşırığın Telomerdən Telomerə seçmə T2T tərəfindən öhdəsinə götürülənə qədər bütöv bir xromosomun bitişik ardıcıllığını uçdan uca tamamlaya bilmədilər. konsorsium.

T2T, insan genomunun ilk tam məclisinin yaradılması üzərində işləmək üçün açıq proqrama UC Santa Cruz Genomika İnstitutunun tədqiqatçı köməkçisi, PhD Karen Miqa və PhD Sergey Koren və PhD Adam Phillippy rəhbərlik edir. , hər ikisi Milli İnsan Genomu Tədqiqat İnstitutunun Genom İnformatikası Bölməsi, Hesablama və Statistik Genomika Bölməsindən. Keçən iyul ayında Təbiət, T2T insan xromosomunun ilk boşluqsuz, telomerdən telomerə yığılmasını bildirdi.

Tam bir xromosomun yığılmasında xüsusilə çətin bir addım təkrarlanan DNT bölgələrinin birləşmələrini yaratmaqdır. Miqa və həmkarları T2T konsorsiumunu yaratmağa sövq etdilər: "Yüksək əhatəli ultra uzun ardıcıllıq insan genomunun tam birləşmələrini həll edə bilərmi?"

Nanopore sequencing yüksək əhatəli, ultra uzun müddət oxunan genomun hidatiform mol CHM13 birliyindən seçilən ardıcıllığının yaradılmasının əsasını təşkil etsə də, komanda PacBio və Illumina platformalarını, eləcə də tamamlayıcı texnologiyaları özündə birləşdirən multiplatform yanaşmadan istifadə etdi. 10x Genomics-dən cilalama texnologiyası və BioNano Genomics-dən optik xəritə texnologiyası kimi keyfiyyətin yaxşılaşdırılması və təsdiqlənməsi üçün.

Bu layihə haploid genomda həyata keçirilib, lakin Miqa qeyd edir ki, qrupun diqqəti diploid nümunələri üzərində qurulub. Miqa 2019-cu ildə London Calling çıxışı zamanı qeyd etdi ki, “[çox uzun müddətdir] yüzlərlə boşluq olan natamam insan istinad genomunu qəbul etdik”. T2T-də məqsəd genomikada standartı tamlıq və keyfiyyətə çevirməkdir. Miga iddia edir ki, biz "tam, yüksək keyfiyyətli xromosom birləşmələrini tələb edən" yeni bir dövrə qədəm qoyuruq. Əgər bu, həqiqətən də belədirsə, növbəti nəsil ardıcıllıqda ONT-nin oynadığı rolu izləmək maraqlı olacaq.


Metodlar

Seçim nümunəsi

Bu tədqiqatda ardıcıllıqla sıralanan orqanizmlər daxildir M. musculus, Z. mays, F. × ananassa, və R. muscosa. Hər bir orqanizmin ştammı, materialın mənbəyi, ploidiya səviyyəsi, inbreeding statusu, istinad genom ardıcıllığı və genom ölçüləri Cədvəl 1 və 2-də təsvir edilmişdir. Bundan əlavə, biz saxta metagenomik nümunədən (ATCC MSA-1003) ardıcıllıq oxunuşlarını dərc edirik. nümunənin tərkibinin 0,02%-dən 18%-ə qədər dəyişən pilləli konsentrasiyalarda 20 bakterial DNT nümunəsindən ibarətdir. Saxta metagenomik nümunənin tərkibi, həmçinin ayrı-ayrı bakterial növlərin genom ölçüləri və onların istinad ardıcıllığına qoşulmaları Əlavə Cədvəl 1-də verilmişdir.

Metagenomik nümunə istisna olmaqla, bu tədqiqatda ardıcıllıqla verilmiş genomlar üçün gözlənilən montaj ölçüləri cins və octoploid üçün 1600 Mb arasında dəyişdi. F. × ananassa Outbred və diploid üçün təxminən 26 ilə 18.000 Mb arasında R. muscosa (iki əlaqəli növün genom ölçülərinə əsaslanan təxmin Rana auroraRana cascadae) 27. Metagenomik nümunənin fərdi genom ölçüləri 1,67 ilə 6,34 Mb arasında dəyişir, cəmi 67 Mb bakterial ardıcıllıqla (Əlavə Cədvəl 1).

Kitabxananın hazırlanmasının ardıcıllığı

Genomik DNT hasilatı üsulları və fərdi kitabxana preparatlarının təfərrüatları aşağıdakı nümunənin xüsusi bölmələrində təsvir edilmişdir. Ümumiyyətlə, başlanğıc genomik DNT nümunəsi 25 kb-dan böyükdürsə, Megaruptor ® 3 (Diagenode) istifadə edərək DNT 15 kb ilə 23 kb arasında kəsildi. HiFi ardıcıllığı kitabxanaları SMRTbell™ Express Şablon Hazırlama Dəsti 2.0 istifadə edərək 28 hazırlanmış və ardınca Enzim Təmizləmə Dəsti (PN: 101-843-100) ilə dərhal müalicə edilmişdir. Kitabxanaların ölçüsü SAGE Science-dən SageELF və ya BluePippin Sistemlərindən istifadə etməklə elektroforetik üsulla seçilmişdir. Qaçışların ardıcıllığı üçün müvafiq fraksiyalar Femto Pulse Sistemində (Agilent) müəyyən edilmişdir. İstədiyiniz ölçülü fraksiyaları birləşdirdikdən sonra, son kitabxanalar daha da təmizləndi və AMPure PB muncuqları (Pacific Biosciences PN: 100-265-900) istifadə edərək konsentrə edildi. Nəhayət, bütün kitabxanalar Qubit™ 1X dsDNA HS Assay Kit (Thermo Fisher PN: Q33231) istifadə edərək konsentrasiyaya görə yoxlanılıb və Femto Pulse-də yekun ölçü paylanması təsdiqlənib. Bütün kitabxana ölçüləri Cədvəl 3-də təsvir edilmişdir.

M. musculus 'C57BL/6 J' nümunənin alınması, DNT çıxarılması və ardıcıllıqla kitabxananın hazırlanmasına dəyişikliklər

C57BL/6 J genomik DNT Cekson Laboratoriyasından (PN: GTC4560) əldə edilmişdir. DNT HiFi kitabxanasının hazırlanması üçün uyğun ölçüdə gəldi (

20 kb) və heç bir kəsmə tələb olunmur. Kitabxananın hazırlanma üsulu, dəsti və şərtləri yuxarıda göstərildiyi kimi idi. SMRTbell kitabxanasının ölçü bölgüsünü sərtləşdirmək üçün kitabxananın hazırlanmasından sonra DNT SageELF istifadə edərək ölçüyə bölündü. SMRTbell kitabxanası yükləmə məhlulu/Marker75 ilə hazırlanmış, sonra 0,75% agaroza 1kb-18 kb gel kasetinə yüklənmişdir (PN: ELD7510). Size fractionation was performed electrophoretically with a target size of 3,500 bp set for elution well 12, which allowed for the collection of the appropriately sized library fractions (15–23 kb) in other elution wells of the SageELF device.

Z. mays ‘B73’ sample acquisition, DNA extraction, and modifications to sequencing library preparation

Leaf tissue for the B73 maize inbred was frozen and provided by Matthew Hufford at Iowa State University, Department of Ecology, Evolution, and Organismal Biology. Genomic DNA was isolated from the frozen leaf tissue at the University of Arizona Genomics Institute using methods previously described 29 . The high molecular weight DNA was sheared using the Megaruptor 3 targeting a size distribution between 15 and 20 kb. Library preparation method, kit and conditions were as described above. Library size selection was performed on the Sage BluePippin using the 0.75% Agarose dye-free Gel Cassette (PN: BLF7510) and the S1 Marker. To ensure suitable yields, the 3–10 kb Improved Recovery cassette definition was run for the size selection and high pass elution mode was chosen to target recovery of molecules greater than 15 kb.

F. × ananassa ‘Royal Royce’ sample acquisition, DNA extraction, and modifications to sequencing library preparation

The plant material was obtained from foundation stock of the cultivar ‘Royal Royce’ maintained by the UC Davis Strawberry Breeding Program. DNA was isolated as previously described 30 . The genomic DNA was larger than required for HiFi library production and was sheared using the Megaruptor 3 targeting a size distribution centered around 22 kb. Library preparation method, kit, and conditions were as described above. The SageELF was used for size selection, with similar conditions as described for M. musculus above, in order to generate a library with an appropriately sized distribution.

R. muscosa sample acquisition, DNA extraction, and modifications to sequencing library preparation

R. muscosa, the Mountain Yellow-legged Frog, is an endangered species endemic to California. To prevent sacrificing an individual, DNA was prepared from a fibroblast cell line (KB 21384 ISIS # 916035) originally derived from a 25-day old tadpole of undetermined sex. The cells were grown at room temperature in low O2 from explants in alpha MEM with 1% NEAA. Approximately two million cells were harvested at passage 7 and frozen in a 1X solution of PBS buffer with 10% DMSO and 10% glycerol. Genomic DNA was isolated from these cells using Qiagen’s MagAttract HMW DNA Kit (PN: 67563) following the manufacture’s protocol. The resulting HMW gDNA was sheared to a target size of 22 kb on the MegaRuptor 3 prior to library preparation. Library preparation, kit and conditions were as described above. In order to tighten the size distribution, the SMRTbell library was size fractionated using SageELF System from Sage Science. The DNA was premixed with loading solution/Marker40 and loaded onto a 0.75% Agarose 10–40 kb Cassette (PN: ELD4010). Size fractionation was performed electrophoretically with a target size of 7,000 bp set for elution well 12 in order to achieve the appropriate resolution in size separation. Fractions having the desired size distribution ranges were identified on the Femto Pulse to generate a final size selected library used in the Sequel II sequencing runs. An additional DNA damage repair step was performed using the SMRTbell Damage Repair Kit (PN:100-992-200) as this was found helpful to improve library performance in sequencing runs.

Mock metagenome sample acquisition, DNA extraction, and modifications to sequencing library preparation

ATCC offers a mock metagenomic community (MSA 1003) of 20 bacteria species ranging in composition from 0.02% to 18% of the sample. Isolated DNA from this sample arrived with genomic DNA having a broad distribution of sizes and was sheared using the MegaRuptor 3 to a uniform size of 13.7 kb. Library preparation method, kit and condition were described above. Rather than using electrophoretic size selection, the resulting library was size selected using AMPure PB beads (35% v/v) to remove all small fragments.

Sequencing and data processing

SMRTbell libraries were bound to the sequencing polymerase enzyme using the Sequel II Binding Kit 2.0 (PN:101-842-900) with the modification that the Sequencing Primer v2 (PN:101-847–900) was annealed to the template instead of the standard primer which comes with Sequel II Binding Kit 2.0. All incubations were performed per manufacturer’s recommendations. Prior to sequencing, unbound polymerase enzyme was removed using a modified AMPure PB bead method as previously described 21,31 . Shotgun genomic DNA sequence data was collected on the Pacific Biosciences Sequel II system using HiFi sequencing protocols 31 and Sequencing kit V2 (PN: 101-820-200). Sequence data collection was standardized to 30 hours for this study to allow ample time for multiple pass sequencing around SMRTbell template molecules of 10–25 kb which yields high quality circular consensus sequencing (HiFi) results 21 . Raw base-called data was moved from the sequencing instrument and the imported into SMRTLink 32 to generate HiFi reads using the CCS algorithm (version 8.0.0.80529) which processed the raw data and generated the HiFi fastq files with the following settings: minimum pass 3, minimum predicted RQ 20.

K-mer analysis

Using Jellyfish 33 (v.2.2.10) a k-mer analysis was performed on each of the HiFi data sets individually using a k-mer size of 21. Counting was done using a two-pass method. First, a Bloom counter was created for each HiFi read dataset using the command described in Box 1.

After generating the Bloom counter, a frequency count of k-mers (size = 21) was run using the command shown in Box 2:

Finally, a histogram of the k-mer frequency was generated for each dataset by using the command in Box 3.

These outputs were then used to generate the additional summary analysis and determine genome sizes for each sample where applicable. Genome sizes were estimated from the ratio of total HiFi bases divided by the frequency mode from each k-mer distribution.

Box 1 Running Jellyfish to create Bloom counter.

jellyfish bc -m 21 -s <Input Size> -t <nproc> -C -o

where Input Size = 100G (M. musculus, Z. mays, F. × ananassa and R. muscosa) and 5G (ATCC MSA-1003).

Box 2 Running Jellyfish to obtain a frequency count of k-mers.

jellyfish count -m 21 -s <Input Size> -t <nproc> -C --bc

Where Input Size = 20G (R. muscosa), 3G (M. musculusZ. mays), 2G (F. × ananassa) and 200M (ATCC MSA-1003).

Box 3 Generating k-mer histogram.

jellyfish histo HiFiReadSet_21mer counts.jf >

Mapping accuracies and read lengths

In the cases where references were available (M. musculus, Z. mays, and the concatenated genomes comprising the ATCC MSA-1003 sample), HiFi reads were mapped to the references using pbmm2 version 1.2.0 (https://github.com/PacificBiosciences/pbmm2) which is a customized wrapper for minimap2 34 using the command demonstrated in Box 4.

To extract accuracy metrics from each bam file using Samtools 35 version 1.9, the command shown in Box 5 was used:

Box 6 shows the command used to extract read length metrics from each bam file using Samtools,

Finally, coverage metrics were obtained from each bam files using the Samtools with the command listed in Box 7.


Whole-exome vs whole-genome sequencing

Any kind of NGS technology generates a significant amount of output data. The basics of sequence analysis follow a centralized workflow which includes a raw read QC step, pre-processing and mapping, followed by post-alignment processing, variant annotation, variant calling and visualization.

Assessment of the raw sequencing data is imperative to determine their quality and pave the way for all downstream analyses. It can provide a general view on the number and length of reads, any contaminating sequences, or any reads with low coverage. One of the most well-established applications for computing quality control statistics of sequencing reads is FastQC . However, for further pre-processing, such as read filtering and trimming, additional tools are needed. Trimming bases towards the ends of reads and removing leftover adapter sequences generally improves data quality. More recently, ultra-fast tools have been introduced, such as fastp , that can perform quality control, read filtering and base correction on sequencing data, combining most features from the traditional applications while also running two to five times faster than any of them alone. 39

After the quality of the reads has been checked and pre-processing performed, the next step will depend on the existence of a reference genome. In the case of a de novo genome assembly, the generated sequences are aligned into contigs using their overlapping regions. This is often done with the assistance of processing pipelines that can include scaffolding steps to help with contig ordering, orientation and the removal of repetitive regions, thus increasing the assembly continuity. 40,41 If the generated sequences are mapped ( aligned) to a reference genome or transcriptome, variations compared to the reference sequence can be identified. Today, there is a plethora of mapping tools (more than 60), that have been adapted to handle the growing quantities of data generated by NGS, exploit technological advancements and tackle protocol developments. 42 One difficulty, due to the increasing number of mappers, is being able to find the most suitable one. Information is usually scattered through publications, source codes (when available), manuals and other documentation. Some of the tools will also offer a mapping quality check that is necessary as some biases will only show after the mapping step. Similar to quality control prior to mapping, the correct processing of mapped reads is a crucial step, during which duplicated mapped reads (including but not limited to PCR artifacts) are removed. This is a standardized method, and most tools share common features. Once the reads have been mapped and processed, they need to be analyzed in an experiment-specific fashion, what is known as variant analysis. This step can identify single nucleotide polymorphisms (SNPs), indels (an insertion or deletion of bases), inversions, haplotypes, differential gene transcription in the case of RNA-seq and much more. Despite the multitude of tools for genome assembly, alignment and analysis, there is a constant need for new and improved versions to ensure that the sensitivity, accuracy and resolution can match the rapidly advancing NGS techniques.

The final step is visualization, for which data complexity can pose a significant challenge. Depending on the experiment and the research questions posed, there are a number of tools that can be used. If a reference genomes is available , the Integrated Genome Viewer (IGV) is a popular choice 43 , as is the Genome Browser . If experiments include WGS or WES, the Variant Explorer is a particularly good tool as it can be used to sieve through thousands of variants and allow users to focus on their most important findings. Visualization tools like VISTA allow for comparison between different genomic sequences. Programs suitable for de novo genome assemblies 44 are more limited. However, tools like Bandage and Icarus have been used to explore and analyze the assembled genomes.


Genome assembly with long reads

One of the first applications of long-read sequencing has been to improve the assembly of genomes, as read lengths are now sufficiently long to traverse most repeat structures of the genome. For diploid genomes, such as in humans, the challenge now is to achieve accurate haplotype resolution from telomere to telomere without guide from a reference.

De novo genome assembly

De novo genome assembly is the process by which randomly sampled sequence fragments are reconstructed to determine the order of every base in a genome 72 . Stitched-together sequence fragments are referred to as contigs, and in the ideal case, there is one contig per chromosome. Short-read technology has been problematic for the de novo assembly of mammalian genomes and has typically resulted in hundreds of thousands of gaps, owing to repetitive sequences that cannot be traversed by short reads. Numerous studies have shown that long-read genome assemblies are superior in their contiguity by orders of magnitude when compared with previous short-read and Sanger-based sequencing approaches 30,32,33,35,70,71 (Table 2). For example, in early 2015, there were 99 mammalian genome assemblies in GenBank with an average contig N50 of only 41 kb, but none of them used long-read sequencing as the predominant data type 27 . As of early 2020, there are more than 800 genome assemblies available through GenBank that used either PacBio or ONT data with contig N50 lengths greater than 5 Mb, including some of the first human genomes: NA12878 (ref. 35 ), CHM13 (ref. 32 ), HX1 (ref. 70 ) and AK1 (ref. 71 ). This more than 100-fold increase in assembly contiguity has been driven not only by longer reads but also by the development of genome assembly tools optimized for long-read data (such as Canu 73 , HiCanu 55 , Peregrine 74 , FALCON 75 , Flye 76 , wtdbg2 (or RedBean) 77 and Shasta 36 ) and other tools that can increase assembly contiguity and accuracy, such as optical mapping (for example, from Bionano Genomics) 30,34,70,71,78 and electronic mapping (for example, from Nabsys) 79,80 . Importantly, it is now becoming tractable for individual laboratories (as opposed to large consortia) to sequence and assemble human genomes in a few weeks at levels of contiguity approximate to or exceeding the level of the Human Genome Project 31,36,81 (Fig. 4A). For example, Shafin et al. generated 11 highly contiguous (median NG50 of 18.5 Mb) human genome assemblies with long-read ONT data with only 3 PromethION flow cells and 6 hours of computer time on a 28-core machine with more than 1 TB of RAM per genome 36 . Similarly, Chin and Khalak assembled human genomes in less than 100 minutes (30 CPU hours not including the one-time computational cost of generating the PacBio HiFi reads) with a contig N50 greater than 20 Mb with only PacBio HiFi data 74 . For comparison, an alignment of approximately 30-fold short-read Illumina data can take up to 100 CPU hours 82,83 .

A | The number of contigs and the contig N50 for 18 unphased human genome assemblies listed in Table 2. Genomes assembled from long-read data (Pacific Biosciences (PacBio) or Oxford Nanopore Technologies (ONT)) have fewer contigs and higher contig N50 values compared with those assembled from short-read data (Illumina). Combining long-read data types (PacBio and ONT) produces a genome assembly with even fewer contigs and a higher contig N50, surpassing that of the reference genome (GRCh38, hg38) in contiguity. B | A genome assembly phasing approach known as Strand-seq 163 . In this approach, the template strand (that is, the Watson (W, orange) or Crick (C, teal) strand)) is sequenced via short-read sequencing to generate template-specific short reads. These reads are aligned to a genome assembly and binned in 200-kb genomic stretches (indicated by the orange and teal bars that align along the length of chromosome 2 (Chr 2) part Ba). Strand-seq reads may contain a single-nucleotide polymorphism that differentiates the homologue from its counterpart (part Bb), which can be used to partition long reads into either haplotype 1 (H1, empty circles) or haplotype 2 (H2, filled circles) (part Bc). Haplotype-partitioned long reads permit the detection of structural variation 164 , such as the deletion in H1 (part Bd), and can be assembled into haplotigs that span the region, thereby generating phased genome assemblies 88,165 . C | Chromosome ideograms are shown that compare the 2001 Human Genome Project assembly 72 and the 2019 Telomere-to-Telomere (T2T) consortium CHM13 assembly 34 . The 2001 Human Genome Project assembly had more than 145,000 gaps and nearly 150,000 contigs, whereas the 2019 T2T consortium CHM13 assembly has fewer than 1,000 gaps and fewer than 1000 contigs (see Table 2 for additional statistics). Contigs are represented by alternating black and grey blocks, absent sequences are represented by white blocks and centromeres are represented by purple blocks. NCBI, National Center for Biotechnology Information.

Polishing and phasing

Although speed is important, long-read genome assemblies have frequently been criticized for their reduced accuracy 83 . However, with proper correction and assessment, long-read assemblies can rival those generated by Illumina or Sanger sequencing 84 . Unpolished assemblies typically suffer from many small indel errors, which complicate gene annotation 50 . Most of these errors can be resolved with use of polishing tools (such as Racon 48 , Nanopolish 63,85,86 , MarginPolish 36 , HELEN 36 , Quiver 46 , Arrow and Medaka) and error correction with short-read sequence data generated from the same individual 47 . Recent developments in base-calling algorithms and the generation of highly accurate long-read sequence data types such as HiFi data are eliminating dependencies on short-read data polishing 52,53,84 . A major focus moving forward is the generation of high-quality, fully phased diploid genomes where both haplotypes are represented 84 . This procedure essentially converts a 3-Gb collapsed human genome into a 6-Gb genome that represents both maternal and paternal complements, which has the advantage of increasing overall sensitivity for variant discovery 9 . Fortunately, phased de novo genome assembly is now becoming feasible with new strategies that take advantage of parental information to phase long reads (such as trio binning) 87 , computational methods that take advantage of the inherent phasing present in long-read data (such as FALCON-Unzip) 75 and methods that apply orthogonal technologies to phase single-nucleotide polymorphisms in long-read data (such as Strand-seq 9,88,89 , Hi-C 90 and, in the past, 10x Genomics 9 ) (Fig. 4B). The fundamental concept here is straightforward: by physically or genetically phasing an individual genome, the long-read data can be partitioned into two parental genome datasets that can be independently assembled. Such a procedure is particularly valuable for resolving structural variation and its haplotype architecture 91 because structural differences between haplotypes have often led to hybrid representations or collapses in the assembly that do not reflect the true sequence and are, therefore, biologically meaningless 92 .

Telomere-to-telomere chromosome assemblies

The ultimate genome assembly is a single contig per chromosome, where the order and orientation of the complete chromosome sequence are resolved from telomere to telomere. More than half of the remaining gaps in long-read genome assemblies correspond to regions of segmental duplications 27,52,54,91 and can be readily identified by increased read depth. These collapses result from a failure to resolve highly identical sequences. However, these regions can be assembled with greater than 99.9% accuracy with use of approaches that partition the underlying long reads using a graph of paralogous sequence variants 93 , such as use of Segmental Duplication Assembler 54 . The human reference genome has been the gold standard for mammalian genomes since its first publication in 2001, and there has been considerable investment over the past two decades to increase its accuracy and contiguity. Notwithstanding, even in its current iteration (GRCh38, or hg38), the number of contigs greatly exceeds the number of chromosomes (998 contigs versus 24 chromosomes), with most of the major gaps corresponding to large repetitive sequences present in centromeres, acrocentric DNA and segmental duplications (Table 2). Application of ONT and PacBio technologies to the essentially haploid CHM13 human genome has shown that we are on the cusp of generating telomere-to-telomere genome assemblies. By combining both of these sequencing data types with improved assembly algorithms, Miga and colleagues showed that it is possible to represent the CHM13 human genome as 590 contigs, including a complete telomere-to-telomere assembly of the X chromosome 34 (Fig. 4C Table 2). Key to this advance was the generation of high-coverage ultra-long ONT data, which allowed greater contiguity than GRCh38 (81.3 Mb versus 57.9 Mb) and, for the first time, a reconstruction of the highly repetitive centromeric α-satellite array on the X chromosome. However, the telomere-to-telomere assembly process is far from automated, requiring considerable manual curation, and hundreds of collapsed repeats still remain to be resolved genome-wide. Nevertheless, efforts to automate centromere assembly (such as with CentroFlye 94 and HiCanu 55 ) are under way. Further developments, such as improved assembly tools that optimize the processing and assembly of PacBio HiFi sequence data or that couple them to ONT ultra-long-read data, will be required before telomere-to-telomere chromosome assemblies can be routinely generated for diploid genomes. Routine and accurate telomere-to-telomere assembly of human chromosomes from diploid genomes will likely take years, not just because specialized data types (that is, ultra-long-read sequence reads) are more expensive and take longer to generate, but also because it will involve uncharted territories of the human genome. For many regions, including centromeric, acrocentric and large regions of segmental duplication, the sequence has not been correctly assembled even once, so any computational assembly algorithm geared to such regions 54,94 will require painstaking validation and assessment.


Brief Introduction on Three Generations of Genome Sequencing Technology

It has been over 30 years since the first generation of DNA sequencing technology was developed in 1977. During this period, sequencing technology has made considerable progress. From the first generation to the third generation and even the fourth generation, sequencing technology has experienced the read length from long to short, and short to long. Although the second generation—short-read sequencing technology still dominates the current global sequencing market, the third and fourth generation of sequencing technologies are rapidly evolving over the course of the two-year period. Every transformation of sequencing technology results in a huge role in promoting genome research, disease medical research, drug development, breeding and other fields. This blog is mainly focusing on the current genome sequencing technologies and their sequencing principles.

The Development of Sequencing Technology
In 1952, Hershey and Chase completed the famous T2 phage infection of bacteria experiment, which effectively proved that DNA is a genetic material. In 1953, Crick and Watson showed their DNA model in the British magazine–Nature. After a thorough study at Cambridge University, they described DNA model with “double helix”. In 1958, Francis Crick proposed the genetic central dogma, which was reiterated in Nature in 1970. Genetic code, also known as codons, genetic codons or triple codes, determines the nucleotide sequence of the amino acid sequence in the protein, which are consist of three consecutive nucleotides. In 1966, Hola announced that the genetic code had been deciphered. In 1974, Szibalski, Polish geneticist, proposed genetic recombination technology was synthetic biology concept. DNA recombinant technology, also known as genetic engineering, aims to recombine DNA molecules in vitro, proliferating in the appropriate cells. In 1983, PCR (polymerase chain reaction) was developed by Dr. Kary B.Mullis. It is a molecular biology technique and used to amplify specific DNA fragments, which can be regarded as the special DNA replication in vitro.

In 1977, A.M. Maxam and W. Gilbert firstly established a DNA fragment sequence determination method, which is also called Maxam-Gilbert chemical degradation method. Currently, this chemical degradation method and enzymatic method (dideoxy chain termination method) proposed by Sanger are rapid sequencing techniques. In 1986, the first automated sequencer—abi prism 310 gene analyzer was developed by an American company—Pe Abi. And then Hood and Smith utilized fluorescently labeled dNTP for electrophoresis technology. Therefore, the first commercial automatic sequencer was born. After that, the capillary electrophoresis sequencer was developed in 1996 and 3700 type automated sequencer was developed in 1998.

In 2008, Quake group designed and developed HeliScope sequencer, which is also a loop chip sequencing equipment. In the same year, nanopore sequencing was developed based on the electrophoresis technology. In the next year, SMRT was developed. In 2010, ion PGM and GeXP were put into use.

In 2005, Roche company designed 454 technology–genome sequencer 20 system—an ultra high throughput genome sequencing system, which was praised as a milestone in the development of sequencing technology by Nature. In 2006, illumina sequencer was developed and it is suitable for DNA libraries prepared by various methods. In 2007, Solid System was developed.

First generation of sequencing technology
The first generation of sequencing technology is based on the chain termination method developed by Sanger and Coulson in 1975 or the chemical method (chain degradation) invented by Maxam and Gulbert during 1976 and 1977. And Sanger in 1977 judged the first genome sequence belonging to Phage X174 with the whole length of 5375 bases. Since then, human beings have aquired the ability to snoop the nature of the genetic difference of life, and also it is a beginning of the genomic era. Researchers continue to improve the Sanger method during performance. In 2001, it was based on the improved Sanger method that the first human genome map was completed. The core principle of Sanger method is that ddNTP cannot form phosphodiester bond during the synthesis of DNA, due to the lack of hydroxyl in its 2 ‘and 3’. So it can be used to interrupt the DNA synthesis reaction. Add a certain proportion of ddNTP with radioactive isotope label, including ddATP, ddCTP, ddGTP and ddTTP, into four DNA synthesis reaction systems respectively. After gel electrophoresis and autoradiography, the DNA sequences of the samples can be determined according to the position of the electrophoretic band.

In addition to Sanger method, it is worth noting that during the period of sequencing technology development, there are many other sequencing technologies emerging, such as pyrophosphate sequencing method, ligation enzyme method and so on. Among these, pyrophosphate sequencing method was later used by Roche company for 454 technique, while the ligation enzyme method was used for SOLID technique by ABI company. The common core method shared by both of them was to use dNTP which can interrupt DNA synthesis, similar to ddNTP in Sanger method.

All in all, the first generation of sequencing technology has the read-length ability of 1000bp with the 99.999% accuracy, which are the main feature. However, its high cost, low throughput and other disadvantages result in a serious impact on its real large-scale application. Therefore, the first generation of sequencing technology is not the most ideal sequencing method. Undergoing development and improvement, the second generation of sequencing technology was born symbolized by Roche’s 454 technology, Illumina’s Solexa, Hiseq technology, and ABI’s Solid technology. The second generation of sequencing technology cannot only greatly reduce sequencing cost, but also dramatically increase the speed of sequencing, maintaining high accuracy. The turn-around time of the second generation sequencing technology to complete a human genome project can just be one week, while that using the first generation sequencing technology to achieve the same goal is three years. However, the read length of the second generation of sequencing technology is much shorter than that of the first generation.

In the next blog chapter, we will continue to introduce the second generation of sequencing technology.


Potential uses of NGS in clinical practice

Clinical genetics

There are numerous opportunities to use NGS in clinical practice to improve patient care, including:

NGS captures a broader spectrum of mutations than Sanger sequencing

The spectrum of DNA variation in a human genome comprises small base changes (substitutions), insertions and deletions of DNA, large genomic deletions of exons or whole genes and rearrangements such as inversions and translocations. Traditional Sanger sequencing is restricted to the discovery of substitutions and small insertions and deletions. For the remaining mutations dedicated assays are frequently performed, such as fluorescence in situ hybridisation (FISH) for conventional karyotyping, or comparative genomic hybridisation (CGH) microarrays to detect submicroscopic chromosomal copy number changes such as microdeletions. However, these data can also be derived from NGS sequencing data directly, obviating the need for dedicated assays while harvesting the full spectrum of genomic variation in a single experiment. The only limitations reside in regions which sequence poorly or map erroneously due to extreme guanine/cytosine (GC) content or repeat architecture, for example, the repeat expansions underlying Fragile X syndrome, or Huntington's disease.

Genomes can be interrogated without bias

Capillary sequencing depends on preknowledge of the gene or locus under investigation. However, NGS is completely unselective and used to interrogate full genomes or exomes to discover entirely novel mutations and disease causing genes. In paediatrics, this could be exploited to unravel the genetic basis of unexplained syndromes. For example, a nationwide project, Deciphering Developmental Disorders, 1 running at the Wellcome Trust Sanger Institute in collaboration with NHS clinical genetics services aims to unravel the genetic basis of unexplained developmental delay by sequencing affected children and their parents to uncover deleterious de novo variants. Allying these molecular data with detailed clinical phenotypic information has been successful in identifying novel genes mutated in affected children with similar clinical features.

The increased sensitivity of NGS allows detection of mosaic mutations

Mosaic mutations are acquired as a postfertilisation event and consequently they present at variable frequency within the cells and tissues of an individual. Capillary sequencing may miss these variants as they frequently present with a subtlety which falls below the sensitivity of the technology. NGS sequencing provides a far more sensitive read-out and can therefore be used to identify variants which reside in just a few per cent of the cells, including mosaic variation. In addition, the sensitivity of NGS sequencing can be increased further, simply by increasing sequencing depth. This has seen NGS employed for very sensitive investigations such as interrogating foetal DNA from maternal blood 2 or tracking the levels of tumour cells from the circulation of cancer patients. 3


First-Generation Sequencing

Automated Sanger sequencing is now considered the “first-generation” of DNA sequencing technologies. Technically, standard Sanger sequencing identifies linear sequences of nucleotides by electrophoretic separation of randomly terminated extension products (2). Automated methods use fluorescently labeled terminators, capillary electrophoresis separation, and automated laser signal detection for improved nucleotide sequence detection [ref. 9 for reviews, see the studies of Hutchinson (ref. 10) and Metzker (ref. 11)]. As a key strength, Sanger sequencing remains the most available technology today and its well-defined chemistry makes it is the most accurate method for sequencing available now. Sanger sequencing reactions can read DNA fragments of 500 bp to 1 kb in length, and this method is still used routinely for sequencing small amounts of DNA fragments and is the gold-standard for clinical cytogenetics (12).

Despite strong availability and accuracy, however, Sanger sequencing has restricted applications because of technical limitations of its workflow. The main limitation of Sanger sequencing is one of throughput, that is, the amount of DNA sequence that can be read with each sequencing reaction. Throughput is a function of sequencing reaction time, the number of sequencing reactions that can be run in parallel, and lengths of sequences read by each reaction. The requirement for electrophoretic separation of DNA fragments for reading DNA sequence content in Sanger-based sequencing is the primary bottleneck for throughput with this method, increasing time and limiting the number of reactions that can be run in parallel (13). Despite efficient automation, each Sanger instrument can only read 96 reactions in parallel, and this restricts the technology's throughput to approximately 115 kb/day (1,000 bp ref. 14). Current estimates suggest a cost of approximately $5 to 30 million USD to sequence an entire human genome using Sanger-based methods, and on one machine, it would take around 60 years to accomplish this task (8, 13). Together, these cost and time constraints limit access to and application of genome sequencing efforts on this platform.


The genome era of cancer research

We’ve come a long way from Kathy Weston and her colleagues, painstakingly tracing out a few hundred letters of DNA, at a time like a child following the words in a picture book with a tentative finger.

Today, our researchers and others around the world are sequencing the genomes of thousands of people and tumour samples, uncovering a wealth of data about the genetic changes that underpin cancer.

For example, our scientists are using advanced sequencing techniques to track how lung cancers evolve and change over time within each individual patient.

And we’re also starting to see genetic testing come into the clinical trials for different types of cancer, informing doctors about which drugs are most likely to work for which person.

Another application that’s showing promise is reading the DNA shed by tumours into the bloodstream. This could become a powerful way to non-invasively diagnose and monitor cancer in the future.

Finally, genetic knowledge could be the key to guiding potent immunotherapies with the potential to bring new cures.

Whatever comes next, there’s no doubt that the future of DNA sequencing will be as transformative as its past.


Videoya baxın: Xərçəngin fikir vermədiyimiz əlamətləri hansılardır? - VIDEO - #NeXeber (Avqust 2022).