Məlumat

Fasta ascii-yə çevrilsin?

Fasta ascii-yə çevrilsin?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Fasta ardıcıllığı faylını (məsələn, aşağıda verilmiş fayl) gen sintezi məqsədilə ascii faylına çevirmək üçün alqoritm və ya alət varmı?

https://www.rcsb.org/fasta/entry/6EQJ

Bildiyim qədər, fasta faylı zülalın bütün ardıcıllığını ehtiva edir, bu halda onu standart ascii formatlı ardıcıllığa çevirmək üçün bir yol olmalıdır, lakin bunu etmək üçün heç bir alət tapa bilməmişəm.


FASTA faylları sadəcə mətn fayllarıdır, ona görə də onların necə göründüyünü görmək üçün onları sevimli mətn redaktorunuzda aça bilərsiniz. Əlaqələndirdiyiniz faylın tək girişi var. Birinci sətir ilə başlayır>ilə ayrılmış ardıcıllıq haqqında məlumat ehtiva edir|simvollar - qoşulma nömrəsi, zəncir məlumatı, gen adı, növlər və s. Sonrakı sətirlər amin turşuları üçün standart 20 hərfli əlifbadan istifadə edən zülal ardıcıllığı və ya ACTG-dən istifadə edərək 5'-3' arası nukleotid ardıcıllığıdır. Faylda bir və ya bir neçə boş sətirlə ayrılmış çoxlu qeydlər ola bilər.

Əgər hər hansı səbəbdən alətiniz və ya satıcınız FASTA fayllarını qəbul etmirsə, çox sadə aşağı məhsuldarlıqlı həll tək girişli faylların ilk sətirini silmək və ya ilə başlayan hər hansı sətirləri silməkdir.>çox girişli fayllar üçün. Əgər emal etmək üçün bir çox faylınız varsa, bu, Unix/Linux komanda xətti alətləri və ya Python və ya Perl kimi skript dili ilə avtomatlaşdırıla bilər.


Arqumentlər

Fasta formatında ardıcıllığın oxunacağı faylın adı. Mütləq və ya nisbi yol yoxdursa, fayl adı cari iş qovluğuna nisbidir, getwd . Burada defolt seqinR paketinin sequences qovluğunda mövcud olan ct.fasta.gz faylını oxumaqdır.

ardıcıllığın təbiəti: DNT və ya AA, standart olaraq DNT

əgər TRUE ardıcıllıqları tək simvolların vektoru əvəzinə sətir kimi qaytarılırsa

seqtype == "DNT" ilə ardıcıllıqlar kiçik hərflərlə qaytarılmalıdırmı

ardıcıllıq atributlarının təyin edilib-edilməməsi

'' nöqtəli vergüllə başlayan TRUE sətirləri nəzərə alınmazsa

əgər DOĞRU olarsa, yalnız onları dəyişdirmək və ya adlarını və annotasiyalarını almaq cəhdi olmadan qaytarılan ardıcıllıqlar (icra müddəti təxminən 3 faktoruna bölünür)

DOĞRU olarsa, təsvir sətirlərinin əvvəlindəki '>' ardıcıllığın annotasiyalarında silinir

əgər DOĞRU olarsa, birinci '>' simvolundan başqa bütün başlıq xətti ardıcıllıq adı üçün saxlanılır. FALSE varsa, default, ad birinci boşluq (" ") simvolunda kəsilir.

məntiqi. Əgər DOĞRU olarsa, fasta faylı MAQ ikili formatındadır (ətraflı məlumatlara baxın). Yalnız DNT ardıcıllığı üçün.

C long long tipində baytların sayı. Yalnız bfa = TRUE üçün uyğundur. Baxın.Maşın

simvol sətri, "böyük" və ya "kiçik" , istifadə olunan prosessorun mövcudluğunu verir. Yalnız bfa = TRUE üçün uyğundur. .Platformaya baxın

məntiqi default olaraq TRUE. Yalnız bfa = TRUE üçün uyğundur. Bu bayraq DOĞRU olduqda, MAQ binar formatındakı maska ​​ardıcıllıqdakı acgt olmayan simvolları n simvolu ilə əvəz etmək üçün istifadə olunur. Saf acgt ardıcıllıqları üçün (boşluqlar və ya qeyri-müəyyən əsaslar olmadan) bunu FALSE-ə çevirmək vaxta qənaət edəcək.


Kodun iki fərqli yerində eyni obyekt haqqında danışarkən, ardıcıl adlardan istifadə etməyə üstünlük verməlisiniz. Məsələn, faylı oxuyarkən seq düyməsi üçün headerTitle istifadə edirsiniz, lakin növbəti blokdakı eyni düymələr üçün id və bundan sonra blokdakı addan istifadə edirsiniz. Yenə sequence_id kimi daha açıq bir adla gedərdim.

id haqqında danışarkən, bu, əslində daxili funksiyadır. Dildə qurulmuş bir şeyin adını dəyişmək ümumiyyətlə pis fikirdir. Buna "shadowing" deyilir və bunu etməklə kodu pozmaq mümkündür və ümumiyyətlə pis forma hesab olunur.


8.1. İKİBİT¶

A 2 bit fayl çoxlu DNT ardıcıllığını (cəmi 4 Gb-a qədər) kompakt təsadüfi əlçatan formatda saxlayır. Fayl DNT-nin özündə olduğu kimi maskalama məlumatını da ehtiva edir.

Fayl aşağıdakı sahələri ehtiva edən 16 baytlıq başlıq ilə başlayır:

  • imza: faylı yaradan maşının arxitekturasındakı 0x1A412743 nömrəsi

  • versiya: hələlik sıfır. Oxucular versiya nömrəsini 0-dan yuxarı görsələr, dayandırmalıdırlar

  • sequenceCount: fayldakı ardıcıllıqların sayı

  • qorunur: həmişə sıfırdır

Qeyd edilmədiyi təqdirdə bütün sahələr 32 bitdir. İmza dəyəri verilən kimi deyilsə, oxucu proqramı imzanı bayt dəyişdirməli və dəyişdirilmiş versiyanın uyğun olub olmadığını yoxlamalıdır. Əgər belədirsə, fayldakı bütün çox baytlı obyektlər bayt dəyişdirilməlidir. Bu, bu ikili faylları müxtəlif arxitekturalarda dəyişmədən istifadə etməyə imkan verir.

Başlıqdan sonra hər ardıcıllıq üçün bir girişi ehtiva edən fayl indeksi gəlir. Hər bir indeks girişi üç sahəni ehtiva edir:

  • nameSize: ad sahəsinin uzunluğunu ehtiva edən bayt

  • ad: ad Ölçüsündən asılı olaraq dəyişən uzunluqlu ardıcıllığın adı (ASCII uyğun bayt sətirində)

  • ofset: faylın başlanğıcına nisbətən ardıcıllıq məlumatının 32-bit ofseti, heç bir 4 baytlıq doldurma sərhədinə uyğunlaşdırılmamış

İndeksdən sonra doqquz sahəni ehtiva edən ardıcıllıq qeydləri gəlir:


ExpressConverter 2.1 – Microarray Data Files Transformation Tool

:: TƏSVİRİ

ExpressConverter müxtəlif fayl formatlarında mikroarray məlumat fayllarını oxuyan və TIGR MultiExperiment Viewer faylını (.mev) çıxış kimi yaradan fayl çevirmə vasitəsidir ki, mikroarray verilənləri MADAM ilə verilənlər bazasına yüklənə və MIDAS və MEV ilə təhlil edə bilsin.

:: EKRAN ŞOTLAR

:: TƏLƏBLƏR

:: ƏTRAFLI MƏLUMAT


STR_ConvertFormats 20120306 – STR yazma məlumatlarını Genotyper cədvəl formatına çevirin

:: TƏSVİRİ

STR_ConvertFormats, hər sətirdə bir lokusdan (məsələn, GeneMapperID çıxış formatı) məlumatın olduğu cədvəllərdən STR yazma məlumatlarını hər bir sətirdə bir nümunə (məsələn, Genotyper cədvəli) üçün bütün yazma nəticələrinin olduğu formata çevirmək üçün hazırlanmış Excel əsaslı alətdir. format).

:: EKRAN ŞOTLAR

:: TƏLƏBLƏR

:: ƏTRAFLI MƏLUMAT

İnsanın İdentifikasiyası üzrə 2-ci İllik İndiki və Gələcək Texnoloji İnkişaf Konfransı (Roanoke, VA), 27 mart 2006-cı il, “FSS-i3 proqram təminatı ilə NIST təcrübəsi” ilə birlikdə keçirilən Ekspert Sistemləri Seminarında Becky Hill təqdimatında təsvirə baxın.


GFF3-ü FASTA kontig fayllarına çevirən Linux bir layneri

Genom annotasiyaları üçün GFF3 formatının populyarlığına baxmayaraq, mənim bildiyimə görə, GFF3 fayllarından kontiglərin DNT ardıcıllığını çıxarmaq və onları çoxlu FASTA faylında saxlamaq üçün nəşr edilmiş alətlər yoxdur. EMBOSS seqret yalnız GFF3 faylından sonuncu kontigi çıxara bilir, digər alətlər isə hər bir xüsusiyyət üçün DNT ardıcıllığını çıxarmaq məqsədi daşıyır. Buna görə də, mən bu yazıda GFF3 faylından bitişik ardıcıllıqları çıxarmaq və onları FASTA faylına köçürmək üçün iki Linux tək layneri hazırlayıram.

Prosedur sadədir və bizə mürəkkəb koda ehtiyac yoxdur: hər GFF3 faylının sonunda ##FASTA bölmə başlığı ilə bitişik ardıcıllıqlar saxlandığından, komanda xətti bölmə başlığının sətir nömrəsini müəyyən edir və bundan sonra bütün məzmunu çıxarır (bu, sətir nömrəsi + 1). Hər bir GFF3 faylının adının [genom adı].velvet.gff formatına uyğun olduğunu fərz etsək, müəyyən bir genom g01 üçün onu bir laynerdən istifadə edərək FASTA faylına çevirə bilərik:

Bundan əlavə, bir sıra alt kataloqlar altında saxlanılan GFF3 fayllarına gedən yolların siyahısını nəzərə alaraq, biz aşağıdakı bir layneri * işlədə bilərik:

gff3Files.txt faylının məzmunu belədir:

Təcrübədə insanlar bu iki əmr xəttini xüsusi sistem mühitləri və məlumat strukturları üçün uyğunlaşdıra bilərlər.

* Əgər onun əmr sətirlərini aşağıdakı bloka çevirsəm, bu bir layneri oxumaq daha asandır:


İçindəkilər

FASTQ faylı adətən hər ardıcıllıqla dörd sətirdən istifadə edir.

  • 1-ci sətir '@' simvolu ilə başlayır və ardınca ardıcıllıq identifikatoru və isteğe bağlıdır təsvir (FASTA başlıq xətti kimi).
  • 2-ci sətir xam ardıcıl hərflərdir.
  • 3-cü sətir '+' simvolu ilə başlayır və belədir istəyə görə ardınca yenə eyni ardıcıllıq identifikatoru (və hər hansı təsvir).
  • 4-cü sətir 2-ci sətirdəki ardıcıllığın keyfiyyət qiymətlərini kodlayır və ardıcıllıqdakı hərflərlə eyni sayda simvoldan ibarət olmalıdır.

Tək ardıcıllığı ehtiva edən FASTQ faylı belə görünə bilər:

Keyfiyyəti təmsil edən bayt 0x21 (ASCII-də ən aşağı keyfiyyət '!') ilə 0x7e (ən yüksək keyfiyyət ') arasında işləyir.

ASCII-də). Aşağıda soldan sağa artan keyfiyyət ardıcıllığında keyfiyyət dəyəri simvolları verilmişdir (ASCII):

Orijinal Sanger FASTQ faylları ardıcıllıq və keyfiyyət sətirlərinin bükülməsinə (birdən çox sətirə bölünməsinə) icazə verdi, lakin bu, ümumiyyətlə, tövsiyə edilmir [ sitat lazımdır ] kimi, markerlər kimi uğursuz "@" və "+" seçiminə görə təhlili çətinləşdirə bilər (bu simvollar keyfiyyət sətirində də baş verə bilər).

Illumina ardıcıllığı identifikatorları Redaktə edin

Illumina proqram təminatının ardıcıllığı sistematik identifikatordan istifadə edir:

HWUSI-EAS100R unikal alət adı
6 flowcell zolağı
73 flowcell zolağında kafel nömrəsi
941 'x'-kafel daxilində klasterin koordinatı
1973 'y'-kafel daxilində klasterin koordinatı
#0 multipleksləşdirilmiş nümunə üçün indeks nömrəsi (indeksləşdirmə üçün 0)
/1 cütün üzvü, /1 və ya /2 (yalnız qoşalaşmış və ya cüt-cüt oxuyur)

Illumina boru kəmərinin 1.4-dən bəri versiyaları istifadə olunur #NNNNNN əvəzinə #0 multipleks ID üçün, burada NNNNNN multipleks teqinin ardıcıllığıdır.

Casava 1.8 ilə '@' xəttinin formatı dəyişdi:

EAS139 unikal alət adı
136 qaçış id
FC706VJ flowcell id
2 flowcell zolağı
2104 flowcell zolağında kafel nömrəsi
15343 'x'-kafel daxilində klasterin koordinatı
197393 'y'-kafel daxilində klasterin koordinatı
1 bir cütün üzvü, 1 və ya 2 (yalnız qoşalaşmış və ya cüt-cüt oxuyur)
Y Y oxu süzülübsə (keçməyib), əks halda N
18 Nəzarət bitlərindən heç biri aktiv olmadıqda 0, əks halda cüt ədəddir
ATCACG indeks ardıcıllığı

Qeyd edək ki, Illumina proqramının daha yeni versiyaları indeks ardıcıllığı əvəzinə nümunə nömrəsini (nümunə vərəqindən götürülmüş kimi) verir. Məsələn, toplunun ilk nümunəsində aşağıdakı başlıq görünə bilər:

NCBI Sequence Arxiv Redaktəsini oxuyun

INSDC Ardıcıllıq Oxu Arxivindən olan FASTQ faylları tez-tez təsviri ehtiva edir, məs.

Bu misalda NCBI tərəfindən təyin edilmiş identifikator var və təsvirdə Solexa/Illumina-dan orijinal identifikator (yuxarıda təsvir olunduğu kimi) və oxunuş uzunluğu var. Ardıcıllıq qoşalaşdırılmış son rejimdə həyata keçirilib (

500bp daxiletmə ölçüsü), SRR001666-a baxın. Fastq-dump-un standart çıxış formatı hər hansı texniki oxunuşları və adətən tək və ya cütləşdirilmiş bioloji oxunuşları ehtiva edən bütün ləkələri yaradır.

FASTQ-nun müasir istifadəsi demək olar ki, həmişə təqdim edənin təqdim etdiyi metadatada təsvir olunduğu kimi ləkəni onun bioloji oxunuşlarına bölməyi nəzərdə tutur:

Arxivdə olduqda, fastq-dump oxunan adları orijinal formata qaytarmağa cəhd edə bilər. NCBI standart olaraq orijinal oxunan adları saxlamır:

Yuxarıdakı misalda qoşulmuş oxu adından çox orijinal oxunuş adları istifadə edilmişdir. NCBI qoşulmaları çalışır və onların ehtiva etdiyi oxunuşlar. Sekvenerlər tərəfindən təyin edilmiş orijinal oxunmuş adlar oxunun yerli unikal identifikatorları kimi fəaliyyət göstərə bilir və seriya nömrəsi qədər məlumat ötürə bilir. Yuxarıdakı id-lər icra məlumatı və həndəsi koordinatlar əsasında alqoritmik olaraq təyin edilmişdir. Erkən SRA yükləyiciləri bu identifikatorları təhlil etdi və onların parçalanmış komponentlərini daxildə saxladı. NCBI oxunmuş adların qeydini dayandırdı, çünki onlar tez-tez müəyyən emal boru kəməri ilə mənalı olan bəzi əlavə məlumatları əlaqələndirmək üçün satıcıların orijinal formatından dəyişdirilir və bu, çox sayda rədd edilmiş təqdimatla nəticələnən ad formatının pozulmasına səbəb olur. Oxunan adlar üçün aydın sxem olmadan, onların funksiyası oxunmuş seriya nömrəsi ilə eyni miqdarda məlumat ötürən unikal oxunma id-si olaraq qalır. Təfərrüatlar və müzakirələr üçün müxtəlif SRA Toolbar məsələlərinə baxın.

Həmçinin qeyd edin ki, fastq-dump bu FASTQ məlumatını orijinal Solexa/Illumina kodlaşdırmasından Sanger standartına çevirir (aşağıdakı kodlaşdırmalara baxın). Bunun səbəbi, SRA-nın formatdan çox, NGS məlumatı üçün repozitor kimi xidmət etməsidir. Müxtəlif *-dump alətləri eyni mənbədən bir neçə formatda məlumat istehsal etməyə qadirdir. Bunu etmək üçün tələblər bir neçə il ərzində istifadəçilər tərəfindən diktə edilmişdir, erkən tələbatın əksəriyyəti 1000 Genom Layihəsindən gəlir.

Keyfiyyət Redaktəsi

Keyfiyyətli dəyər Q -nin tam ədədi xəritəsidir səh (yəni, müvafiq əsas çağırışın səhv olma ehtimalı). İki fərqli tənlik istifadə edilmişdir. Birincisi, əsas zəngin etibarlılığını qiymətləndirmək üçün standart Sanger variantıdır, başqa cür Phred keyfiyyət balı kimi tanınır:

Solexa boru kəməri (yəni, Illumina Genom Analizatoru ilə təchiz edilmiş proqram təminatı) əvvəllər ehtimalları kodlaşdıran fərqli xəritələşdirmədən istifadə edirdi. səh/(1-səh) ehtimal yerinə səh:

Hər iki xəritə daha yüksək keyfiyyət dəyərlərində asimptotik olaraq eyni olsa da, daha aşağı keyfiyyət səviyyələrində fərqlənirlər (yəni, təxminən səh > 0,05 və ya ekvivalenti, Q < 13).

Bəzən Illumina'nın əslində hansı xəritəçəkmədən istifadə etdiyi ilə bağlı fikir ayrılıqları olub. Illumina boru kəmərinin 1.4-cü versiyası üçün istifadəçi təlimatında (Əlavə B, səhifə 122) qeyd edilir: "Ballar Q=10*log10(p/(1-p)) kimi müəyyən edilmişdir) [sic], burada p, sözügedən bazaya uyğun gələn əsas zəngin ehtimalıdır". [2] Geriyə baxdıqda, təlimatdakı bu qeyd səhv kimi görünür. 1.5 versiyası üçün istifadəçi təlimatı (Yeniliklər, səhifə 5) İllumina boru kəmərinin əvəzinə bu təsviri sadalayır: "Boru Kəmərində Vacib Dəyişikliklər v1.3 [sic]. Keyfiyyətin qiymətləndirilməsi sxemi Phred dəyərinə 64 əlavə etməklə ASCII simvolu kimi kodlanan Phred [yəni, Sanger] qiymətləndirmə sxeminə dəyişdirildi. Bazanın Phred balı: Q phred = − 10 log 10 ⁡ e >=-10log _< ext<10>>e> , burada e bazanın səhv olmasının təxmin edilən ehtimalıdır. [3]

Kodlaşdırma Redaktəsi

  • Sanger formatı ASCII 33-dən 126-a qədər istifadə edərək 0-dan 93-ə qədər Phred keyfiyyət xalını kodlaya bilər (xam oxunmuş məlumatlarda Phred keyfiyyət balı nadir hallarda 60-ı keçsə də, toplantılarda və ya xəritələri oxumaqda daha yüksək ballar əldə etmək mümkündür). SAM formatında da istifadə olunur. [4] 2011-ci ilin fevral ayının sonuna qədər, Illumina-nın CASAVA boru kəmərinin ən yeni versiyası (1.8) seqanswers.com forumundaki elana əsasən, birbaşa Sanger formatında fastq istehsal edəcək. [5]
  • Adətən SAM/BAM formatında saxlanılan PacBio HiFi oxunuşları Sanger konvensiyasından istifadə edir: 0-dan 93-ə qədər olan Phred keyfiyyət balları ASCII 33-dən 126-a qədər kodlaşdırılır. Raw PacBio alt oxunuşları eyni konvensiyadan istifadə edir, lakin adətən yer tutucu əsas keyfiyyət təyin edir (Q0) ) oxunan bütün əsaslara. [6]
  • Solexa/Illumina 1.0 formatı ASCII 59-dan 126-a qədər Solexa/Illumina keyfiyyət xalını -5-dən 62-yə qədər kodlaya bilər (baxmayaraq ki, xam oxunma məlumatlarında Solexa balları yalnız -5-dən 40-a qədər gözlənilir)
  • Illumina 1.3-dən başlayaraq və Illumina 1.8-dən əvvəl format ASCII 64-dən 126-ya qədər istifadə edərək 0-dan 62-yə qədər Phred keyfiyyət xalını kodladı (baxmayaraq ki, xam oxunmuş məlumatlarda Phred balları yalnız 0-dan 40-a qədər gözlənilir).
  • Illumina 1.5-dən başlayaraq və Illumina 1.8-dən əvvəl Phred balları 0-dan 2-yə qədər bir az fərqli məna daşıyır. 0 və 1 dəyərləri artıq istifadə edilmir və ASCII 66 "B" ilə kodlanmış 2 dəyəri də oxunuşların sonunda istifadə olunur. Seqment Keyfiyyətə Nəzarət Göstəricisini oxuyun. [7] Illumina təlimatında [8] (səhifə 30) aşağıdakılar deyilir: Oxuma əsasən aşağı keyfiyyətli (Q15 və ya daha aşağı) seqmentlə başa çatırsa, seqmentdəki bütün keyfiyyət dəyərləri 2 dəyəri ilə əvəz olunur (Illumina-nın keyfiyyət ballarının mətn əsaslı kodlaşdırmasında B hərfi kimi kodlanır). Bu Q2 indikatoru konkret xəta dərəcəsini proqnozlaşdırmır, əksinə oxunmanın xüsusi yekun hissəsinin sonrakı təhlillərdə istifadə edilməməsi lazım olduğunu göstərir. Həmçinin, "B" hərfi ilə kodlanmış keyfiyyət balı aşağıdakı nümunədə göstərildiyi kimi, ən azı boru kəmərinin 1.6 versiyasından gec oxunuşlarda daxil ola bilər:

Bu ASCII kodlaşdırmasının alternativ şərhi təklif edilmişdir. [9] Həmçinin, PhiX nəzarətlərindən istifadə edən Illumina qaçışlarında 'B' simvolunun "naməlum keyfiyyət xalını" təmsil etdiyi müşahidə edildi. 'B' oxunuşlarında səhv nisbəti verilmiş qaçışda müşahidə edilən orta baldan təxminən 3 phred bal aşağı idi.

  • Illumina 1.8-dən başlayaraq, keyfiyyət balları əsasən Sanger formatının (Phred+33) istifadəsinə qayıtdı.

Xam oxunuşlar üçün balların diapazonu texnologiyadan və istifadə olunan əsas zəng edəndən asılı olacaq, lakin son Illumina kimyası üçün adətən 41-ə qədər olacaq. Müşahidə olunan maksimum keyfiyyət balı əvvəllər cəmi 40 olduğundan, müxtəlif skriptlər və alətlər keyfiyyət dəyərləri 40-dan çox olan məlumatlarla qarşılaşdıqda pozulur. İşlənmiş oxunuşlar üçün ballar daha da yüksək ola bilər. Məsələn, 45 keyfiyyət dəyərləri Illumina-nın Long Read Sequencing Service (əvvəllər Moleculo) oxunuşlarında müşahidə olunur.

Rəng məkanı Redaktə edin

SOLiD məlumatları üçün ardıcıllıq birinci mövqe istisna olmaqla, rəng məkanındadır. Keyfiyyət dəyərləri Sanger formatına aiddir. Düzəldici alətlər keyfiyyət dəyərlərinin üstünlük verdiyi versiyada fərqlənir: bəziləri aparıcı nukleotid üçün keyfiyyət balı (0-a təyin edilmiş, yəni "!'") ehtiva edir, digərləri isə yox. Ardıcıllıqla oxunan arxivə bu keyfiyyət bal daxildir.

Simulyasiya Redaktəsi

FASTQ oxu simulyasiyasına bir neçə vasitə ilə yanaşılmışdır. [10] [11] Həmin alətlərin müqayisəsini burada görmək olar. [12]

Sıxılma Redaktəsi

Ümumi kompressorlar Redaktə edin

Gzip və bzip2 kimi ümumi təyinatlı alətlər FASTQ-ya düz mətn faylı kimi baxır və optimal sıxılma nisbətləri ilə nəticələnir. NCBI-nin Sequence Read Arxive LZ-77 sxemindən istifadə edərək metaməlumatları kodlayır. Ümumi FASTQ kompressorları adətən FASTQ faylında fərqli sahələri (adlar, ardıcıllıqlar, şərhlər və keyfiyyət balları) ayrıca sıxışdırır, bunlara Genozip, [13] DSRC və DSRC2, FQC, LFQC, Fqzcomp və Slimfastq daxildir.

Redaktəni oxuyur

Ətrafında bir istinad genomuna sahib olmaq rahatdır, çünki nukleotid ardıcıllıqlarını saxlamaq əvəzinə, oxunanları istinad genomuna uyğunlaşdırmaq və mövqeləri (göstəriciləri) və uyğunsuzluqları saxlamaq olar, sonra göstəriciləri istinad ardıcıllığında onların sırasına görə sıralamaq olar. və kodlaşdırılmış, məsələn, uzunluqlu kodlaşdırma ilə. Ardıcıl genomun əhatə dairəsi və ya təkrar məzmunu yüksək olduqda, bu, yüksək sıxılma nisbətinə gətirib çıxarır. SAM/BAM formatlarından fərqli olaraq, FASTQ faylları istinad genomunu göstərmir. Hizalama əsaslı FASTQ kompressorları istifadəçi tərəfindən təmin edilən və ya istifadəsini dəstəkləyir de novo yığılmış arayış: LW-FQZip təqdim edilmiş istinad genomundan istifadə edir və Quip, Leon, k-Path və KIC yerinə yetirir de novo de Bruijn qrafik əsaslı yanaşmadan istifadə edərək montaj. Genozip [13], əgər istifadəçi tək və ya çox növlü istinad faylı ola biləcək bir istinad təqdim edərsə, isteğe bağlı olaraq istinaddan istifadə edə bilər.

Açıq oxuma xəritəsi və de novo montaj adətən yavaş olur. Yenidən sıralanmaya əsaslanan FASTQ kompressorları ilk klaster uzun alt sətirləri paylaşan oxuyur və sonra onları yenidən sıraladıqdan və ya daha uzun kontigsiyalara yığdıqdan sonra hər klasterdə oxunuşları müstəqil şəkildə sıxışdıraraq, işləmə vaxtı və sıxılma dərəcəsi arasında bəlkə də ən yaxşı mübadilə əldə edir. SCALCE ilk belə alətdir, ondan sonra Orcom və Mince gəlir. BEETL oxuların yenidən sıralanması üçün ümumiləşdirilmiş Burrows-Wheeler transformasiyasından istifadə edir və HARC hash-əsaslı yenidən sıralama ilə daha yaxşı performans əldə edir. AssemblTrie əvəzinə oxunuşları istinadda mümkün qədər az sayda simvol ilə istinad ağaclarına toplayır. [14] [15]

Bu alətlər üçün müqayisələr burada mövcuddur. [16]

Keyfiyyət dəyərləri Redaktə edin

Keyfiyyət dəyərləri FASTQ formatında (sıxılmadan əvvəl) tələb olunan disk sahəsinin təxminən yarısını təşkil edir və buna görə də keyfiyyət dəyərlərinin sıxılması saxlama tələblərini əhəmiyyətli dərəcədə azalda bilər və ardıcıllıq məlumatlarının təhlilini və ötürülməsini sürətləndirə bilər. Son zamanlar ədəbiyyatda həm itkisiz, həm də itkili sıxılma nəzərdən keçirilir. Məsələn, QualComp [17] alqoritmi istifadəçi tərəfindən müəyyən edilmiş sürət (keyfiyyət dəyərinə düşən bitlərin sayı) ilə itkili sıxılma həyata keçirir. Sürət-təhrif nəzəriyyəsi nəticələrinə əsasən, orijinal (sıxılmamış) və yenidən qurulmuş (sıxılmadan sonra) keyfiyyət dəyərləri arasında MSE (orta kvadrat xəta) minimuma endirmək üçün bitlərin sayını ayırır. Keyfiyyət dəyərlərinin sıxılması üçün digər alqoritmlərə SCALCE [18] və Fastqz daxildir. [19] Hər ikisi isteğe bağlı idarə olunan itkili transformasiya yanaşmasını təmin edən itkisiz sıxılma alqoritmləridir. Məsələn, SCALCE “qonşu” keyfiyyət dəyərlərinin ümumilikdə oxşar olduğunu müşahidə edərək əlifba ölçüsünü azaldır. Qiymətləndirmə üçün baxın. [20]

HiSeq 2500-dən etibarən Illumina keyfiyyətli qablara qaba dənəli keyfiyyətlər çıxarmaq imkanı verir. Təcrübəli ballar birbaşa empirik keyfiyyət balları cədvəlindən hesablanır ki, bu da özü ardıcıllıq təcrübəsi zamanı istifadə olunan aparat, proqram təminatı və kimya ilə bağlıdır. [21]

Genozip [13] DomQual alqoritmindən Illumina və ya Genozip-in özünün yaratdığı keyfiyyət xallarını sıxışdırmaq üçün istifadə edir. --optimallaşdırmaq Illumina-ya bənzər qutular yaradan seçim.

Şifrələmə Redaktəsi

Genozip [13] standart AES şifrələməsini ən təhlükəsiz 256 bit səviyyəsində tətbiq etməklə FASTQ fayllarını (həmçinin digər genomik formatları) şifrələyir.--parol variant).

Cryfa [22] AES şifrələməsindən istifadə edir və şifrələmədən başqa məlumatları yığcamlaşdırmağa imkan verir. O, həmçinin FASTA fayllarına müraciət edə bilər.

FASTQ faylı üçün standart fayl uzantısı yoxdur, lakin adətən .fq və .fastq istifadə olunur.


Videoya baxın: ASCII code 1 (Iyul 2022).


Şərhlər:

  1. Saul

    Özünüzə hesabat verirsiniz, deyilənlərdə ...



Mesaj yazmaq