Məlumat

Qlikan adlarını ağac strukturlarına avtomatik təhlil etmək üçün alətlər varmı?

Qlikan adlarını ağac strukturlarına avtomatik təhlil etmək üçün alətlər varmı?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Həmkarım və mən bir qlikan mikroarray qurğusunda istehsal olunan məlumatları əhatə edən bir layihə üzərində işləyirik. Bizə qayıdan massiv məlumatları qlikan adlarının siyahısı idi (IUPAC sıxlaşdırılmış formatda). Biz 610 addan ibarət siyahını qlikanın qrafik təsvirində təhlil etmək istərdik.

Aydınlaşdırmaq üçün mən IUPAC-ın sıxlaşdırılmış nomenklaturasında yazılmış qlikanların siyahısını götürmək və hər qlikan üçün bir şəkil qaytarmaq istədim. Burada hər bir şəkil "qrafik" təsviri olacaq (qovşaqlar + kənarlar). İdeal olaraq, mən bunu etmək üçün Python skriptini yaza bilmək istərdim, ona görə də bunu əl ilə etmək lazım deyil.

Bu mümkündürmü? Əgər belədirsə, bunu etmək üçün hansı vasitələr mövcuddur?

Çox sağ ol!


Redaktə: Sistemimizdə istifadə olunan C# funksiyaları sadələşdirmək üçün bir qədər aşağı qoşalaşmışdır

Microsoft.VisualBasic istifadə edərək; Sistemdən istifadə; System.Collections istifadə edərək; System.Collections.Generic istifadə edərək; System.Data istifadə edərək; System.Diagnostics istifadə edərək; System.Web istifadə edərək; System.Net istifadə edərək; System.IO istifadə edərək; System.Text.RegularExpressions istifadə edərək; ictimai sinif KEGGCaller { ictimai obyekt ReturnKEGGgif(string GlycanMonoCode, System.Web.HttpServerUtility HTTPUtilityHolder) { string CallURL = "http://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=glycan&keywords=";; sətir GlycanURL = HTTPUtilityHolder.HtmlEncode(GlycanMonoCode); WebClient wc = yeni WebClient(); System.Drawing.Image GlycanGif = default(System.Drawing.Image); CallURL += GlycanURL + "&mode=bfind&max_hit=1"; StreamReader oxuyucusu = yeni StreamReader(wc.OpenRead(CallURL)); string Gcode = FetchGcode(reader.ReadToEnd()); əgər (Gcode == "Uğursuz") { 0 qaytarın; } else { System.Net.HttpWebRequest Sorğu = default(System.Net.HttpWebRequest); System.Net.HttpWebResponse Response = default(System.Net.HttpWebResponse); Sorğu = System.Net.WebRequest.Create("http://www.genome.jp/dbget-bin/www_bget?gl:" + Gcode + ".gif">Biomodels.Net başlamaq və tanış olmaq üçün əla mənbədir. sahə ilə özünüzü öyrənin və ixtisas ehtiyaclarınızı necə həll etmək barədə fikirlər əldə edin.Biz narkotik vasitələrin sınanması zamanı istifadə etdik.

Daha dəqiq desək, qlikanlar üçün KEGG-ə baxacaqsınız. Sonra vizual tətbiqiniz üçün KEGG draw istifadə edin. Əgər həqiqətən sadəcə onları təhlil etmək istəyirsinizsə, burada istifadə olunan monosakaridlərin cədvəli (əksər yerlərdə).

Tapmadığınız halda yükləmək üçün daha yaxşı bir keçid var. Yazdığımız ssenari olduqca sadə idi, əsas məntiq budur.

Monosaxarid kodu ilə başlayın.

KEGG Glycan-dan götürərək GenomeNet-ə DBGET-in tək qaytarılmasına zəng edin. Məsələn: (GlcNAc)6 (Man)3 (Asn)1 adlandırılacaq:

http://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=glycan&keywords=%28GlcNAc%296+%28Man%293+%28Asn%291&mode=bfind&max_hit=1

Haradahttp://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=glycan&keywords=&mode=bfind&max_hit=1sabit olacaq və orta hissə sizin axtarışınız olacaq.

Siz monosaxaridinizi standart URL ASCII Referansına dəyişdirməlisiniz, hər monosaxaridi "+" ilə birləşdirməlisiniz. Beləliklə(GlcNAc)6 (Kişi)3 (Asn)1olur%28GlcNAc%296+%28İnsan%293+%28Asn%291.

Bu, əgər varsa, dəqiq uyğunluğunuz üçün bir keçidlə sizə bir vuruş verəcəkdir. Qaytarılan səhifədə formatında bir keçid olacaqhttp://www.genome.jp/dbget-bin/www_bget?gl:G#####, burada G##### sizin qlikan nömrənizdir (bizim nümunəmizdə G00021).

Qlikan nömrəsini əldə etdikdən sonra getməyə hazırsınız. Bütün struktur şəkilləri burada tapa bilərsiniz:http://www.genome.jp/Fig/glycan/G#####.gif">


Bunun qlikanlar üçün işlədiyini bilmirəm, lakin bu alət IUPAC adını SMILES formatına çevirir. SMILES qrafik quruluşa çevrilə bilən mətn əsaslı struktur notasiyasıdır.

Bunları da yoxlaya bilərsiniz:

http://www.openmolecules.org/name2structure

http://www.iupac.org/home/publications/e-resources/inchi.html

Həqiqətən nə soruşduğunuza hələ də əmin deyiləm. Saxta bir misal göstərsəniz, asan olardı.


CFG təqdim etdikləri excel fayllarında qlikan strukturları üçün ardıcıl nomenklaturadan istifadə etmir. İnsan oxuya bilər, lakin maşın oxuya bilməz. Beləliklə, əvvəlcə onların siyahısını tərtib etməli olacaqsınız. Bunu edən bash skriptlərim var.

Biz qlikan massiv strukturlarını CFG simvollarına çeviririk http://glycam.org/Pre-builtLibraries.jsp Siz cfglibs üzərinə klikləmək və bəlkə yükləmək üçün ona bir neçə saniyə vermək istəyirsiniz.

Əgər siz hələ də bunu etməkdə maraqlısınızsa, [email protected] ünvanına nə istədiyinizi izah edən e-poçt göndərin və mənim adımı "Oliver" daxil edin.


Bu modul Biopython 1.54 və sonrakı versiyalara daxil edilmişdir. Növbəti rəsmi buraxılışdan əvvəl bu koda yeni əlavələri sınaqdan keçirmək istəyirsinizsə, inkişaf bölməsinin surətini əldə etmək üçün təlimatlar üçün Mənbə Koduna baxın.

Ağacları çəkmək üçün (isteğe bağlı) bu paketlərə də ehtiyacınız olacaq:

Draw() , draw_graphviz() və to_networkx() funksiyaları çağırıldıqda I/O və ağac manipulyasiyası funksionallığı onsuz işləyəcək, onlar tələb əsasında idxal edilir.

Phylo modulu, həmçinin Graphviz və NetworkX əsaslı funksiyalar istisna olmaqla, Jython 2.5.1-də uğurla sınaqdan keçirilmişdir. Bununla belə, phyloXML fayllarının təhlili nəzərəçarpacaq dərəcədə yavaş olur, çünki Jython əsas XML təhlil kitabxanasının fərqli versiyasını istifadə edir.


MOTİFLƏR : MƏLUMAT BAZANLARIDAN İSTİFADƏ EDİLMƏK VƏ ÖZÜNÜZÜNÜZÜ YARATMAQ

MOTIF BAZALARI AXTARIR

MƏLUMAT: Əlaqədar funksiyaları olan zülallar ümumi yüksək homologiya göstərməyə bilər, lakin yüksək dərəcədə qorunan amin turşusu qalıqlarının ardıcıllığını ehtiva edə bilər. Bununla bağlı əsas məlumat üçün ExPASy-də PROSITE-ə baxın. N.B. Ən azı iki fərqli axtarış motoru ilə protein ardıcıllığınızı yoxlamağı məsləhət görürəm. Alternativ olaraq, eyni vaxtda Prosite, Blocks, ProDom, Prints və Pfam axtarışını həyata keçirmək üçün MOTIF (GenomeNet, Kimya Tədqiqatları İnstitutu, Kyoto Universiteti, Yaponiya) kimi meta saytdan istifadə edin.

Meta saytlar olan ilk dördü də daxil olmaqla bir neçə əla sayt:

Motif Skanı &ndash (MyHits, SIB, İsveçrə) Prosite, Pfam və HAMAP profilləri daxildir.
InterPro 5 - PROSITE, HAMAP (Zülalların Yüksək Keyfiyyətli Avtomatlaşdırılmış və Manual Annotasiyası), Pfam (zülal Ailələri), PRINTS, ProDom, SMART (Sadə Modul Arxitektura Tədqiqat Aləti), TIGRFAMs, PIRSF (Protein İnformasiya Resursu), SUPERFAMILY, daxildir. CATH-Gene3D (Sinif, Memarlıq, Topologiya, Homolog superfamily) və PANTHER (Təkamül Münasibətləri Yoluyla Protein Analizi) təsnifat sistemləri. (İstinad: Jones, P. et al. 2014, Bioinformatika 10: 1093) . Bu xidmət burada da mövcuddur.

MOTIF (GenomeNet, Yaponiya) - Mən bunu zülal analizi üçün tövsiyə edirəm, DNT motiv bazasına qarşı fag genomlarını sınamışam, heç bir uğur qazana bilməmişəm. 6 motiv verilənlər bazası və özünüzdən istifadə etmək imkanı təklif edir.
CDD və ya CD-Axtarış (Qorunan Domen Verilənlər Bazaları) - (NCBI) CDD, Smart, Pfam, PRK, TIGRFAM, COG və KOG daxildir və BLASTP istifadə etdikdə işə salınır.

Batch Web CD-Axtarış Aləti - Toplu CD-Axtarış aləti zülal sorğularının böyük dəstləri üçün qorunan domen annotasiyasını hesablamağa və endirməyə imkan verir. Ardıcıllıq identifikatorlarının və/və ya xam ardıcıllıq məlumatlarının siyahısı kimi 100.000-ə qədər protein sorğusu ardıcıllığını daxil edin, sonra müxtəlif formatlarda (tab ilə ayrılmış mətn faylları daxil olmaqla) çıxışı endirin və ya Batch CD-Axtarış işinin xülasəsi səhifəsində qrafik olaraq axtarış nəticələrinə baxın. , Nümunə məlumat cədvəlinin üstündəki "Nəticələri Gözdən keçir" düyməsi sizə nəticələrə qrafik olaraq baxmaq imkanı verir. Düymə domen izlərini, hizalanma təfərrüatlarını və istənilən fərdi sorğu ardıcıllığında qorunan xüsusiyyətləri göstərən ayrıca brauzer pəncərəsini açır. (İstinad: Marchler-Bauer A et al. 2011. Nucleic Acids Res.39: (D) 225-229.)

CDvist - Chərtərəfli Domain Visuyğunlaşdırılması Tool - CDvist ardıcıllığa əsaslanan protein domen axtarış vasitəsidir. Sürət, dəqiqlik və sürəti təmin edən çoxdomenli zülallar üçün mümkün olan ən yaxşı domen əhatəsini təmin etmək üçün bir neçə məşhur alqoritmləri birləşdirir. dəstə yeni vizuallaşdırma xüsusiyyətləri ilə sorğu.( İstinad: O. Adebali et al. Bioinformatika (2015) 31(9):1475-7).

Pfam - (EMBL-EBI) Batch Pfam axtarışları üçün isə bura və ya bura gedin. (İstinad: Punta M et al. 2012. Nucl. Acids Res. 40(Verilənlər bazası məsələsi): D290&ndashD301 ). Pfam, TIGRFAM, Gene3D, Superfamily, PIRSF və TreeFam sorğularına imkan verən EBI saytı vasitəsilə də daxil ola bilərsiniz.

ScanProsite &ndash (ExPASy) (İstinad: Sigrist CJ et al. Nucleic Acids Res. 2013 41 (Məlumat bazası məsələsi): D344-7).

ProDom (Pôle Rhone-Alpin de BioInforatique, Fransa) - UniProt Bilik Bazasından avtomatik olaraq yaradılan zülal domen ailələrinin hərtərəfli dəstidir
SMART Sadə Modul Arxitektura Tədqiqat Aləti (EMBL, Universitat Heidelberg) - Əsas səhifədə sadalanan domenlər/ardıcıllıqlar üçün axtarış ardıcıllığı. Defolt parametrləri seçməyə/seçimi ləğv etməyə cəhd edin.

Batch SMART scan - burada tapa bilərsiniz. Nəzərə alın ki, proqram analiz etdiyi poliprotein istehsal edir. Bu, fərdi zülalların motivlərini əlaqələndirməkdə bəzi çətinliklərlə nəticələnə bilər. Eyni şərt Toplu CD axtarışına da aiddir.

iProClass (Protein İnformasiya Resursu, Georgetown Universiteti Tibb Mərkəzi, ABŞ) - hərtərəfli ailə münasibətlərini və zülalların struktur/funksional xüsusiyyətlərini təmin edən inteqrasiya olunmuş mənbədir. (İstinad: Wu CH et al. Comput. Biol. Chem. (2004) 28: 87&ndash96).

PSIPRED Zülal Ardıcıllığının Təhlili İş Tezgahı - PSIPRED v3.3 (İkinci Quruluşun Təxmin Edilməsi) DISOPRED3 & amp DISOPRED2 (Pozğunluqların Proqnozlaşdırılması) pGenTHREADER (Profil Əsaslı Qapağın Tanınması) MEMSAT3 & amp MEMSAT-SVMBrax Modeli (SVM2Brax) Modeli (SVM2000) daxildir. (Protein Domain Proqnozu) FFPred 3 (Eukaryotik Funksiyaların Proqnozlaşdırılması) GenTHREADER (Rapid Fold Recognition) MEMPACK (TM Topologiyasının SVM Proqnozu və Spiral Qablaşdırma) pDomTHREADER (Qatlama Domeninin Tanınması) və DomSerf v2.0 (Aum tərəfindən Domen Modelləşdirmə). (İstinad: Buchan DWA et al. 2013. Nucl. Acids Res. 41 (W1): W340-W348).

P2RP (Predaktə olunub Prokaryotik Rtənzimləyici Proteinlər) - DNT və ya zülal ardıcıllığının təhlilinə əsaslanan transkripsiya faktorları (TF) və iki komponentli sistemlər (TCS) daxil olmaqla. (İstinad: Bərəkət M., 2013. BMC Genomics 14: 269)

MEROPS - zülal ardıcıllığını səciyyələndirilən peptidazaların geniş məlumat bazasına qarşı yoxlamağa icazə verir (İstinad: Rawlings, N.D et al. (2018) Nuklein turşuları Res. 46: D624-D632).

Xüsusi protein modifikasiyası və ya yerin aşkarlanması üçün aşağıdakı saytlara müraciət edin:

Ortoloji genlər/zülallar:

COG analizi - Cparıltıları Ortoloji Groups - COG zülal verilənlər bazası ortoloqlar dəstini çıxarmaq üçün bütün tam ardıcıllaşdırılmış mikrob genomlarında proqnozlaşdırılan və məlum zülalları müqayisə etməklə yaradılıb. Hər bir COG ən azı üç nəsil arasında ortoloji olduğu aşkar edilmiş bir qrup zülaldan ibarətdir və çox güman ki, qədim qorunan domenə (CloVR) uyğun gəlir. Bu təhlili təklif edən saytlara aşağıdakılar daxildir:

WebMGA ( İstinad: S. Wu et al. 2011. BMC Genomics 12:444), RAST (İstinad: Aziz RK et al. 2008. BMC Genomics 9:75) və BASys (Baktual Aqeyd etmə Ssistem İstinadı: Van Domselaar GH et al. 2005. Nuklein turşuları Res. 33(Veb Server məsələsi):W455-459.) və JGI IMG (Iinteqrasiya olunmuş Mikrob Genomes İstinad: Markowitz VM et al. 2014. Nucl. Acids Res. 42: D560-D567. )

Digər saytlar:

EggNOG - Ortoloji qruplar və əmələ gələn funksional annotasiyaların verilənlər bazası Nnəzarət olunur Ortoloji Gtam genomlardan qruplar (NOGs) ayırır və sonra meydana çıxan gen ailələrinə hərtərəfli xarakteristika və təhlil xətti tətbiq edir. (İstinad: Powell S et al. 2014.
Nuklein turşuları Res. 42 (D1): D231-D239

OrthoMCL - ardıcıllıq oxşarlığına görə zülalları ortoloji qruplara qruplaşdırmaq üçün başqa bir alqoritmdir. Proses adətən 6 ilə 72 saat arasında davam edir. (İstinad: Fischer S et al. 2011. Curr Protoc Bioinformatics Chapter 6: Unit 6.12.1-19).

KAAS (KYUMURTA Aavtomatik Aqeyd etmə Server) əl ilə seçilmiş KEGG GENES verilənlər bazası ilə BLAST və ya GHOST müqayisələri ilə genlərin funksional annotasiyasını təmin edir. Nəticə KO (KEGG Orthology) tapşırıqlarını və avtomatik olaraq yaradılan KEGG yollarını ehtiva edir. (İstinad: Moriya Y et al. 2007. Nucleic Acids Res. 35(Veb server problemi): W182-185).

InParanoid - bu verilənlər bazası InParanoid alqoritmi tərəfindən çıxarılan ortoloqlara istifadəçi interfeysi təqdim edir. Hazırda tam proteomları kurasiya etmək və standartlaşdırmaq üçün beynəlxalq səylər olduğundan, biz proteomların özlərini toplamaq və müalicə etmək əvəzinə bu resurslardan istifadə etməyə keçdik. (İstinad: E.L.L. Sonnhammer & G. Östlund. 2015. Nucl. Acids Res. 43 (D1): D234-D239).

DNT bağlaması - motivlər:

GYM - zülallarda spiral-dönmə-heliks motivlərinin təhlili üçün ən son proqram. N.B. növbəti sayt 1990-cı ilə aiddir. (İstinad: Narasimhan, G. et al. 2002. J. Computational Biol. 9:707-720)
Helix-dönüş-Helix Motif Proqnozu - (Institut de Biologie et Chemie des Proteines, Lyon, Fransa)

iDNA-Prot - &ldquogrey modeli&rdquo vasitəsilə və təsadüfi meşə əməliyyat mühərrikini qəbul etməklə DNT bağlayan zülalları müəyyən edir. iDNA-Prot tərəfindən ümumi müvəffəqiyyət nisbəti 83,96% təşkil edib. Biri 50-yə qədər zülal təqdim edə bilər. (İstinad: Lin W-Z et al. 2011. PLoS One 6: e24756). Həmçinin burada mövcuddur.

DP-Bind: DNT bağlayan zülallarda DNT-ni bağlayan qalıqların ardıcıllıqla proqnozlaşdırılması üçün veb server. Seçin: ən dəqiq, lakin ən yavaş olan PSSM əsaslı kodlaşdırma. (İstinad: S.Hwang et al. 2007. Bioinformatika 23(5):634-636).

DNA bağlayıcı - DNT bağlayan zülalları proqnozlaşdırmaq üçün iki yanaşmadan istifadə edir (a) fasta formatında çoxlu ardıcıllığa imkan verən amin turşusu tərkibi və (b) eyni anda yalnız bir zülalı yoxlaya bilən PSSM (Mövqəyə xüsusi hesablama matrisi). Daxiletmə ardıcıllığı tam uzunluqlu zülaldırsa, "Alternativ verilənlər toplusunu" seçin, çünki proqnoz tam uzunluqlu zülal ardıcıllıqlarından istifadə etməklə hazırlanmış SVM modullarından istifadə etməklə həyata keçiriləcək (İstinad: M. Kumar et al. 2007. BMC Bioinformatics 8: 463).

DRNApred - server DNT və RNT bağlayan qalıqların ardıcıllıqla proqnozlaşdırılmasını təmin edir. (İstinad: Yan J, & Kurqan LA, 2017. Nuklein turşuları Res. 45(10):e84).

DisoRDPbind - daxili nizamsız bölgələrdə yerləşən RNT-, DNT- və zülal bağlayan qalıqları proqnozlaşdırır. DisoRDPbind, amin turşularının fiziokimyəvi xassələrindən, ardıcıllığın mürəkkəbliyindən, ehtimal olunan ikinci dərəcəli strukturdan və pozğunluqdan və ardıcıllığın düzülməsindən əldə edilən məlumatlardan istifadə edən, işləmə zamanı səmərəli çoxqatlı dizayndan istifadə etməklə həyata keçirilir. (İstinad: Peng Z, və Kurqan LA, 2015. Nuklein turşuları Res. 43(18): e121).

Əgər zülalınızın üçölçülü strukturunu bilirsinizsə, onda 3D-ayaq izi, DISPLAR (İstinad: Tjong G & Zhou H-X. 2007. Nucl. Acid Res.35: 1465-1477), iDBPs (İstinad: Nimrod G. et al. 2009. J. Mol. Biol. 387: 1040-1053), DNABIND (İstinad: Szlagyi A & Skolnick J. 2006. J. Mol. Biol. 358: 922-933) və DNABINDPROT (İstinad: Ozbek P et al. 2010. Nucl. Acids Res. 38: W417-423) sizin üçün faydalı ola bilər..

2ZIP - leysin fermuar motivlərini tapmaq üçün istifadə olunur (İstinad: Bornberg-Bauer,E. et al. (1998) Nucleic Acids Res. 26:2740-2746).

FeatureP - bu cür proqnozlaşdırıcıların seçimini işə salan və diferensial proqnozlar üçün onların nəticələrini, yəni giriş ardıcıllığı arasındakı fərqlər nəticəsində dəyişdiriləcəyi proqnozlaşdırılan funksiyaları minalayan veb serverdir. (İstinad: Blicher T et al. (2010) Curr Opin Struct Biol. 20: 335-41). Çoxlu zülalları ekranlaşdırmaq üçün istifadə edilə bilər.

İki komponentli və digər tənzimləyici zülallar:

P2RP (Predaktə olunub Prokaryotik Rtənzimləyici Proteins) - istifadəçilər amin turşusu və ya genomik DNT ardıcıllığını daxil edə bilər və orada proqnozlaşdırılan zülallar DNT-ni bağlayan domenlərə və/və ya iki komponentli sistem domenlərinə sahib olmaq üçün skan edilir. Bu şəkildə müəyyən edilmiş RP-lər birmənalı şəkildə qeyd edilmiş ailələrə bölünür. (İstinad: Barakat M, et al. 2013. BMC Genomics 14:269).

P2CS (Prokaryotik 2-Copponent Ssistemlər) Prokaryotik İki Komponentli Sistemlərin (TCS) təhlili üçün hərtərəfli mənbədir. TCS-lər bir reseptor histidin kinazdan (HK) və tərəfdaş cavab tənzimləyicisindən (RR) ibarətdir və mühüm prokaryotik davranışlara nəzarət edir. BLASTP istifadə edərək axtarış edilə bilər. (İstinad: P. Ortet et al. 2015. Nucl. Acids Res. 43 (D1): D536-D541).

ECFfinder - ekstrasitoplazmik funksiya (ECF) siqma faktorları - alternativ siqma amillərinin ən böyük qrupu - bakterial siqnal ötürülməsinin üçüncü fundamental mexanizmini təmsil edir, hər bakterial genomda orta hesabla altı belə tənzimləyici var. Onların qohum anti-sigma amilləri ilə birlikdə, onlar ilk növbədə transmembran siqnal ötürülməsini asanlaşdıran yüksək modul dizaynı təmsil edirlər. (İstinad: Staron A et al. (2009) Mol Microbiol 74(3): 557-581).

BepiPred - bu server gizli Markov modeli və meyl miqyası metodunun birləşməsindən istifadə edərək xətti B hüceyrə epitoplarının yerini proqnozlaşdırır. (İstinad: Pontoppidan Larsen, J.E. et al. 2006. Immunome Research 2:2).

ABCpred - bu server süni neyron şəbəkəsindən istifadə edərək antigen ardıcıllığında B hüceyrə epitop(lar)ını proqnozlaşdırır. (İstinad: Saha, S & Raghava G.P.S. 2006. Zülallar 65:40-48).

Antikor epitopunun proqnozu (İmmun Epitop Verilənlər Bazası və Analiz Resursu) - üsullara Chou və Fasman Beta-Dönüş Proqnozu, Emini Səthi Əlçatanlıq Proqnozu, Karplus və Schulz Çeviklik Proqnozu, Kolaskar və Tonqaonkar Antigenliyi, Parker Hidrofillik Proqnozu və Bepred Xətti Epitop Proqnozu daxildir.

BCPREDS serveri istifadəçilərə B-hüceyrə epitoplarının proqnozlaşdırılması metodunu bir neçə inkişaf etdirilmiş proqnozlaşdırma metodları arasında seçmək imkanı verir: AAP metodu, BCPred və FBCPred. İstifadəçilər antigen ardıcıllığını təmin edir və isteğe bağlı olaraq istənilən epitop uzunluğu və spesifiklik həddini təyin edə bilərlər. Nəticələr bir neçə istifadəçi dostu formatda qaytarılır. (İstinad: EL-Manzalawy, Y. et al. 2008. J Mol Recognit 21: 243-255).

EpiSearch: Konformasiyalı Epitopların Xəritəçəkməsi (İstinad: Negi, S.S. & Braun, W. 2009. Bioinform. Biol. Insights 3: 71-81).

İSİM - Cinformativ Epitop Prediction Server - Alqoritm, konformasiya epitoplarını proqnozlaşdırmaqdan başqa, antigenik determinantları və ardıcıl epitopları da proqnozlaşdırır. Epitoplar qrafik olaraq vizuallaşdırıla bilən protein antigenlərinin 3D struktur məlumatlarından istifadə etməklə proqnozlaşdırılır. Alqoritm struktur əsaslı Bioinformatika yanaşmasını və amin turşularının həlledici əlçatanlığını açıq şəkildə tətbiq edir.PDB-də mövcud olan Ag&ndashAb komplekslərinin rentgen kristal strukturlarından istifadə etməklə qiymətləndirildikdə alqoritmin dəqiqliyi 75% müəyyən edilmişdir.( İstinad: Kulkarni-Kale, U. et al. 2005. Nucl. Acids Res. 33: W168&ndashW171)

IEDB (Iimmun Epitop Database və Analiz Resursu). T Hüceyrə Epitopunun Proqnozlaşdırılması daxildir (Amin turşu nümunələri üçün antigen ardıcıllığını skan edin: MHC I Bağlanması, MHC II Bağlanması, MHC I Emalı (Proteazom, TAP), MHC I İmmunogenlik) B Hüceyrə Epitopunun Proqnozlaşdırılması, Xətti B hüceyrə epitoplarının proqnozlaşdırılması: Antigen ardıcıllığının xüsusiyyətləri, antigen strukturundan istifadə edərək kəsikli B hüceyrə epitoplarını təxmin edin: Solventlə əlçatanlıq (Diskotop), Protrusion (ElliPro). (İstinad: Vita, R. et al. 2015. Nucl. Acids Res. 43 (D1): D405-D412).

Expitope - yeni potensial aparıcı hədəflər hazırlayarkən epitopların paylaşılmasını qiymətləndirmək üçün ilk veb serverdir. Bu, istifadəçilərə maraqlandıqları peptidləri ehtiva edən bütün məlum zülalları tapmağa imkan verir. Veb server yalnız dəqiq uyğunluqları deyil, həm də təxmini olanları qaytarır və istifadəçilərin seçimində bir sıra uyğunsuzluqlara imkan verir. Müəyyən edilmiş namizəd zülallar üçün bütün həyati vacib insan orqanlarını təmsil edən müxtəlif sağlam toxumalarda ifadə dəyərləri RNT Sequencing (RNT-Seq) məlumatlarından, eləcə də bəzi xərçəng toxumalarından nəzarət kimi çıxarılır. (İstinad: Haase K et al. 2015. Bioinformatika 31: 1854-1856).

EpiToolKit - HLA liqandı və ya potensial T-Hüceyrə epitopunun proqnozu, peyvəndin dizaynı üçün epitop seçim çərçivəsi və optimal muncuq vaksinlərinin layihələndirilməsi metodu daxil olmaqla yeni epitop əsaslı vaksinlərin inkişafı üçün hesablama immunologiyasından metodlar toplusunu təqdim edir. . Bundan əlavə, EpiToolKit NGS məlumatlarına əsaslanan HLA tipindən tutmuş polimorfik peptidlərin proqnozlaşdırılmasına qədər bir sıra digər alətlər təqdim edir. (İstinad: Schubert B et al. 2015. Bioinformatika 31: 2211-2213).

MetaPocket 2.0 zülal səthində liqand bağlayan yerləri müəyyən etmək üçün meta serverdir! metaPocket konsensus metodudur ki, burada səkkiz üsuldan proqnozlaşdırılan bağlama saytları: LIGSITEcs, PASS, Q-SiteFinder, SURFNET, Fpocket, GHECOM, ConCavity və POCASA proqnozlaşdırmanın müvəffəqiyyət dərəcəsini artırmaq üçün birləşdirilir. (İstinad: Bingding Huang (2009) Omics, 13(4): 325-330)

Post-tərcümə modifikasiyası - ProteomeScout zülalların və post-translational modifikasiyaların məlumat bazasıdır. ProteomeScout-da iki əsas məlumat növü var: 1) Zülallar: Zülalları vizuallaşdırın və ya öz zülallarınızı qeyd edin və 2) Təcrübələr: Siz yeni təcrübə yükləyə və ya mövcud təcrübəni nəzərdən keçirə və təhlil edə bilərsiniz. Qeydiyyat tələb olunur ( İstinad: M.K. Matlock et al. 2015. Nucl. Acids Res. 43 (D1): D521-D530).

Qlikozilləşmə:

NetOGlyc (Danimarka Texniki Universiteti Bioloji Ardıcıllıq Təhlili Mərkəzi) - məməli zülallarında mucin tipli GalNAc O-qlikozilləşmə sahələrinin neyron şəbəkəsi proqnozlarını yaradır. SignalP avtomatik olaraq bütün ardıcıllıqla işə salınır. Siqnal peptidi aşkar edilmədikdə xəbərdarlıq göstərilir. Transmembran zülallarda yalnız hüceyrədənkənar domenlər musin tipli GalNAc ilə O-qlikosilləşə bilər.
NetNGlyc (Danimarka Texniki Universiteti Bioloji Ardıcıllıq Təhlili Mərkəzi) - Asn-Xaa-Ser /Thr sequons ardıcıllığının kontekstini araşdıran süni neyron şəbəkələrindən istifadə edərək insan zülallarında N-qlikozilləşmə sahələrini proqnozlaşdırır.
YinOYang (Danimarka Texniki Universiteti Bioloji Ardıcıllıq Təhlili Mərkəzi) - eukaryotik zülal ardıcıllığında O-ß-GlcNAc qoşma yerləri üçün neyron şəbəkəsi proqnozlarını yaradır. Bu server həmçinin mümkün fosforlanmış saytları qeyd etmək və bununla da "Yin-Yang" saytlarını müəyyən etmək üçün NetPhos-dan istifadə edə bilər.

Yağ asilasiyası:

LipoP 1.0 (Danimarka Texniki Universitetinin Bioloji Ardıcıllıq Təhlili Mərkəzi) - Qram-mənfi bakteriyalardan siqnal peptidazları I və II parçalanma yerlərinin zülalı harada parçalayacağını proqnozlaşdırmağa imkan verir.

NMT - MYR proqnozlaşdırıcısı (IMP [Research Institute of Molecular Patology] Bioinformatika Qrupu, Avstriya) - N-terminal N-miristoyasiyanı proqnozlaşdırır. Ümumiyyətlə, NMT fermenti N-terminal qlisin tələb edir (aparıcı metioninlər miristoylaşmadan əvvəl parçalanır). Bununla belə, daxili qlisinlər də proproteinlərin proteolitik emalı nəticəsində N-terminal ola bilər.
Miristilator (ExPASy, İsveçrə) - neyron şəbəkələri tərəfindən zülalların N-terminal miristolyasiyasını proqnozlaşdırır. Yalnız N-terminal qlisinlər miristollaşdırılır (aparıcı metioninlər miristoylaşmadan əvvəl parçalanır).

Nukleotidlərin bağlanma yerləri:

nSITEpred - ATP, ADP, AMP, GDP və GTP üçün bağlama qalıqlarının ardıcıllıqla proqnozlaşdırılması üçün nəzərdə tutulmuşdur (İstinad: K. Chen 2012. Bioinformatika 28: 331-341)

P2RP (Predaktə olunub Prokaryotik Rtənzimləyici Proteins) - istifadəçilər amin turşusu və ya genomik DNT ardıcıllığını daxil edə bilər və orada proqnozlaşdırılan zülallar DNT-ni bağlayan domenlərə və/və ya iki komponentli sistem domenlərinə sahib olmaq üçün skan edilir. Bu şəkildə müəyyən edilmiş RP-lər birmənalı şəkildə qeyd edilmiş ailələrə bölünür. (İstinad: Barakat M, et al. 2013. BMC Genomics 14:269).

Fosforlaşma:

GPS (Gqrup əsaslı Pfosforlaşma Skorinq üsulu) - proqnozu əhatə edir 71 Protein Kinaz (PK) ailələri/PK qrupları ( İstinad: Y. Xue et al. 2005. Nucl. Acids Res. 33: W184-W187).

NetPhos (Danimarka Texniki Universiteti Bioloji Ardıcıllıq Təhlili Mərkəzi) - eukaryotik zülallarda Ser, Thr və Tyr fosforlaşma yerlərini proqnozlaşdırır.

PhosphoSitePlus (PSP) fosforlaşma, ubiquitinasiya, asetilləşmə və metilasiya daxil olmaqla zülalın translasiyadan sonrakı modifikasiyalarının (PTM) öyrənilməsi üçün hərtərəfli məlumat və alətlər təqdim edən onlayn sistem biologiya resursudur. (İstinad: Hornbeck PV, et al. 2015 Nucleic Acids Res. 43: D512-520).

14-3-3-Pred: İnsan zülallarında 14-3-3 bağlayan fosfositləri proqnozlaşdırmaq üçün veb-server (İstinad: Madeira F et al. 2015. Bioinformatika 31: 2276-2283).

Skan saytı xüsusi zülal kinazaları ilə fosforilləşə bilən və ya SH2 domenləri, 14-3-3 domenləri və ya PDZ domenləri kimi domenlərə bağlanan zülallar daxilində motivləri axtarır. Ehtimal olunan zülal fosforlaşma sahələri, sahə ardıcıllığının təkamüllə qorunmasını və ya zülal və kinazın subhüceyrəvi kolokalizasiyasını qiymətləndirməklə daha da araşdırıla bilər.

Quokka - insan proteomunda kinaz ailəsinə məxsus fosforlaşma sahələrinin sürətli və dəqiq proqnozlaşdırılması üçün hərtərəfli vasitədir (İstinad: Li F et al (Bioinformatika) 34(24): 4223&ndash4231).

Toplama:

SUMOgo - motiv seçim modelləri və müxtəlif post-tərcümə modifikasiyalarının təsirləri ilə lizinlər üzərində sumoilasiya sahələrinin (kiçik ubiquitin kimi dəyişdirici (SUMO) bağlanması (SUMOylation kimi istinad edilir)) proqnozlaşdırılması (İstinad: Chang C-C et al. 2018. Elmi Hesabatlar 8: 15512).

Sülfinator (ExPASy, İsveçrə) zülal ardıcıllığında tirozin sulfatlaşma yerlərini proqnozlaşdırır.

Peyvəndin inkişafı, effektli molekullar:


Jaiswal V et al. 2013. BMC Bioinformatika14: 211

və patogen bakteriyalar. Beləliklə, effektor zülallar bakteriya sitozolundan hüceyrədənkənar mühitə və ya birbaşa eukaryotik ev sahibi hüceyrəyə daşınır. Effektiv portal bütün ictimaiyyətə açıq olan patogen və simbiontik genomlarda bakterial effektorlar üzrə əvvəlcədən hesablanmış proqnozlar, həmçinin istifadəçinin öz protein ardıcıllığı məlumatlarında effektorları proqnozlaşdırmaq imkanını təmin edir.

ÖZ MOTIFLARINIZI KƏŞF EDİN:

Bənzər ardıcıllıqları kəşf etdikdən sonra, lakin motiv axtarış vasitələri sizin zülal qrupunuzu tanıya bilmədiyi üçün potensial motivlərin siyahısını yaratmaq üçün aşağıdakı vasitələrdən istifadə edə bilərsiniz.

MEME Suite- Motif əsaslı ardıcıllıq təhlili alətləri (Milli Biotibbi Hesablama Resursu, ABŞ). N.B. BLASTP axtarışını etdikdən sonra üç və ya dörd ən homoloji zülaldan (təlim dəsti) ibarət FASTA formatlı sənəd yaradın və MEME-yə təqdim edin (Msonlu Em üçün Motif Eicazə) və ya GLAM2 (Gtətbiq edilmişdir Local Alalovlanmaları Motiflər). MEME vəziyyətində mən adətən tapmaq üçün "Maksimum motivlərin sayı" olaraq 5-i təyin edirəm. Siz E-poçt vasitəsilə " MEME Təqdim Məlumatı (iş proqramı. )" başlıqlı mesaj alacaqsınız"," MBKR-nin sorğunuzu qəbul etdiyini və ona baxdığını təsdiq edir. Hiperlinkə klikləsəniz "Siz işinizin nəticələrinə baxa bilərsiniz: http://meme. " görəcəksiniz:

"HTML kimi MAST çıxışı" motivləri, motivlərin uyğunlaşdırılması qrafikini və motivlərin təlim dəstindəki fərdi ardıcıllıqla düzülməsini təmin edir. HTML kimi "MEME çıxışı" faylı motivlərin hər birinin ətraflı təhlilini və onların Ardıcıllıq Loqolarını ehtiva edir.

Həyatın yuxarı hissəsində "MAST istifadə edərək bu motivlərlə ən yaxşı birləşmiş uyğunluqlar üçün Axtarış ardıcıllığı verilənlər bazası ilə etiketlənmiş alt hissə var." Bu, sizi MAST (Motif Alignment and Search Tool) təqdimetmə formasına aparacaq. NCBI-nin lazımsız protein verilənlər bazasına klikləyin. Siz " MAST Təqdim Məlumatı (iş proqramı . )" başlıqlı e-poçt məktubu alacaqsınız

İkinci məlumat dəstini >20 səhifədən ibarət çap etməzdən əvvəl çox ehtiyatlı olun (İstinad: Bailey, T.L. et al. 2009. Nucl. Acids Res. 37 (Veb server problemi): W202-W208). Meme Suite-ni də burada tapa bilərsiniz.

WebLogo - Tom Schneider və Mike Stephens tərəfindən hazırlanmış konsensus ardıcıllığı məlumatlarını təmsil etmək və vizuallaşdırmaq üçün əla qrafik üsuldur. Nukleotid loqoları üçün RNT Structure Logosuna baxın (Danimarka Texniki Universiteti)

Seq2Logo ardıcıl loqo generatorudur. Ardıcıllıq loqoları çox ardıcıl düzülüşdə (MSA) saxlanılan məlumat məzmununun qrafik təsviridir və bioloji ardıcıllıqlarda bağlama motivlərinin, aktiv sahələrin və s. mövqeyə xas amin turşusu tərkibinin yığcam və yüksək intuitiv təsvirini təmin edir.( İstinad : Thomsen, MC, & Nielsen, M. 2012. Nuclein Acids Res. 40(Veb Server məsələsi): W281-287).

Skylign həm ardıcıl düzülmələri, həm də profilin gizli Markov modellərini təmsil edən loqolar yaratmaq üçün bir vasitədir. (i) veb səhifələrə daxil edilmək üçün interaktiv loqolar və ya (ii) sənədlərdə istifadə üçün statik loqolar hazırlamaq üçün formanı təqdim edin. Skylign HMMER tərəfindən qəbul edilən istənilən formatda ardıcıl düzülmələri qəbul edir (buraya Stokholm və düzlənmiş fasta formatı daxildir). (İstinad: Wheeler TJ, et al. 2014. BMC Bioinformatics. 15: 7.). HMMER formatlı profil HMM faylları *.aln ClustalW faylından ClustalW uyğunlaşdırmanızı (& başlıq) HMMBUILD-ə (Pôle Bioinformatique Lyonnais, Fransa) yapışdırmaqla yaradıla bilər və Skylign-də çıxışdan (*.hmm faylı kimi saxlanılır) istifadə edin. .

İki Nümunə Loqo - bir neçə ardıcıl düzülüşün iki dəsti arasında mövqeyə aid simvol kompozisiyalarında statistik əhəmiyyətli fərqləri aşkar edir və göstərir. Tipik bir ssenaridə, düzülmüş ardıcıllığın iki qrupu ümumi motivi paylaşacaq, lakin funksional annotasiyalarında fərqlənəcək. Java aləti kimi də mövcuddur. (İstinad: 22: 1536-1537).

HMMER veb saytı - HMMER proqram dəstində olan zülal homologiyası axtarış alqoritmlərinə girişi təmin edir. 2011-ci ildə vebsaytın ilk buraxılışından bəri axtarış repertuarı iterativ axtarış alqoritmini, jackhmmer-i daxil etmək üçün genişləndirilib. (İstinad: R.D. Finn et al. 2015. Nucl. Acids Res. 43 (W1): W30-W38).

PSMSearch - yeni zülal motivləri (SLiMs, mORFs, miniMotifs) və PTM saytlarını tapmaq üçün veb proqramdır. PSMSearch, uyğunlaşdırılmış funksional peptidlər dəstindən qurulmuş spesifiklik determinant modelinə əhəmiyyətli oxşarlığı olan bölgələr üçün proteomları təhlil edir. Sorğu peptidləri istifadəçilər tərəfindən təmin edilə və ya ELM verilənlər bazasından əldə edilə bilər. Spesifiklik determinantı modelini təsvir edən mövqeyə xas hesablama matrisini (PSSM) qurmaq üçün bir çox qiymətləndirmə metodları mövcuddur və istifadəçilər interaktiv PSSM istilik xəritəsi vasitəsilə spesifiklik determinantları haqqında əvvəlki bilikləri əlavə etmək üçün modeli dəyişdirə bilərlər. ( İstinad: Krystkowiak I et al. 2018. Nucleic Acids Res 46(W1): W235&ndashW241).

NÜKLEİK TURŞUSU MOTIFLER : (Bura da bax)

Rfam (Xoş gəlmisiniz Trust Sanger İnstitutu, İngiltərə) - 5S rRNA, tRNA, tmRNA, qrup I və II katalitik intronlar, çəkic başlı ribozimlər, siqnal tanınma hissəcikləri kimi 36 struktur və ya funksional RNT üçün 2 kb DNT-ni təhlil etməyə imkan verir.

P2RP (Predicted Prokaryotic Regulatory Proteins) - DNT və ya zülal ardıcıllığının təhlilinə əsaslanan transkripsiya faktorları (TF) və iki komponentli sistemlər (TCS) daxil olmaqla. (İstinad: Bərəkət M., 2013. BMC Genomics 14: 269)


4.3 Nəticələr

4.3.1 Xüsusiyyətlər

The ggtree filoqramı və kladoqramı göstərməyi dəstəkləyir (Şəkil 4.1) və düzbucaqlı , maili , dairəvi , yelçəkən , köksüz , zaman miqyası və ikiölçülü ağac da daxil olmaqla müxtəlif planları olan bir ağacı vizuallaşdıra bilər.

The ggtree ağac obyektində saxlanılan ağac kovariativlərinin birbaşa ağacın vizuallaşdırılması və annotasiyasında istifadə edilməsinə imkan verir. Bu kovariatlar ağacda istifadə edilən seçmə növlərinin/ardıcıllıqların meta verilənləri, statistik analiz və ya ağacın təkamül nəticələri ola bilər (məs. təxmin edilən divergensiya vaxtı HEYVAN və ya əcdad ardıcıllığı ilə nəticələnir HyPhy, və s.). Bu ədədi və ya kateqoriyalı məlumatlar ağacın budaqlarını və ya qovşaqlarını rəngləndirmək üçün istifadə edilə bilər, ağacda orijinal dəyərlərlə göstərilir və ya müxtəlif simvollarla xəritələnir. In ggtree, istifadəçilər seçilmiş təbəqələri vurğulamaq və təbəqələri etiketləmək və ya ağacı müxtəlif forma və rəng simvolları ilə şərh etmək üçün təbəqələr əlavə edə bilərlər, və s. (daha ətraflı Bölmə 3.3.3-də).

Digər filogenetik ağac vizuallaşdırma paketləri ilə müqayisədə, ggtree ağac strukturunu və əlaqəli məlumatları vizual olaraq araşdırmaqda üstündür. Məsələn, bir neçə annotasiya təbəqəsi olan mürəkkəb ağac fiqurunu addım-addım yenidən yaratmadan yeni ağac obyektinə köçürmək olar. Operator, %<%, belə əməliyyat üçün yaradılmışdır - ağac fiqurunu yeni ağac obyekti ilə yeniləmək. Budaq uzunluğu digər ədədi dəyişənlərdən istifadə etməklə yenidən ölçülə bilər (Şəkil 3.4-də göstərildiyi kimi, ağac budaqlarını istifadə edərək miqyasını dəyişdirir. dN dəyər). Filogenetik ağaclar yıxılaraq, miqyaslanaraq və fırlanan təbəqə ilə vizual olaraq idarə oluna bilər. Dairəvi və fan layout ağacı xüsusi bucaq ilə döndərilə bilər. Ağacların strukturları bir plandan digərinə çevrilə bilər.

groupClade funksiyası müxtəlif siniflər altında budaqları və qovşaqları müxtəlif qruplara təyin edir. Eynilə, groupOTU funksiyası, istifadəçi tərəfindən müəyyən edilmiş əməliyyat taksonomik vahidləri (OTU) qruplarına əsaslanaraq müxtəlif qruplara budaqlar və qovşaqlar təyin edir ki, onlar mütləq bir təbəqə daxilində deyil, monofiletik (klad), polifiletik və ya parafiletik ola bilər. Filogenetik ağac, müxtəlif qruplara təyin edilmiş budaqlara və ya qovşaqlara müxtəlif xətt növlərini, ölçüsünü, rəngini və ya formasını xəritələşdirməklə şərh edilə bilər.

Treeio paket müxtəlif proqram çıxışlarından müxtəlif annotasiya məlumatlarını S4 filogenetik məlumat obyektlərinə təhlil edir. The ggtree ağacı göstərmək və şərh etmək üçün əsasən bu S4 obyektlərindən istifadə edir. Filogenetik ağacları spesifik əlaqəli məlumatları ilə saxlamaq üçün S3 / S4 siniflərini müəyyən edən digər R paketləri də var, o cümlədən phylo4 və phylo4d-də müəyyən edilmişdir. filobaz paket, obkdata ilə müəyyən edilmişdir OutbreakTools paketi və phyloseq ilə müəyyən edilmişdir filoseq paket. Bütün bu ağac obyektləri də dəstəklənir ggtree və onların xüsusi annotasiya məlumatları ağaca şərh vermək üçün istifadə edilə bilər ggtree. Belə uyğunluq ggtree məlumatların və təhlil nəticələrinin inteqrasiyasını asanlaşdırır.

4.3.2 Filogenetik ağacın planları

Ggtree ilə filogenetikaya baxmaq olduqca sadədir, sadəcə ağac obyektini ona keçirin ggtree funksiyası. Biz ağac təqdimatı üçün düzbucaqlı (standart olaraq), maili, dairəvi, yelçəkən, köklənməmiş (bərabər bucaq və gün işığı üsulları), vaxt miqyaslı və 2 ölçülü planlar daxil olmaqla bir neçə növ plan hazırlamışıq (Şəkil 4.1).

Fərqli tərtibatlı bir ağacın vizuallaşdırılmasına dair nümunələr:

Şəkil 4.1: Ağac planları. Filoqram: düzbucaqlı düzüm (A), maili düzən (B), dairəvi düzən (C) və ventilyator düzümü (D). Köksüz: bərabər bucaq üsulu (E) və gün işığı üsulu (F). Kladoqram: düzbucaqlı düzüm (G), dairəvi tərtibat (H) və köksüz düzüm (I). Kladoqram üçün maili və fanat planları da dəstəklənir.

Filoqramma. Planları düzbucaqlı, maili, dairəvifanat Şəkil 4.1A, B, C və D-də göstərildiyi kimi filoqramı vizuallaşdırmaq üçün dəstəklənir (defolt olaraq, budaq uzunluğu miqyaslı).

Köklənməmiş düzən. Köklənməmiş (həmçinin 'radial' adlanır) düzülmə bərabər bucaqlı və gün işığı alqoritmləri ilə dəstəklənir, istifadəçi ağacı vizuallaşdırmaq üçün düzən parametrinə "bərabər_bucaq" və ya "gün işığı" keçməklə köklənməmiş düzən alqoritmini təyin edə bilər. Bərabər bucaq metodu ildə Christopher Meacham tərəfindən təklif edilmişdir PLOTREE, daxil olan PHYLIP (Retief 2000). Bu üsul ağacın kökündən başlayır və hər bir alt ağaca içindəki ucların sayına mütənasib olaraq bucaq qövsləri ayırır. O, kökdən uclara qədər təkrarlanır və alt ağaca ayrılmış bucağı ondan asılı olan alt ağaclar üçün bucaqlara bölür. Bu üsul sürətlidir və bir çox proqram paketlərində tətbiq edilmişdir. Şəkil 4.1E-də göstərildiyi kimi, bərabər bucaq metodunun çatışmazlıqları var ki, ipuçları bir araya toplanır və çoxlu boşluqlar istifadə olunmur. Gün işığı metodu bərabər bucaq altında qurulmuş ilkin ağacdan başlayır və ardıcıl olaraq hər bir daxili qovşaq və alt ağacları yelləyərək onu təkmilləşdirir ki, “gün işığı” qövsləri bərabər olsun (Şəkil 4.1F). Bu üsul ilk olaraq ildə tətbiq edilmişdir PAUP* (Wilgenbusch və Swofford 2003).

Kladoqramma. Budaq uzunluğu miqyası olmadan və yalnız ağac strukturunu göstərən kladoqramı vizuallaşdırmaq üçün filial.length "yox" olaraq təyin edilir və o, bütün tərtibat növləri üçün işləyir (Şəkil 4.1G, H və I).

Vaxt miqyaslı layout. Zaman miqyaslı ağac üçün ən son seçmə tarixi mrsd parametri və vasitəsilə müəyyən edilməlidir ggtree nümunə götürmə (ucu) və divergensiya (daxili qovşaq) vaxtı ilə ağacı miqyaslandıracaq və standart olaraq ağacın altında vaxt miqyası oxu göstəriləcək.

Şəkil 4.2: Vaxt miqyaslı layout. The x oxu zaman şkalasıdır (il vahidləri ilə). Ayrışma vaxtı ilə nəticələndi HEYVAN molekulyar saat modelindən istifadə etməklə.

İki ölçülü ağac düzümü. İki ölçülü ağac filogenetik ağacın əlaqəli fenotip (ədədi və ya kateqoriya əlaməti) ilə müəyyən edilmiş məkanda proyeksiyasıdır. y-ox) və ağac budaq şkalası (məs., təkamül məsafəsi, fərqli zaman, üzərində x-ox). Fenotip, ağacdakı taksonların və hipotetik əcdadların müəyyən bioloji xüsusiyyətlərinin ölçüsü ola bilər. Bu, bizim təklif etdiyimiz yeni tərtibatdır ggtreevirus fenotiplərini və ya digər davranışlarını izləmək üçün faydalıdır (y-ox) virusun təkamülü ilə dəyişən (x-ox). Əslində, təkamül zamanı fenotiplərin və ya genotiplərin təhlili qrip virusunun təkamülünü öyrənmək üçün geniş istifadə edilmişdir (Neher et al. 2016), baxmayaraq ki, belə analiz diaqramları ağaca bənzəmir, yəni., məlumat nöqtələrini müvafiq ağac budaqları ilə birləşdirən iki ölçülü ağac planımızdan fərqli olaraq, məlumat nöqtələri arasında əlaqə yoxdur. Buna görə də, təqdim etdiyimiz bu yeni tərtibat qrip viruslarının böyük ardıcıllıq məlumat dəstləri üçün bu cür məlumatların təhlilini asanlaşdıracaq və miqyaslana bilən hala gətirəcək.

Bu nümunədə biz H3 insan və donuz qripi viruslarının əvvəlki vaxt miqyaslı ağacından istifadə etdik (Şəkil 4.2-də dərc olunmuş məlumatlar (Liang et al. 2014)) və y- proqnozlaşdırılan ox N-hemaqlütinin zülallarının takson və əcdad ardıcıllığının hər biri üçün əlaqəli qlikozilləşmə sahələri (NLG). NLG saytları istifadə edərək proqnozlaşdırıldı NetNGlyc 1.0 Server 8. Ölçmək üçün y-ox, ggtree() funksiyasındakı yscale parametri ədədi və ya kateqoriyalı dəyişənə təyin edilir. Əgər yscale bu nümunədəki kimi kateqoriyalı dəyişəndirsə, istifadəçilər yscale_mapping dəyişənləri vasitəsilə kateqoriyaların ədədi dəyərlərə necə uyğunlaşdırılacağını müəyyən etməlidirlər.

Şəkil 4.3: İki ölçülü ağac düzümü. Magistral və digər budaqlar qırmızı (donuz üçün) və mavi (insan üçün) ilə vurğulanır. The x-ox zaman miqyaslı ağacın budaq uzunluğuna (il vahidləri ilə) miqyaslanır. The y-ox node atributunun dəyişəninə miqyaslanır, bu halda proqnozlaşdırılanların sayı N-hemaqlütinin zülalında əlaqəli qlikozilləşmə sahəsi (NLG). Rəngli dairələr ağac düyünlərinin müxtəlif növlərini göstərir. Qeyd edək ki, qovşaqlar eyni təyin olunur x- (müvəqqəti) və y- (NLG) koordinatları bu təsvirdə üst-üstə qoyulur və həmin nöqtədəki bütün qovşaqların rənglərinə əsasən kölgələnən bir qovşaq kimi görünür.

Şəkil 4.3-də göstərildiyi kimi, iki ölçülü ağac filogenetik ağacda təkamül üzərində fenotip dəyişikliyini vizuallaşdırmaqda yaxşıdır. Bu nümunədə insan qripi A virusunun H3 geninin yüksək səviyyədə saxlandığı göstərilir N-əlaqəli qlikozilləşmə sahələri (n=8-dən 9-a qədər) son iki onillikdə və donuz populyasiyalarına ötürülən və orada qurulan ayrı bir viral nəsildə əhəmiyyətli dərəcədə azalaraq 5 və ya 6-ya düşdü. Həqiqətən belə bir fərziyyə irəli sürüldü ki, viral hemaqlütinin zülalında yüksək səviyyədə qlikozilləşməyə malik insan qripi virusu antigenik yerləri sürü toxunulmazlığına məruz qalmaqdan qorumaq üçün daha yaxşı qoruyucu təsir göstərir və bununla da sürü toxunulmazlığını yüksək səviyyədə saxlayan insan populyasiyalarında selektiv üstünlüyə malikdir. dövran edən insan qripi virusuna qarşı. Növ baryerindən yenicə keçən və donuz populyasiyasına keçən viral nəsil üçün yüksək səviyyəli səth qlikanının qoruyucu təsiri əks olaraq seçici çatışmazlıq yaradır, çünki reseptor bağlayan sahə də qorunmuş ola bilər ki, bu da nəslin viral uyğunluğuna böyük təsir göstərir. yeni ev sahibi növə yeni uyğunlaşan.

4.3.3 Annotasiya qatları

The ggtree daha ümumi məqsəd və ya ağacın vizuallaşdırılması və annotasiyasının xüsusi növü üçün nəzərdə tutulmuşdur. Bu tətbiq olunan qrafiklərin qrammatikasını dəstəkləyir ggplot2 və istifadəçilər bir neçə annotasiya qatını birləşdirərək ağacı sərbəst şəkildə vizuallaşdıra/annotasiya edə bilərlər.

Şəkil 4.4: Qrafik qrammatikadan istifadə edərək ağaca şərh yazmaq. NHX ağacı + operatorundan istifadə edərək müxtəlif təbəqələri birləşdirərək qrafik sintaksisin qrammatikasından istifadə etməklə şərh edilmişdir. Növlər haqqında məlumat budaqların ortasında etiketlənmişdi, Duplikasiya hadisələri ən son ümumi əcdadda göstərilmişdir və onun yanında klade açılış dəyəri göstərilmişdir.

Nümunə olaraq, NHX teqlərində saxlanılan annotasiyaları göstərmək üçün ağacı bir neçə təbəqə ilə vizuallaşdırdıq, o cümlədən tip etiketlərini göstərmək üçün geom_tiplab qatı (bu halda gen adı), növ məlumatını göstərmək üçün geom_label istifadə edən təbəqə ( S etiketi) açıq yaşıl rənglə rənglənmiş, təkrarlanma hadisəsi məlumatı təbəqəsi ( D etiketi) polad mavi ilə rənglənmiş və başqa bir təbəqə istifadə edərək geom_text bootstrap dəyərini göstərmək üçün ( B etiketi).

ilə müəyyən edilmiş təbəqələr ggplot2 tətbiq oluna bilər ggtree birbaşa istifadənin Şəkil 4.4-də göstərildiyi kimi geom_etiketigeom_text. Amma ggplot2 filogenetik ağac annotasiyası üçün xüsusi hazırlanmış qrafik təbəqələri təmin etmir. Məsələn, uc etiketləri, ağac budağı miqyası əfsanəsi, vurğu və ya etiketləmə təbəqəsi üçün təbəqələrin hamısı əlçatan deyil. Ağac annotasiyasını daha çevik etmək üçün bir sıra təbəqələr tətbiq edilmişdir ggtree (Cədvəl 4.1), filogenetik ağacın müxtəlif hissələri/komponentləri üzrə müxtəlif annotasiya yollarına imkan verir.

Cədvəl 4.1: ggtree-də müəyyən edilmiş Geom təbəqələri.
Qat Təsvir
geom_balance daxili qovşağın iki birbaşa nəslini vurğulayır
geom_cladelabel çubuq və mətn etiketi ilə bir təbəqəyə şərh verin
geom_hilight düzbucaqlı ilə təbəqəni vurğulayın
geom_label2 geom_label-in dəyişdirilmiş versiyası, alt parametrlər dəstəklənir
geom_nodepoint simvolik nöqtələrlə daxili qovşaqlara şərh yazın
geom_point2 geom_point-in dəyişdirilmiş versiyası, alt parametrlər dəstəklənir
geom_aralığı təkamül nəticəsinin qeyri-müəyyənliyini təqdim etmək üçün bar təbəqəsi
geom_rootpoint simvolik nöqtə ilə kök nodu qeyd edin
geom_seqment2 geom_segment-in dəyişdirilmiş versiyası, alt parametrlər dəstəklənir
geom_strip çubuq və (istəyə bağlı) mətn etiketi ilə əlaqəli taksonlara annotasiya yazın
geom_taxalink iki əlaqəli taksanı əyri ilə əlaqələndirərək əlaqələndirin
geom_text2 geom_text-in dəyişdirilmiş versiyası, alt parametrlər dəstəklənir
geom_tiplab tip etiketlərinin təbəqəsi
geom_tiplab2 dairəvi layout üçün tip etiketləri təbəqəsi
geom_tippoint simvolik nöqtələrlə xarici qovşaqlara şərh yazın
geom_ağacı dəstəklənən çoxsaylı layout ilə ağac strukturu təbəqəsi
geom_treescale ağac budağı miqyasında əfsanə

4.3.4 Ağacın manipulyasiyası

The ggtree böyük ağacı araşdırmaq üçün seçilmiş təbəqəyə baxmaq (Şəkil 4.5), taksonların qruplaşdırılması (Şəkil 4.8), fırlanan təbəqə və ya ağacın (Şəkil 4.9B və 4.11), böyüdülməsi və ya çökdürülməsi (Şəkil 4.6A) daxil olmaqla ağacı vizual olaraq idarə etməyin bir çox üsullarını dəstəkləyir. və 4.7), və s.. Ağacın manipulyasiya funksiyalarının təfərrüatları Cədvəl 4.2-də ümumiləşdirilmişdir.

Cədvəl 4.2: Ağacın manipulyasiya funksiyaları.
Funksiya Təsviri
çökmək seçmə təbəqəni yığışdırın
genişləndirmək çökmüş təbəqəni genişləndirin
çevirmək ana qovşağı paylaşan 2 təbəqənin mübadilə mövqeyi
groupClade qruplaşma təbəqələri
qrupOTU Ən son ortaq əcdadına qədər izləməklə OTU-ları qruplaşdırmaq
müəyyən etmək interaktiv ağac manipulyasiyası
fırlatmaq seçilmiş təbəqəni 180 dərəcə fırladın
fırladın_ağac xüsusi açı ilə dairəvi layout ağac fırlanan
scaleClade zoom seçin və ya kiçilt
açıq_ağac xüsusi açıq bucaqla bir ağacı fanat planına çevirin

Klad, tək əcdadı və onun bütün nəsillərini ehtiva edən monofiletik qrupdur. Biz Şəkil 4.5B-də göstərildiyi kimi viewClade funksiyası vasitəsilə xüsusi seçilmiş təbəqəni vizuallaşdıra bilərik. Digər oxşar funksiya gzoom-dur, hansı ki, ağacı yan-yana seçilmiş təbəqə ilə tərtib edir. Bu iki funksiya böyük ağacı araşdırmaq üçün hazırlanmışdır.

Şəkil 4.5: Ağacın seçilmiş təbəqəsinə baxış. Necə olduğunu nümayiş etdirmək üçün istifadə edilən bir nümunə ağac ggtree filogenetik ağacı vizual olaraq araşdırmağa və ya manipulyasiya etməyə dəstək (A). The ggtree seçilmiş təbəqənin (B) vizuallaşdırılmasını dəstəkləyir. Qrup qovşaq nömrəsini göstərməklə seçilə bilər və ya seçilmiş ipucuların ən son ümumi əcdadı tərəfindən müəyyən edilə bilər.

Ağacın müəyyən tərəflərini vurğulamaq üçün təbəqələri budamaq və ya yıxmaq adi bir təcrübədir. The ggtree Şəkil 4.6A-da göstərildiyi kimi çökmə funksiyasından istifadə edərək seçilmiş təbəqələrin çökməsini dəstəkləyir.

Şəkil 4.6: Seçilmiş təbəqələrin dağılması və yıxılmış təbəqələrin genişləndirilməsi. Gövdələr yıxılmaq üçün seçilə bilər (A) və zərurət yaranarsa, çökmüş təbəqələr geriyə (B) genişləndirilə bilər. ggtree növ münasibətləri haqqında bütün məlumatları saxlayır. Ağacın üzərində çökmüş təbəqələri göstərmək üçün yaşıl və qırmızı simvollar göstərildi.

Burada iki təbəqə yıxılmış və yaşıl dairə və qırmızı kvadrat simvolik nöqtələrlə işarələnmişdir. Dağılma, tam şəkildə göstərmək üçün çox böyük olan və ya tədqiqatın əsas marağı olmayan təbəqələri yıxmaq üçün ümumi strategiyadır. In ggtree, genişləndirə bilərik (yəni., çökmə) Şəkil 4.6B-də göstərildiyi kimi növ əlaqələrinin təfərrüatlarını göstərmək üçün genişləndirmə funksiyası ilə çökmüş budaqları geri qaytarın.

The ggtree scaleClade funksiyası vasitəsilə bu təbəqələri kiçiltmək (və ya sıxmaq) üçün başqa bir seçim təqdim edir. Bu yolla biz sıxılmış təbəqələrin topologiyasını və budaq uzunluqlarını saxlayırıq. Bu, tədqiqat üçün əsas maraq kəsb edən təbəqələri vurğulamaq üçün yerə qənaət etməyə kömək edir.

Şəkil 4.7: Seçilmiş təbəqə miqyaslanır. Məkan saxlamaq üçün vurğulamaq və ya kiçiltmək üçün örtüklər böyüdülə bilər (əgər miqyas > 1 olarsa).

Əgər istifadəçilər mühüm təbəqələri vurğulamaq istəyirlərsə, onlar miqyas parametri 1-dən böyük olan scaleClade funksiyasından istifadə edə bilərlər. Sonra seçilmiş təbəqə böyüdüləcək. İstifadəçilər Şəkil 4.7-də göstərildiyi kimi təbəqələri seçmək və onları müxtəlif rənglərlə rəngləmək üçün groupClade-dən də istifadə edə bilərlər.

Baxmayaraq ki, groupClade clade (monofiletik) ilə yaxşı işləyir, əlaqəli taksonlar mütləq bir sinif daxilində deyil, onlar polifiletik və ya parafiletik ola bilər. The ggtree polyphyletic və paraphyletic ilə işləmək üçün groupOTU həyata keçirilir. O, OTU vektorunu (taksa adı) və ya OTU-ların siyahısını qəbul edir və Şəkil 4.8-də göstərildiyi kimi, OTU-lardan onların ən son ortaq əcdadına (MRCA) qədər davam edəcək və onları birləşdirəcək.

Şəkil 4.8: OTU-ların qruplaşdırılması. Əlaqələrinə əsaslanan OTU qruplaşması. Seçilmiş OTU-lar və onların MRCA-ya qədər olan əcdadları birlikdə qruplaşdırılacaq.

Ağacın strukturunu araşdırmağı asanlaşdırmaq üçün, ggtree fırlanma funksiyasından istifadə edərək seçilmiş klapanın 180 dərəcə fırlanmasını dəstəkləyir (Şəkil 4.9B). Daxili qovşağın dərhal törəmə təbəqələrinin mövqeyi çevirmə funksiyası vasitəsilə dəyişdirilə bilər (Şəkil 4.9C).

Şəkil 4.9: Ağacın strukturunun araşdırılması. Ağacda (A) bir təbəqə (tünd yaşıl dairə ilə göstərilmişdir) 180° (B) fırlana bilər və onun birbaşa nəslindən olan təbəqələrin mövqeləri (mavi və qırmızı ilə rənglənmiş) dəyişdirilə bilər (C).

Ağacın manipulyasiya funksiyalarının çoxu təbəqələr üzərində işləyir ggtree Şəkil 4.10 və 4.11-də göstərildiyi kimi ağacı manipulyasiya etmək funksiyalarını, o cümlədən düzbucaqlı və ya dairəvi tərtibatda olan ağacı ventilyator planına çevirmək üçün open_tree və ağacı həm dairəvi, həm də yelçəkən düzənlərdə xüsusi bucaq üçün fırlatmaq üçün rotate_tree funksiyasını təmin edir.

Şəkil 4.10: Ağacın fanat planına çevrilməsi. Ağac xüsusi ilə open_tree tərəfindən fan layoutuna çevrilə bilər bucaq parametr.

Şəkil 4.11: Fırlanan ağac. Dairəvi/fan layout ağacı hər hansı bir xüsusi ilə döndərilə bilər bucaq.

4.3.5 Təkamül analizi proqram təminatının məlumatlarından istifadə edərək ağac annotasiyası

2-ci fəsil istifadəni təqdim etdi treeio müxtəlif ağac formatlarını təhlil etmək üçün paketlər və filogeniya ilə əlaqəli məlumatları əldə etmək üçün çox istifadə olunan proqram çıxışları. S4 obyektləri kimi idxal edilən bu məlumatlar birbaşa istifadə edərək vizuallaşdırıla bilər ggtree. Şəkil 4.4 NHX faylında saxlanılan məlumatdan (növlərin təsnifatı, təkrarlanma hadisəsi və açılış dəyəri) istifadə edərək qeyd edilmiş ağacı nümayiş etdirir. FILODOQRevBayes tərəfindən təhlil edilə bilən NHX fayllarını çıxarın treeio tərəfindən vizuallaşdırılır ggtree onların çıxarış məlumatlarından istifadə edərək annotasiya ilə.

Bundan əlavə, nəticə çıxaran təkamül məlumatları HEYVAN, MrBayesRevBayes, dN/dS tərəfindən çıxarılan dəyərlər CodeML, ilə nəticələnən əcdad ardıcıllığı HyPhy, CodeML və ya BaseML və qısa oxu yerləşdirilməsi EPApplacer ağaca birbaşa şərh vermək üçün istifadə edilə bilər.

Şəkil 4.12: Annotasiya HEYVAN ilə ağac uzunluq_95%_HPD və arxa. Budaq uzunluğunun etibarlı intervalları (95% HPD) qırmızı üfüqi çubuqlar şəklində göstərildi və budaqların ortasında klade arxa dəyərləri göstərildi.

Şəkil 4.12-də ağac vizuallaşdırılıb və posterior > 0.9 ilə şərh edilib və uzunluq qeyri-müəyyənliyi nümayiş etdirilib (95% Ən Yüksək Arxa Sıxlıq (HPD) intervalı).

Əcdad ardıcıllığı ilə nəticələnən HyPhy istifadə edərək təhlil edilə bilər treeio, halbuki hər bir ağac budağı boyunca əvəzetmələr avtomatik olaraq hesablanır və filogenetik ağac obyektində saxlanılır (yəni., S4 obyekti). The ggtree Şəkil 4.13-də göstərildiyi kimi ağaca şərh vermək üçün obyektdəki bu məlumatdan istifadə edə bilər.

Şəkil 4.13: HYPHY ilə nəticələnən əcdad ardıcıllığı ilə müəyyən edilən amin turşusu əvəzedicisi ilə annotasiya ağacı. Budaqların ortasında amin turşusu əvəzediciləri göstərilirdi.

PAMLs BaseMLCodeML həm də əcdadların ardıcıllığını çıxarmaq üçün istifadə edilə bilər, halbuki CodeML seçim təzyiqi haqqında nəticə çıxara bilər. Bu məlumatları istifadə edərək təhlil etdikdən sonra treeio, ggtree bu məlumatı eyni ağac strukturuna inteqrasiya edə və Şəkil 4.14-də göstərildiyi kimi annotasiya üçün istifadə edə bilər.

Şəkil 4.14: Annotasiyalı ağac animo turşusu əvəzedicisi və dN/dS tərəfindən təxmin edilir CodeML. Filiallar miqyası dəyişdirildi və rəngləndi dN/dS dəyərlər və amin turşusu əvəzləri budaqların ortasında göstərilmişdir.

Ətraflı təfərrüatlar və müxtəlif proqram paketləri tərəfindən əldə edilən təkamül məlumatları ilə ağacın annotasiyasına dair nümunələr üçün onlayn vinyetkalara müraciət etmək olar 9 .

4.3.6 Digər R paketlərində müəyyən edilmiş ağac siniflərinə əsaslanan ağac annotasiyası

The ggtree filogenetik analizi asanlaşdırmaq üçün R ekosistemində unikal rol oynayır. O, müxtəlif mənbələrdən müxtəlif əlaqəli məlumatlarla ağacın vizuallaşdırılması və annotasiya üçün ümumi alətlər kimi xidmət edir. R icmasında müəyyən edilmiş filogenetik ağac siniflərinin əksəriyyəti dəstəklənir, o cümlədən obkData , phyloseq , phylo , multiPhylo , phylo4 və phylo4d . Belə ggtree onların təhlilinə/paketlərinə asanlıqla inteqrasiya oluna bilər. Məsələn, filoseq istifadəçilər tapacaqlar ggtree mikrobiom məlumatlarının vizuallaşdırılması və əlavə qeydlər üçün faydalıdır ggtree qrafik qrammatikasından istifadə edərək yüksək səviyyəli annotasiyanı dəstəkləyir və onun bəzi xüsusiyyətləri mövcud deyil filoseq. Burada istifadə nümunələri ggtree annotasiya etmək üçün obkData və phyloseq ağac obyektləri nümayiş etdirilir. Orada nümunə məlumatları vinyetlərdə tapa bilərsiniz OutbreakTools (Jombart et al. 2014) və filoseq (McMurdie and Holmes 2013) paketləri.

okbData, nümunə götürmənin meta məlumatları və yoluxmuş şəxslərin yaşı və simptomların başlanğıcı kimi məlumatları daxil olmaqla, insidentlərə əsaslanan epidemiya məlumatlarını saxlamaq üçün müəyyən edilmişdir. The ggtree Şəkil 4.15-də göstərildiyi kimi ağaca şərh vermək üçün istifadə edilən bu məlumatın təhlilini dəstəkləyir.

Şəkil 4.15: obkData ağac obyektinin vizuallaşdırılması. x-ox epidemiyanın zaman çizelgesi ilə miqyaslandı və uclar müxtəlif şəxslərin yerləşdiyi yerə görə rəngləndi.

-də müəyyən edilən phyloseq sinfi filoseq paket filogenetik ağac, əlaqəli nümunə məlumatları və taksonomiya təyinatı daxil olmaqla mikrobiom məlumatlarının saxlanması üçün nəzərdə tutulmuşdur. kimi məşhur boru kəmərlərindən məlumatları idxal edə bilər QIIME (Kuczynski et al. 2011) , ana (Schloss et al. 2009), DADA2 (Callahan et al. 2016) və PyroTagger (Kunin və Hugenholtz 2010), və s.. The ggtree phyloseq obyektində saxlanılan filogenetik ağacın vizuallaşdırılmasını dəstəkləyir və müvafiq məlumatlar Şəkil 4.16-da göstərildiyi kimi ağaca şərh vermək üçün istifadə edilə bilər.

Şəkil 4.16: Filoseq ağac obyektinin vizuallaşdırılması. Məsləhətlər Phylum tərəfindən rəngləndi və müxtəlif nümunələr üzrə müvafiq bolluq joyplot kimi görüntüləndi və ağac quruluşuna görə çeşidləndi.

4.3.7 Filogenetik ağac üzrə təkmil annotasiya

The ggtree tətbiq olunan qrafiklərin qrammatikasını dəstəkləyir ggplot2 paketdir və filogenetik vizuallaşdırma və annotasiyanı asanlaşdırmaq üçün bir neçə təbəqə və funksiya təmin edir. Bu təbəqələr və funksiyalar xüsusi tapşırıqlar üçün nəzərdə tutulmayıb, onlar mürəkkəb ağac fiquru yaratmaq üçün sərbəst şəkildə birləşdirilə bilən tikinti bloklarıdır. Əvvəlki sessiyalar bəzi mühüm funksiyaları təqdim etdi ggtree. Bu sessiyada müxtəlif istifadə edərək nümayiş etdirmək üçün üç nümunə təqdim edildi ggtree əlaqəli verilənlər və müxtəlif analiz proqramlarından nəticə çıxaran annotasiyalarla mürəkkəb ağac fiquru yaratmaq üçün birlikdə funksiyaları yerinə yetirir.

4.3.7.1 Nümunə 1: istilik xəritəsi kimi seçilmiş gen məlumatının planını tərtib edin

Bu nümunə müxtəlif məlumat mənbələri ilə ağacın şərhini təqdim edir (məs., yer, nümunə götürmə ili, seçilmiş genotip məlumatı, və s.).

Ağac dairəvi planda vizuallaşdırıldı və deformasiya nümunəsinin götürülmə yeri məlumatı ilə əlavə edildi. Geom_tippoint təbəqəsi ağac uclarına dairəvi simvolik nöqtələr əlavə etdi və onları yerlərinə görə rəngləndirdi. Takson adlarını və seçmə illərini göstərmək üçün iki geom_tiplab2 əlavə edildi.

Təcrübəli gen məlumatı daha sonra yükləndi və fərdiləşdirilmiş rənglərlə gheatmap funksiyasından istifadə edərək istilik xəritəsi kimi tərtib edildi. Son rəqəm Şəkil 4.17-də nümayiş etdirilmişdir.

Şəkil 4.17: Müxtəlif əlaqəli məlumatları olan bir ağacın şərh edilməsi nümunəsi. Dairə simvolları gərginlik nümunəsi yeri ilə rənglənir. Takson adları və seçmə illəri məsləhətlərə uyğunlaşdırılıb. Təcrübəli gen məlumatı istilik xəritəsi (xarici dairələrdə rəngli qutu) kimi vizuallaşdırıldı.

4.3.7.2 Nümunə 2: mürəkkəb ağac annotasiyaları

The ggtree müxtəlif proqram təminatı tərəfindən əldə edilən müxtəlif sübutları eyni ağac topologiyasında birləşdirməyə, müqayisə etməyə və vizuallaşdırmağa imkan verir. Xarici fayllardan alınan məlumatlar təhlil və vizuallaşdırma üçün əlavə olaraq inteqrasiya oluna bilər. Bu nümunə müxtəlif proqram təminatı tərəfindən əldə edilən təkamül məlumatları ilə mürəkkəb ağac annotasiyalarını təqdim edir (HEYVANCodeML bu nümunədə) və digər əlaqəli məlumatlar (məs., genotip cədvəli).

Hər şeydən əvvəl, HEYVANCodeML çıxışlar təhlil edildi və əlaqəli məlumatlar olan iki ağac birinə birləşdirildi. Birləşmədən sonra bu proqram paketləri tərəfindən çıxarılan bütün statistik məlumatlar, o cümlədən fərqlərin ayrılması vaxtı və dN/dS birləşdirilmiş_ağac obyektinə daxil ediləcək. Ağac ilk dəfə zaman miqyasında görüntülənmiş və budaqları rənglənmişdir dN/dS, və arxa təbəqə ehtimalları ilə ağacı şərh etdi.

Ağac budaqları daha sonra takson ardıcıllığından əvvəlcədən hesablanmış amin turşusu əvəzetmələri və əcdadlardan gətirilən əcdad ardıcıllığı ilə əlavə edildi. CodeML.

Qrip virusu nümunələrinin sahib növlərini (insan üçün mavi və donuz üçün qırmızı) fərqləndirmək üçün müxtəlif rənglərlə ağacların uclarına simvolik nöqtələr əlavə edilmişdir.

Nəhayət, genotip cədvəli (xarici fayldan idxal edilmiş) istilik xəritəsi kimi tərtib edilmiş və Şəkil 4.18-də göstərildiyi kimi ağac quruluşuna uyğun olaraq ağaca uyğunlaşdırılmışdır.

Şəkil 4.18: Fərqli proqram təminatı tərəfindən əldə edilən təkamül dəlilləri ilə ağacın şərh edilməsi nümunəsi. The x-ox zaman miqyası (il vahidləri ilə) ilə nəticələnir HEYVAN. Ağacların budaqları onların rənginə görə rənglənir dN/dS qiymətlər (yuxarıdakı sol miqyasda olduğu kimi) tərəfindən çıxarılır CodeML, və daxili node etiketləri ilə nəticələnən posteria ehtimalları göstərilir HEYVAN. Tip etiketləri (takson adları) və dairələr növlərə görə rənglənir (insan mavi, donuz qırmızı).Sağda rəngli qutular massivi kimi göstərilən genotip virusun səkkiz genom seqmentinin nəsillərindən (ya HuH3N2, Pdm/09 və ya TRIG, yuxarıdakı sağ əfsanədə olduğu kimi rənglənmiş) ibarətdir. Hər hansı çatışmayan seqment ardıcıllığı boş qutular kimi göstərilir.

4.3.7.3 Nümunə 3: İnteqrasiya ggtree analiz boru kəmərində/iş prosesində

Birinci misalda ağac fiquru xarici məlumatlarla şərh edildi, ikinci misalda isə müxtəlif proqram təminatı və digər əlaqəli məlumatlar tərəfindən əldə edilən təkamül məlumatları ilə daha mürəkkəb annotasiyalar təqdim edildi. Bu nümunə inteqrasiyanı nümayiş etdirəcək ggtree nukleotid ardıcıllığından başlayan bir analiz boru xəttinə, ağac qurmağa, istifadə etməyə R nəticə çıxarılmış əcdad ardıcıllığı və dövlətlər paketi, sonra istifadə ggtree təkamül nümunələrini müəyyən etməyə kömək etmək üçün nəticələri vizuallaşdırmaq və şərh etmək üçün bu nəticələri inteqrasiya etmək.

Bu nümunədə, minimum uzunluğu 1000bp (giriş tarixi: 2016/02/20) meyarları ilə 1498 H3 ardıcıllığı topladıq (nümayiş üçün sıra nömrəsini azaltmaq üçün ev sahibini yalnız Avian ilə məhdudlaşdırın). H3 ardıcıllığı ilə uyğunlaşdırıldı ƏZƏLƏ (Edgar 2004) və ağac istifadə edərək tikilmişdir RAxML (Stamatakis 2014) ilə GTRGAMMA model. Əcdadların ardıcıllığı ilə təxmin edilirdi phangorn (Schliep 2011).

Pml funksiyası ardıcıl düzülməni nəzərə alaraq ağacın ehtimalını hesabladı və optim.pml funksiyası GTR modeli altında müxtəlif parametrləri optimallaşdırdı. phyPML funksiyası , həyata keçirilir treeio, optim.pml ilə nəticələnən əcdad ardıcıllıqlarını topladı və ana ardıcıllığı uşaq ardıcıllığı ilə müqayisə edərək amin turşusu əvəzini təyin etdi.

Ev sahibi məlumatı takson adından çıxarıldı və ata-baba sahibləri burada müəyyən edilmiş ace funksiyası ilə təxmin edildi meymun paketi (Paradis, Claude və Strimmer 2004) maksimum ehtimaldan istifadə edir. Sonra istifadə edin ggtree ev sahibi məlumatı ilə rənglənmiş dairələri vizuallaşdırmaq üçün istifadə edilmişdir.

Şəkil 4.19: İnteqrasiya nümunəsi ggtree analiz boru kəmərində. H3 qrip viruslarının filogenetik ağacı tərəfindən qurulmuşdur RAxML. Əcdadların ardıcıllığı ilə nəticələndi phangorn tərəfindən təxmin edilən ata-baba məlumatı meymun. The ggtree vizuallaşdırma və sonrakı təhlil üçün məlumatları inteqrasiya etməyə imkan verir. Ağac yuxarı sağdakı əfsanədə olduğu kimi ev sahibi məlumatı ilə rənglənmiş simvolik dairələrlə şərh edilmişdir.

The ggtree bu nümunədə göstərildiyi kimi analiz boru kəmərinə inteqrasiya oluna bilər və müxtəlif müxtəlif məlumat mənbələrini ağac obyektinə birləşdirməyə imkan verir. Bu nümunədə göstərildiyi kimi, host məlumatı və əcdad ardıcıllığı ağac obyektində saxlanılıb. Bundan sonra ggtree daha çox müqayisə və təhlil etməyə imkan verir. Məsələn, istifadəçilər Şəkil 4.20-də göstərildiyi kimi amin turşularının əvəzlənməsini host sıçrayışı ilə əlaqələndirə bilərlər. Bəzi sahələr (təxminən 400 mövqe) müxtəlif növlər arasında mühafizəkardır və bəzi sahələr (təxminən 20 mövqe) tez-tez mutasiyaya uğrayır, xüsusən də ev sahibinin mallarda sıçraması üçün (Şəkil 4.20A). Maraqlıdır ki, toyuqdan ördəkə ötürülməsi ilə birlikdə baş verən mutasiyalar HA qlobal başda toplanır, halbuki HA-nın sitoplazmik quyruğu üzərində paylanmış mutasiyalar tez-tez xörəkdən ördəkə və ördəkdən ördəkə ötürülməsinə səbəb olur. mallard ötürülmələri (Şəkil 4.20B). Bu nəticələr əks genetik tədqiqatlar kimi bu markerlərin sonrakı eksperimental tədqiqatlarına istiqamət verə bilər.

Şəkil 4.20: Amin turşusu əvəzetmə üstünlükləri. Fərqli yerlərdə fərqli mutasiya tezlikləri var. Ev sahibinin sıçrayışına səbəb olan mutasiyaların mutasiya yerlərində fərqli üstünlükləri var.

4.3.8 Ağacla əlaqəli digər paketlərlə performansın müqayisəsi

Filogenetik ağacların vizuallaşdırılması və annotasiyası bir çox müxtəlif paketlər sayəsində mümkündür. Xüsusilə də meymun (Paradis, Claude və Strimmer 2004) və fitollar (Revell 2012) , əsas planlama sistemində ağac manipulyasiyası və vizuallaşdırmanın bir çox xüsusiyyətlərini təmin edir. The ggtree paket filogenetik vizuallaşdırma və annotasiya üçün müxtəlif imkanlar gətirir ggplot2 qrafik və məlumat kommunikasiyasının obyekt yönümlü yanaşması sayəsində mümkün olan yüksək səviyyəli fərdiləşdirmə sistemi ilə planlar sistemi. OutbreakTools (Jombart et al. 2014) və filoseq (McMurdie and Holmes 2013) həmçinin ağac görünüşü funksiyalarından istifadə edərək həyata keçirmişdir ggplot2 müvafiq olaraq epidemiologiya və mikrobioma məlumatlarını təqdim etmək üçün. Bu paketlərdə mövcud olan müxtəlif xüsusiyyətlərin hərtərəfli müqayisəsini Cədvəldə tapa bilərsiniz ??. Burada bu paketlərin müqayisəli performansını təqdim edirəm. Şəkil 4.21-də göstərildiyi kimi əsas ağacın vizuallaşdırılması üçün 1000 yarpaqlı təsadüfi ağacdan istifadə edilmişdir. Əsasən ggtreefiloseq filogenetik ağaclara baxmaq üçün iki ən möhkəm və sürətli paketdir.

Şəkil 4.21: Əsas ağacın vizuallaşdırılması üçün iş vaxtının müqayisəsi. Takson adı ilə/olmadan ağac topologiyasının vizuallaşdırılması.

OutbreakTooksfiloseq ağac obyektlərini və müvafiq olaraq epidemiologiya və mikrobiomadan xüsusi məlumatları saxlamaq üçün öz siniflərini müəyyən etdilər. OutbreakTools yalnız obkData obyektləri ilə işləyir filoseq phylo və phyloseq obyektləri ilə işləyir. kimi OutbreakTools phylo obyektinə baxa bilmir, o, filogenetik ağaclara baxışın iş vaxtı müqayisəsinə daxil edilməmişdir. Baxmayaraq ki filoseq filo obyektinə baxa bilir, istifadəçi məlumatları ilə filogenetik ağaca şərh vermək qabiliyyəti yoxdur. Filogenetik ağac annotasiyasının performansını müqayisə etmək üçün burada istifadə etdim meymunggtree təqdim olunan nümunələri təkrarlamaq üçün OutbreakToolsfiloseq vinyetkalar. Qeyd edək ki, obkData və phylose daxil olmaqla S4 sinifləri OutbreakToolsfiloseq tərəfindən də dəstəklənir ggtree və istifadəçilər əlaqəli annotasiya qatlarını əlavə etmək üçün + operatorundan istifadə edə bilərlər. Şəkil 4.22-də göstərildiyi kimi, meymun ağac annotasiyası üçün ən sürətli paketdir və ggtree üstələyir filoseqOutbreakTools.

Şəkil 4.22: Ağac annotasiyası üçün işləmə vaxtı müqayisəsi. Reproduksiya ağac annotasiya nümunəsi OutbreakToolsfiloseq istifadə edərək meymunggtree.

Fərqli sayda yarpaqları olan filogenetik ağacları vizual olaraq müqayisə etmək üçün burada 10-dan 1000-ə qədər yarpaqları olan təsadüfi ağaclardan istifadə etdim. Şəkil 4.23-də göstərildiyi kimi, meymunfitollar ağaclar kiçik olduqda daha sürətli olur ggtreefiloseq böyük ağac ilə daha yaxşı çıxış.

Şəkil 4.23: Müxtəlif sayda yarpaqları olan ağaca baxmaq vaxtı. 1000 yarpaqlı filogenetik ağaca baxmaq üçün ən yavaş vaxt cəmi 1 saniyədir. Bütün bu alətlər adi istifadə üçün kifayət qədər sürətlidir.

Benchmark OS X EI Capitan ilə işləyən 16 GB yaddaşa malik iMac 3.2G Intel Core i5-də həyata keçirilib. Benchmark nəticələrinin təkrar istehsalı üçün mənbə kodu Şəkildə təqdim olunur ??, ??, ????. Sürət testlərində ggtree kiçik və orta ölçülü istifadə edən digər paketlər, meymunfitollar -dən daha sürətlidir ggtreefiloseq. Böyük ağac üçün isə, ggtreefiloseq -dən daha sürətlidir meymunfitollar. Annotasiya olmadan sadə ağac üçün, filoseq -dən daha sürətlidir ggtree, çox qatlı ağaca şərh edərkən, ggtree hər ikisindən daha səmərəlidir OutbreakToolsfiloseq. Əlavə olaraq, ggtree isə ağac annotasiyası üçün nəzərdə tutulmuş ümumi alətlərdir OutbreakToolsfiloseq ağac annotasiyasının ümumi məqsədi üçün bir çox xüsusiyyətləri olmayan xüsusi domen üçün həyata keçirilir. ggtree həmçinin intuitiv, öyrənilməsi asan və digər paketlərdə olmayan yüksək səviyyədə fərdiləşdirməyə imkan verən qrafik qrammatikasını təmin edir. Ümumiyyətlə, performans ggtree müxtəlif ölçülü ağaclar və müxtəlif annotasiya təbəqələri ilə daha sabitdir. The ggtree ağacın vizuallaşdırılması və annotasiya problemlərinin əksəriyyətində sürətli işləyin, xüsusən də böyük ağac vizuallaşdırılması və mürəkkəb ağac annotasiyasında üstündür.


Nəticələr

Digər sahələrlə əlaqə

Standartların qəbulu qlikanların analizinin avtomatlaşdırılması istiqamətində zəruri, lakin kifayət qədər addım deyil. Qlikobioinformatikada mühüm xüsusiyyət/komponent uzaq verilənlər bazalarını birləşdirmək üçün standartlaşdırılmış yanaşmaların mövcudluğudur. NAS-ın (Milli Elmlər Akademiyası) "Glikozelmin transformasiyası: Gələcək üçün Yol Xəritəsi" adlı hesabat [3] mövcud verilənlər bazalarının əlaqəsi kəsilmiş və natamam olması səbəbindən tədqiqat ictimaiyyətinin üzləşdiyi maneələr və problemlər nümunəsidir. Təsvir edilən verilənlər bazalarında mövcud olan məlumat məzmununu birləşdirmək üçün bir sıra təşəbbüslər başlamışdır.

Məlumat kurasiyası ilə kimya və biologiyanı birləşdirin

GlycoSuiteDB [38, 39] ədəbiyyatda təsvir edilmiş müxtəlif bioloji mənbələrin qlikoproteinlərindən əldə edilən qlikan strukturlarını və bioloji əhəmiyyətli mayelərdən (məsələn, süd, tüpürcək, sidik) təcrid olunmuş sərbəst oliqosakaridləri ehtiva edir. Təcrübəli verilənlər bazası zülallara qoşulmuş qlikan strukturları üçün kontekstual məlumat verir və GlycoSuiteDB-ə çarpaz istinad edilən UniProtKB resursunda qeyd edildiyi kimi, qlikan strukturu ilə əlavə edilmiş funksional zülal arasında tez-tez itirilən əlaqəni bərpa edir. Bu verilənlər bazası EUROCarbDB, UniCarb-DB və GlycoBase daxil olmaqla digər struktur verilənlər bazalarından məlumatları daxil etmək üçün nəzərdə tutulmuş UniCarbKB-də mərkəzi qlikan struktur verilənlər bazasının əsasını təşkil edir. GlycoSuiteDB-nin məzmunu və əl ilə kurasiya prinsipləri məlumat bazasında saxlanılan məlumatların keyfiyyətini qorumaq üçün UniCarbKB-nin mərkəzi qlikan struktur məlumat bazasının əsasını təşkil edəcəkdir. UniProtKB-yə keçidlər qlikozillənmiş saytlar və xüsusi strukturlar arasında əsas məlumatları birləşdirməyə kömək edəcək.

Veb xidmətlərindən istifadə edərək qlikobioinformatika və bioinformatika arasında körpü yaratmaq

Veb xidmətləri protokolunun inkişafı bir neçə verilənlər bazasında axtarış aparmağa imkan verir. Bu cür texnologiyalar heterojen platformalar arasında qarşılıqlı əlaqəni asanlaşdıran açıq arxitektura kimi həyat elmləri sahəsində böyük diqqət qazanmışdır. Glycomics sahəsində davam edən proqram, ilkin olaraq CFG-köprü qrantı tərəfindən dəstəklənən Glycomics Database Standards (WGGDS) üzrə İşçi Qrupdur. Protokolların işlək layihəsinə http://glycomics.ccrc.uga.edu/GlycomicsWiki/Informatics:Cross-Database_Search/Protocol_%28WGGDS%29 ünvanından daxil olmaq olar. WGGDS CFG, EUROCarbDB/UniCarb-DB, GlycomeDB, GLYCOSCIENCES.de və RINGS-dən olan tərtibatçılara struktur məlumat kolleksiyalarına diqqət yetirməklə çoxsaylı, muxtar qlikomika verilənlər bazasında olan məlumatlara çıxışı təmin edən rabitə interfeysinin başlanğıcını yaratmağa imkan verdi. .

Yeni və təkmilləşdirilmiş proqramlar qurulan bəzi müəlliflər tərəfindən təqdimat vəziyyətinin ötürülməsi (REST) ​​əsaslı alətlərin tam dəsti hazırlanmışdır. Hər bir xidmət tam və ya qismən struktur üçün uzaq sorğuları dəstəkləyən və alt struktur/epitop uyğunlaşmasına imkan verən (alt) struktur axtarışına çıxışı təmin edir. Bu, yalnız struktur kodlaşdırma formatlarının universal qəbulu və dəqiq və tam qlikan tərcüməçilərinə çıxış ilə əldə edilə bilər. Burada XML əsaslı mesaj protokolunun ardıcıllıq atributu verilənlər bazası axtarışlarını yerinə yetirmək üçün asanlıqla GlycoCT və/yaxud KCF formatlarına çevrilə bilən GlydeII formatına (yuxarıya bax) uyğun gəlir. Bundan əlavə, ayrı-ayrı verilənlər bazaları molekulyar kütlə, eksperimental sübutlar əsasında axtarışa imkan vermək üçün bu xidməti genişləndirmişdir, məsələn. kütlə spektrometriyası və monosaxarid tərkibi. Bu məqsədi həyata keçirmək üçün qlikobioinformatika icmasının kodlaşdırma formatları haqqında razılığa gəlməsi və çərçivələrdə möhkəmliyi təmin etməsi vacib idi.

Mübadilə interfeysi (REST) ​​və protokol verilənlər bazası backendindən müstəqil olduğundan, WGGDS təlimatları asanlıqla digər verilənlər bazaları tərəfindən birləşdirilə və genişləndirilə bilər. Veb xidmətləri tədqiqatçılara məlumat əldə etməyə imkan verir və lazımi verilənlər bazası quraşdırmadan və saxlamadan proqramçılar üçün proqramlar yaratmaq üçün çərçivə təmin edir.

RDF istifadə edərək qlikobioinformatika və bioinformatika arasında körpü yaratmaq

Semantik Veb yanaşmaları qlikomika məkanında məlumatların uyğunluğu problemini həll etmək üçün potensial olaraq bir vasitə təklif edən çoxsaylı resurslardan məlumatların inteqrasiyasını və birləşməsini təmin edən ümumi formatlara əsaslanır. Semantik Veb həyat elmləri sahəsində artan fəal tədqiqat və böyümə sahəsidir və veb-əlçatan resurslarda (məsələn, Bio2RDF [40]) toplanmış geniş məlumat ehtiyatlarından istifadə etməklə bioinformatika təhlillərini təkmilləşdirmək qabiliyyətinə malikdir. UniProtKB kimi bir sıra ümumi əldə edilən verilənlər bazası verilənlərin inteqrasiyasını və daha mürəkkəb sorğuları dəstəkləmək üçün bir format kimi resurs təsviri çərçivəsini (RDF) [41] qəbul etmişdir.

Yaponiyada bir neçə verilənlər bazası layihələri, istifadəçilərə fərqli məlumat dəstlərinin məlumat inteqrasiyasına diqqət yetirən, İnteqrasiya edilmiş Verilənlər Bazası Layihəsinin http://lifesciencedb.jp hissəsi kimi PDBj [42] və ya JCGGDB [43] kimi RDF-nin qəbulunda iştirak etmişdir. bir son nöqtədən əldə edilə bilən hərtərəfli məlumat resursu. RDF həllərini səmərəli şəkildə həyata keçirmək üçün mövcud verilənlər bazası təminatçıları qlikan strukturunu və annotasiya məlumatlarını təmsil etmək üçün standartı razılaşdırmalıdırlar. Bu məqsədlə, BCSDB [17], GlycomeDB, JCGGDB, GLYCOSCIENCES.de və UniCarbKB daxil olmaqla əsas qlikomika verilənlər bazalarının tərtibatçıları BioHackathon 2012 http://2012.biohackathon.org zamanı RDF nəslinin prototip layihəsini və tətbiqini hazırladılar.

GlycoRDF, mürəkkəb tədqiqat suallarına cavab verən mürəkkəb məlumat qarışıqları tələbini qarşılayan gələcək düşünən birgə səydir. O, həmçinin müxtəlif omiklər üzrə məlumatların inteqrasiyasına imkan verir, bu potensial proteomika və genomika da daxil olmaqla digər sahələrdə Semantik Veb texnologiyalarının qəbulu ilə nümayiş etdirilir. GlycoRDF innovativ həlli bir çox resursdan biliyin yığılmasını tələb edir. Burada ilkin fəaliyyətlər struktur və eksperimental məlumat kolleksiyalarını əhatə edən tərəfdaşlar tərəfindən təqdim olunan zəngin məlumatlardan qaynaqlanan normallaşdırılmış RDF sənədlərinin təmin edilməsinə yönəlmişdir. Bu layihədə iştirak edən tərtibatçılar 2013-cü ildə GlycoRDF-nin ilk versiyasını buraxdılar [48].


Nəticələr

Biz göstərdik ki, strukturlaşdırılmış elmi məlumatlar ChemicalTagger-dən istifadə etməklə strukturlaşdırılmamış elmi ədəbiyyatdan çıxarıla bilər. Biz həmçinin nümayiş etdirmişik ki, mətnin öyrənilməsi və təbii dil emalı alətlərindən istifadə etməklə biz həm kimyəvi obyektləri, həm də həmin obyektlər arasındakı əlaqələri çıxara və əldə edilən məlumatları maşınla emal edilə bilən formatda əldə edə bilərik. Biz göstərdik ki, bu qrafiklər yüksək informativ vizualizasiyaların yaradılması üçün faydalıdır. Maşın hasilatı yaxşı nəticələr verə bilsə də, buna baxmayaraq, o, “informasiya arxeologiyası” aktı olaraq qalır və bu səbəbdən mütləq qeyri-kamildir. Buna görə də, biz elmi ictimaiyyəti elmi məlumatların semantik formada dərc edildiyi və həm müəlliflərin, həm də nəşriyyatların bu məlumatı açıq şəkildə təqdim etmək öhdəliyi altında hiss etdikləri bir etosa doğru hərəkət etməyə çağırırıq. Bu, əhəmiyyətli miqyasda baş versəydi, hər il milyonlarla kimyəvi sintezin avtomatik olaraq maşın tərəfindən təhlil oluna biləcəyi bir inqilaba səbəb olardı ki, bu da öz növbəsində bizim elmlə məşğul olmaq qabiliyyətimizdə əhəmiyyətli irəliləyişlərə səbəb ola bilərdi. Semantik məlumatların geniş miqyaslı mövcudluğu ilə yaradılan imkanlara aşağıdakılar daxildir:

Müəlliflərdən, rəyçilərdən və texniki emaldan yüksək keyfiyyətli məlumat əldə etməyə aparan dərc edilmiş məlumatın formal semantik yoxlanışı.

Oxucular (o cümlədən maşınlar) tərəfindən daha çox başa düşülənlik.

Reaksiya şəraitinin və nəticələrinin avtomatik təhlili.

Kimyəvi reaksiyaların daha formal təsviri.

Bununla belə, ümid edirik ki, burada nümayiş etdirilən çıxarış alətləri semantik müəlliflik ilə əvəz edilməzdən əvvəl yalnız məhdud müddətə malik olacaq.

Müəllif Hüquqlarına Nəticələr

Qeyd etmək vacibdir ki, bu çıxarış vasitələri məlumatlarla əlaqəli müəllif hüquqları ilə məhdudlaşır. Patentlər və Açıq Giriş (CC-BY) sənədləri açıq şəkildə məlumatların çıxarılmasına imkan verir. Tezislər müəllif hüququndan və ya tezis daxilindəki açıq hüquqlardan asılı ola bilər. Əksər kimya naşirləri universal olaraq Açıq Girişə malik deyillər və biz bir neçə il ərzində onlarla birbaşa cavab tapmağa çalışırıq. Müəlliflər bu məsələni hər iki xüsusi nəşriyyatla qaldırdılar (məs. Tetrahedron nəşr edən Elsevier) və STM Nəşriyyat Assosiasiyası. Elsevier bunu öz 'Universal Giriş' departamentinə istinad etdi və hazırda buna icazə verilib-verilmədiyini deyə bilmir. STM nəşriyyatları ilə biblioqrafik məlumatların açıq olması razılaşdırılıb (CC-BY və ya CC0). Hazırda hansı məlumatların çıxarılmasına dair heç bir razılaşma yoxdur.


Fon

Taksonomiyalar və ontologiyalar anlayışlar və onların əlaqələri haqqında kompleks bilikləri təşkil edir. Biologiya bu anlayışları istifadə edən ilk sahələrdən biri idi. Taksonomiyalar anlayışların və ya obyektlərin iyerarxik təsnifatına kömək edən sadələşdirilmiş sxemlərdir [1]. Onlar adətən müəyyən bir domen və bir nodu digərinə birləşdirən tək əlaqə növü ilə məhdudlaşır. Ontologiyalar taksonomiyaların iyerarxik quruluşunu bölüşür. Taksonomiyalardan fərqli olaraq, onlar çox vaxt bir çox əlaqə növlərinə malikdirlər və həqiqətən müəyyən bir intizam, domen və ya tədqiqat sahəsində varlıqların və ya anlayışların növlərinin, xassələrinin və qarşılıqlı əlaqələrinin rəsmi adlandırılmasını təmin etmək üçün nəzərdə tutulmuşdur [2, 3]. Bundan əlavə, ontologiyalar müxtəlif sahələr üzrə anlayışlar arasında əlaqələr yaratmaq üçün bir sistem təmin edir. Həm taksonomiyalar, həm də ontologiyalar elm adamlarına təbii dünya haqqında anlayışlarını izah etmək, təşkil etmək və ya təkmilləşdirməkdə kömək etmək üçün istifadə edilə bilər. Bundan əlavə, taksonomiyalar və ontologiyalar nəticə çıxarmaq/mülahizə yürütmək imkanlarını təmin etmək üçün standartlaşdırılmış lüğət kimi xidmət edə bilər. Əslində, taksonomiyalar və ontologiyalar biologiya da daxil olmaqla bir çox elmi sahələrdə geniş istifadə olunur Linnean taksonomiya) [4], geologiya (BGS Rock təsnifat sxemi) [5], subatom fizikası (Səkkiz qatlı yol) [6], astronomiya (ulduz təsnifatı sistemi) [7, 8] və farmakologiya (ATC dərman təsnifat sistemi) [9]. Ən çox istifadə olunan ontologiyalardan biri genləri və onların məhsullarını molekulyar funksiyaları, hüceyrə yerləri və bioloji prosesləri baxımından şərh etməyə xidmət edən Gen Ontologiyasıdır (GO) [10]. İnsan sitozolik fosfolipazı (PLA2G4A) və onun GO annotasiyası kimi spesifik bir fermenti nəzərə alaraq, onun substrat PC-nin hüceyrə yerini müəyyən etmək olar [14:0/22:1(13Z)] (HMDB07887). Əlavə olaraq, PLA2G4A "fosfolipid katabolik proses" GO termini ilə qeyd edildiyi üçün PC[14:0/22:1(13Z)] bu bioloji prosesin məhsulu olduğu qənaətinə gəlmək olar.

Kimyaçılar standartlaşdırılmış nomenklatura (IUPAC) və kimyəvi strukturların çəkilişi və ya mübadiləsi üçün standartlaşdırılmış metodların işlənib hazırlanmasında çox uğurlu olsalar da [11, 12], kimya sahəsində hələ də standartlaşdırılmış, hərtərəfli və aydın şəkildə müəyyən edilmiş kimyəvi taksonomiya və ya kimyəvi ontologiya yoxdur. kimyəvi strukturları xarakterizə etmək, təsnif etmək və şərh etmək. Nəticə etibarı ilə, müxtəlif kimya ixtisaslarından olan kimyaçılar tez-tez sahəyə məxsus ontologiyalar yaratmağa cəhd etdilər. Məsələn, dərman kimyaçıları kimyəvi maddələri əczaçılıq fəaliyyətlərinə (antihipertenziv, antibakterial) [9], biokimyaçılar isə kimyəvi maddələri biosintetik mənşəyinə (leykotrienlər, nuklein turşuları, terpenoidlər) görə təsnif etməyə meyllidirlər [13]. Təəssüf ki, bu müxtəlif təsnifat sxemləri üçün sadə tək-tək xəritə yoxdur, onların əksəriyyəti çox az sayda domenə xas molekullarla məhdudlaşır. Beləliklə, son onillikdə daha universal kimyəvi taksonomiya və kimyəvi ontologiyanın inkişafına marağın artması müşahidə olunur.

Bu günə qədər kimyəvi birləşmələri təsnif etməyə və təsvir etməyə yönəlmiş cəhdlərin əksəriyyəti struktur əsaslı olmuşdur. Bunun əsas səbəbi birləşmənin bioaktivliyinə onun strukturundan təsir etməsidir [14]. Üstəlik, birləşmənin strukturu müxtəlif formatlarda asanlıqla təmsil oluna bilər. Struktur əsaslı kimyəvi təsnifatın və ya ontoloji sxemlərin bəzi nümunələrinə ChEBI ontologiyası [15], Tibbi Mövzu Başlığı (MeSH) tezaurusu [16] və LIPID MAPS təsnifat sxemi [13] daxildir. Bu verilənlər bazaları və ontologiyalar/tezaurilər əladır və başqaları arasında kimyəvi zənginləşdirmə analizi [17] və biliyə əsaslanan metabolik modelin yenidən qurulması [18] daxil olmaqla müxtəlif tədqiqatlarda istifadə edilmişdir. Bununla belə, onların hamısı əl ilə hazırlanır, beləliklə, təsnifat/annotasiya prosesi bir qədər yorucu, səhvlərə meyilli və uyğunsuz olur (Şəkil 1). Bundan əlavə, onlar əhəmiyyətli insan ekspert vaxtı tələb edir, yəni bu təsnifat sistemləri məlum kimyəvi məkanın yalnız kiçik bir hissəsini əhatə edir. Məsələn, PubChem verilənlər bazasında [19], >91,000,000 birləşmənin yalnız 0,12%-i (2016-cı ilin iyun ayına olan vəziyyətə görə) MeSH tezaurusuna əsasən təsnif edilir.

a Valclavam PubChem (CID 126919) və ChEBI (CHEBI:9920) verilənlər bazasında qeyd edilmişdir. b PubChem-də kükürd birləşmələri olan beta-laktamlar sinfi səhv təyin edilmişdir. Üstəlik, sonuncu həm qeyri-üzvi, həm də üzvi ola bilsə də, tək bir birləşməni həm üzvi, həm də qeyri-üzvi kimi təsvir etmək yanlışdır. -nin keçid qabiliyyəti is_a əlaqə yerinə yetirilmir, bu da sinifdən nəticə çıxarmağı çətinləşdirir. ChEBI-də eyni birləşmə düzgün şəkildə peptid kimi təsnif edilir. Bununla belə, PubChem-də olduğu kimi, annotasiya natamamdır. Digərləri arasında "klavamlar" və "azetidinlər" üçün sinif tapşırıqları yoxdur

Qeyd etməyə dəyər bir neçə başqa, köhnə və ya az tanınan kimyəvi təsnifat sxemləri, ontologiyaları və ya taksonomiyaları var. Kimyəvi Parçalanma Kodlaşdırma sistemi [20] bəlkə də ən qədim taksonomiya və ya kimyəvi təsnifat sxemidir. 1963-cü ildə Derwent World Patent Index (DWPI) tərəfindən patentlərdə bildirilən kimyəvi birləşmələrin əl ilə təsnifatını asanlaşdırmaq üçün hazırlanmışdır. Sistem əvvəlcədən müəyyən edilmiş, kimyəvi cəhətdən əhəmiyyətli struktur fraqmentləri dəstinə uyğun gələn 2200 ədədi koddan ibarətdir. Sistem hələ də bu kodlara patentləşdirilmiş kimyəvi maddələri əl ilə təyin edən Derwent indeksçiləri tərəfindən istifadə olunur. Bununla belə, sistem köhnəlmiş və mürəkkəb hesab olunur. Eynilə, kimyəvi parçalanma kodlarından istifadə təcrübə və mütəxəssisin geniş rəhbərliyini tələb edir. Derwent indeksinin daha avtomatlaşdırılmış alternativi 1970-ci illərdə HOSE (Sferik Mühitlərin İyerarxik Təşkilatı) kodu adlanan kod [21] adlanaraq hazırlanmışdır. Bu iyerarxik alt quruluş sistemi atomları və tam halqaları sferik mühit baxımından avtomatik olaraq xarakterizə etməyə imkan verir. O, NMR kimyəvi yerdəyişmə proqnozunda geniş istifadə olunan asanlıqla həyata keçirilən alqoritmdən istifadə edir. Bununla belə, HOSE sistemi nə adlandırılmış kimyəvi kateqoriya təyinatı, nə də ontologiya və ya müəyyən kimyəvi taksonomiya təmin etmir. Bu yaxınlarda Kimyəvi Ontologiya (CO) sistemi [22] təsvir edilmişdir. Gen Ontologiyası (GO) sisteminə analoji olaraq dizayn edilmiş CO rəsmiləşdirilən ilk açıq mənbəli, avtomatlaşdırılmış funksional qrup ontologiyalarından biri idi. CO funksional qrupları pulsuz olaraq mövcud proqram olan Checkmol [23] tərəfindən verilmiş struktura avtomatik təyin edilə bilər. CO-nun funksional qrupların təyin edilməsi dəqiq və ardıcıldır və bir neçə kiçik verilənlər bazasına tətbiq edilmişdir. Bununla belə, CO sistemi sadəcə olaraq məhduddur

200 kimyəvi qrup və buna görə də kimyəvi məkanın yalnız çox məhdud bir hissəsini əhatə edir. Bundan əlavə, Checkmol çox yavaşdır və çox böyük məlumat dəstlərində istifadə etmək qeyri-mümkündür. SODIAC [24] avtomatik birləşmə təsnifatı üçün başqa perspektivli vasitədir. O, hərtərəfli kimyəvi ontologiyadan və zərif struktur əsaslı düşünmə məntiqindən istifadə edir. SODIAC birləşmələrin çox sürətli və ardıcıl təsnifatına imkan verən yaxşı işlənmiş kommersiya proqram paketidir. Əsas kimyəvi ontologiya sərbəst şəkildə yüklənə bilər və qapalı mənbə olan SODIAC proqramı akademiklər üçün pulsuzdur. Onun qapalı mənbə olması ictimaiyyətin rəyi və ya inkişafı imkanlarını açıq şəkildə məhdudlaşdırır. Bundan əlavə, SODIAC ontologiyası əksər terminlər üçün mətn tərifləri vermir və qeyri-üzvi və orqano-metal birləşmələri əhatə etməklə məhdudlaşır. Kimyəvi təsnifata və ya klasterləşdirməyə yönəlmiş digər diqqətəlayiq səylərə Şuffenhauer və digərləri tərəfindən təqdim edilən iterativ iskele parçalanma metodu olan Maksimum Ümumi Alt Yapıya (MCS) əsaslanan üsullar daxildir [25, 26]. [27] və Chepelev et al tərəfindən təsvir edilən semantik əsaslı metod. [28]. Bununla belə, bunların əksəriyyəti prinsipin sübutu üsullarıdır və zəngin kimyəvi məkanın yalnız kiçik bir hissəsini əhatə edən az sayda mürəkkəb siniflərdə təsdiq edilmişdir. Üstəlik, onlar çox məlumat dəstindən asılıdırlar. Nəticə etibarı ilə təsnifatlar kimyəvi cəmiyyətin, xüsusən də mürəkkəb birləşmə sinifləri üçün nomenklatura gözləntilərinə uyğun gəlmir.

Ümumilikdə, aydın olmalıdır ki, kimyəvi taksonomiyalar və ya ontologiyalar yaratmaq üçün bir çox cəhdlər edilsə də, bir çoxu mülkiyyətə məxsusdur və ya “qapalı mənbədir”, əksəriyyəti əl ilə təhlil və ya annotasiya tələb edir, əksəriyyətinin əhatə dairəsi məhduddur və bir çoxları mənalı adlar, təriflər təqdim etmir. və ya deskriptorlar. Bu çatışmazlıqlar kimyaçıların (yəni, domen ekspertlərinin) və cəmiyyətin gözləntilərinə uyğun gələn nəticələr yaradan güclü ontologiyalara malik açıq girişli, açıq mənbəli, sürətli, tam avtomatlaşdırılmış, hərtərəfli kimyəvi təsnifat vasitələrinin hazırlanması ehtiyacını vurğulayır. Bundan əlavə, bu cür alətlər kimyəvi maddələri təhlil edilən kimyəvi obyektin növündən asılı olmayan ardıcıl şəkildə sürətlə təsnif etməlidir.

Tam avtomatlaşdırılmış, hərtərəfli kimyəvi təsnifat vasitəsinin inkişafı həm də taksonomiya və ya ontologiya olmasından asılı olmayaraq dəqiq müəyyən edilmiş kimyəvi iyerarxiyanın istifadəsini tələb edir. Bu o deməkdir ki, iyerarxiyanın qurulması üçün meyarlar, əlaqə növləri və iyerarxiyanın əhatə dairəsi aydın şəkildə müəyyən edilməlidir. Bundan əlavə, aydın təsnifat qaydaları və hərtərəfli məlumat lüğəti (və ya ontologiyası) lazımdır. Bundan əlavə, hərtərəfli kimyəvi təsnifat taksonomiya/ontologiyada mövcud olan kimyəvi kateqoriyaların kompüter tərəfindən şərh edilə bilən formatda dəqiq təsvir edilməsini tələb edir. Yeni kimyəvi birləşmələr və yeni “kimyalar” daim inkişaf etdirildiyi və ya kəşf edildiyi üçün taksonomiya/ontologiya çevik olmalıdır və hər hansı genişləndirmə təsnifat prosedurunun əsaslı şəkildə dəyişdirilməsini məcbur etməməlidir. Bu baxımdan Hasting et al. [29] ağıllı kimyəvi quruluşa əsaslanan təsnifat sisteminin inkişafını asanlaşdıracaq prinsiplərin siyahısını təklif etdi. Bu sxemdə əsas meyarlardan biri kompozisiyadan istifadə edərək müxtəlif elementar xüsusiyyətlərin mürəkkəb kateqoriya təriflərində birləşdirilməsinin mümkünlüyüdür. Bu, çox vacibdir, çünki kimyəvi siniflər struktur olaraq müxtəlifdir. Bundan əlavə, onların əsas strukturlarının dəqiq təsviri bəzən əvəzetmə nümunələri kimi məhdudiyyətləri ifadə etmək qabiliyyətini tələb edir. Bu gün buna SMiles Arbitrary Target Specification (SMARTS) formatı kimi məntiqi birləşdiricilərdən və struktur idarəetmə texnologiyalarından istifadə etməklə müəyyən dərəcədə nail olmaq olar.

Bu yazıda biz hərtərəfli, çevik, hesablana bilən, kimyəvi taksonomiyanı, tam şərh edilmiş kimyəvi ontologiya (ChemOnt) və Kimyəvi Təsnifat Lüğətini təsvir edirik. Bu komponentlər, mahiyyətcə bütün məlum kimyəvi obyektlərin avtomatlaşdırılmış qaydalara əsaslanan struktur təsnifatına icazə verən ClassyFire adlı veb-əlçatan kompüter proqramının əsasını təşkil edir. ClassyFire bir sıra müasir hesablama texnikalarından istifadə edir və əvvəllər qeyd olunan sistemlərin və proqram vasitələrinin məhdudiyyətlərinin əksəriyyətini aşır. Bu yazı həmçinin ClassyFire-ın əsasını, onun təsnifat qaydalarını, taksonomiyasının dizaynını, sınaq şəraitində performansını və potensial tətbiqlərini təsvir edir. ClassyFire, DrugBank [30]-da >6000 molekulları, LIPID MAPS Lipidomics Gateway [31]-də >25,000 molekulları, HMDB-də [32], >4100, >4100, >4100 molekullarını təsnif etmək və şərh etmək üçün uğurla istifadə edilmişdir. və başqaları arasında PubChem [19]-da >60,000,000 molekul. Bu birləşmələr dərmanlar, lipidlər, qida birləşmələri, toksinlər, fitokimyəvi maddələr və bir çox digər təbii, eləcə də sintetik molekullar kimi kimyəvi növlərin geniş spektrini əhatə edir. ClassyFire pulsuz olaraq http://classyfire.wishartlab.com saytında mövcuddur. Bundan əlavə, Ruby-də yazılmış ClassyFire API ClassyFire serverinə və verilənlər bazasına proqramlı girişi təmin edir. O, https://bitbucket.org/wishartlab/classyfire_api ünvanında mövcuddur.


Qlikan adlarını ağac strukturlarına avtomatik təhlil etmək üçün alətlər varmı? - Biologiya

Versiya 5.9.1

Link Grammar Parser ingilis, rus, ərəb, fars dillərinin linqvistik (təbii dil) strukturunu və yarım onlarla digər dillərin məhdud alt qruplarını nümayiş etdirir. Bu struktur cümlədəki sözlər arasında tiplənmiş əlaqələrin (kənarların) qrafikidir. Bu müxtəlif formatlara çevirmək üçün qaydalar toplusunu tətbiq etməklə Link Grammar-dan daha ənənəvi HPSG (təsisçi) və asılılıq üslubu təhlillərini əldə edə bilərsiniz. Bu mümkündür, çünki Link Grammar cümlənin “sintaktik-semantik” strukturuna bir qədər “dərin” gedir: o, adi təhlilçilərdə mövcud olandan xeyli daha incə və ətraflı məlumat verir.

Link Grammar təhlili nəzəriyyəsi ilk olaraq 1991-ci ildə Karnegi Mellon Universitetinin dilçilik və kompüter elmləri professorları Davy Temperley, John Lafferty və Daniel Sleator tərəfindən hazırlanmışdır. Bu nəzəriyyəyə dair üç ilkin nəşr o vaxtdan bəri ən yaxşı girişi və icmalı təmin edir, ideyaları daha da araşdıran, araşdıran və genişləndirən yüzlərlə nəşr var.

Orijinal Carnegie-Mellon kod bazasına əsaslansa da, mövcud Link Grammar paketi kəskin şəkildə inkişaf edib və əvvəlki versiyalardan dərindən fərqlənir. Saysız-hesabsız səhv düzəlişləri var, performans bir miqyasdan daha çox yaxşılaşıb. Paket tam çox yivlidir, tam UTF-8 aktivdir və buludda yerləşdirməyə imkan verən təhlükəsizlik üçün təmizlənib. İngilis dilinin təhlili əhatə dairəsi kəskin şəkildə yaxşılaşdırıldı, digər dillər də əlavə edildi (əsasən rus dili). Morfologiyaya dəstək, log-ehtimallı semantik seçim və ağ boşluqla ayrılmış cümlə bölgüsündən çox kənara çıxan mürəkkəb tokenizer daxil olmaqla bir çox yeni funksiyalar mövcuddur. Ətraflı siyahıları ChangeLog-da tapa bilərsiniz.

Bu kod LGPL lisenziyası altında buraxılır və onu həm şəxsi, həm də kommersiya məqsədləri üçün bir neçə məhdudiyyətlə sərbəst şəkildə əlçatan edir. Lisenziyanın şərtləri bu proqram təminatına daxil olan LİSENZİYA faylında verilmişdir.

Əlavə məlumat üçün əsas veb səhifəsinə baxın. Bu versiya orijinal CMU analizatorunun davamıdır.

5.9.0 versiyasından etibarən sistemə cümlələr yaratmaq üçün eksperimental sistem daxildir. Bunlar "boşluqları doldurun" API-dən istifadə etməklə müəyyən edilir, burada nəticə qrammatik cəhətdən etibarlı cümlə olduqda sözlər vəhşi yerlərə əvəz olunur. Əlavə təfərrüatlar man səhifəsindədir: man link-generator (man alt kataloqunda).

Bu generator, süni neyron şəbəkələrində (dərin öyrənmə) tapılanlara bir qədər oxşar, lakin açıq şəkildə simvolik təsvirlərdən istifadə edərək, tamamilə yeni və innovativ məlumat nəzəri üsullarından istifadə edərək, Link Grammars-ı korporadan avtomatik öyrənməyi hədəfləyən OpenCog Language Learning layihəsində istifadə olunur. .

Parser müxtəlif müxtəlif proqramlaşdırma dillərində API-ləri, eləcə də onunla oynamaq üçün lazımlı əmr xətti alətini ehtiva edir. Budur bəzi tipik çıxış:

Bu kifayət qədər məşğul ekran çox maraqlı şeyləri göstərir. Məsələn, Ss*b əlaqəsi fel ilə mövzunu birləşdirir və mövzunun tək olduğunu bildirir. Eynilə, Ost əlaqəsi fel ilə obyekti birləşdirir və eyni zamanda obyektin tək olduğunu göstərir. WV (fel-divar) əlaqəsi cümlənin baş felini, Wd əlaqəsi isə baş ismə işarə edir. Xp keçidi arxadakı durğu işarələrinə qoşulur. Ds**c əlaqəsi isimi təyinediciyə bağlayır: ismin tək olduğunu, həmçinin ismin samitlə başladığını bir daha təsdiq edir. (Burada tələb olunmayan PH linki 'a' hərfini 'an'dan fərqləndirən fonetik razılığa məcbur etmək üçün istifadə olunur). Bu keçid növləri İngilis Link Sənədlərində sənədləşdirilmişdir.

Ekranın aşağı hissəsində hər bir söz üçün istifadə olunan "disjuncts" siyahısı var. Ayrılmalar sadəcə olaraq əlaqələri yaratmaq üçün istifadə olunan bağlayıcıların siyahısıdır. Onlar xüsusilə maraqlıdır, çünki onlar "nitq hissəsi"nin son dərəcə incə dənəli forması kimi xidmət edir. Beləliklə, məsələn: S-O+ ayırması keçidli feli göstərir: bu həm subyekti, həm də obyekti götürən bir feldir. Yuxarıdakı əlavə işarələmə göstərir ki, 'is' yalnız keçidli fel kimi istifadə edilmir, həm də daha incə təfərrüatları göstərir: tək bir mövzu götürən və cümlənin baş feli kimi istifadə olunan keçid fel. Üzən nöqtə dəyəri disjunktun "qiymətidir" və bu xüsusi qrammatik istifadənin log-ehtimalının ideyasını çox kobud şəkildə əks etdirir. Nitq hissələri söz mənaları ilə çox əlaqəli olduğu kimi, nitq hissələri də daha incə məna fərqləri və dərəcələri ilə əlaqələndirilir.

Link-qrammatik təhlili də morfoloji təhlili dəstəkləyir. Budur rus dilində bir nümunə:

LL əlaqəsi 'test' kökünü 'a' şəkilçisi ilə birləşdirir. MVA əlaqəsi yalnız şəkilçiyə bağlanır, çünki rus dilində bütün sintaktik quruluşu daşıyan şəkilçilərdir, kökləri deyil. Rus leksikası burada sənədləşdirilmişdir.

Geniş icmal və xülasə nəzəriyyənin idxal, əsas aspektlərinin əksəriyyətinə toxunan Link Grammar Wikipedia səhifəsində tapıla bilər. Bununla belə, bu mövzuda dərc edilmiş orijinal məqalələri əvəz etmir:

  • Daniel D. K. Sleator, Davy Temperley, "Parsing English with a Link Grammar" Oktyabr 1991 CMU-CS-91-196.
  • Daniel D. Sleator, Davy Temperley, "Parsing English with a Link Grammar", Təhlil Texnologiyaları üzrə Üçüncü Beynəlxalq Seminar (1993).
  • Dennis Grinberg, John Lafferty, Daniel Sleator, "A Roust Parsing Algorithm for Link Grammars", Avqust 1995 CMU-CS-95-125.
  • John Lafferty, Daniel Sleator, Davy Temperley, "Qrammatik Triqramlar: Bağlantı Qrammatikasının Ehtimal Modeli", 1992 Təbii Dilə Ehtimallı Yanaşmalar üzrə AAAI Simpoziumu.

Əsas Link Grammar veb saytında sadalanan daha çox məqalə və istinadlar var.

Həmçinin C/C++ API sənədlərinə baxın. Python3, java və node.js daxil olmaqla digər proqramlaşdırma dilləri üçün bağlamaları bağlamalar kataloqunda tapmaq olar. (İki javascript bağlama dəsti var: biri kitabxana API üçün, digəri isə komanda xətti təhlilçisi üçün.)

Məzmun Təsvir
LİSENZİYA İstifadə şərtlərini təsvir edən lisenziya
link-qrammatika/*.c Proqram. (ANSI-C-də yazılmışdır)
---- ----
bağlamalar/autoit/ İsteğe bağlı AutoIt dil bağlamaları.
bağlamalar/java/ Könüllü Java dili bağlamaları.
bağlamalar/js/ Könüllü JavaScript dili bağlamaları.
bağlamalar/lisp/ Könüllü Common Lisp dil ​​bağlamaları.
bağlamalar/node.js/ Könüllü node.js dil bağlamaları.
bağlamalar/ocaml/ Könüllü OCaML dil bağlamaları.
bağlamalar/python/ Könüllü Python3 dil bağlamaları.
bağlamalar/python nümunələri/ Link-qrammatika test paketi və Python dilinin məcburi istifadə nümunəsi.
bağlamalar/swig/ SWIG interfeys faylı, digər FFI interfeysləri üçün.
bağlamalar/vala/ Könüllü Vala dili bağlamaları.
---- ----
data/az/ Ingilis dili lüğətlər.
data/en/4.0.dict Lüğət təriflərini ehtiva edən fayl.
data/en/4.0.knowledge Emal sonrası bilik faylı.
data/en/4.0.constituents Təsisçi bilik faylı.
data/en/4.0.affiks Affiks (prefiks/şəkilçi) faylı.
data/en/4.0.regex Daimi ifadəyə əsaslanan morfologiya təxminçisi.
data/en/tiny.dict Kiçik bir lüğət nümunəsi.
data/az/sözlər/ Söz siyahıları ilə dolu bir kataloq.
data/en/corpus*.top Test üçün istifadə olunan nümunə korpus.
---- ----
data/ru/ Tam hüquqlu rus dili lüğəti
data/ar/ Kifayət qədər tam ərəb lüğəti
data/fa/ Farsca (farsca) lüğət
data/de/ Kiçik bir prototip Alman lüğəti
data/lt/ Kiçik bir prototip Litva lüğəti
data/id/ Kiçik bir prototip İndoneziya lüğəti
data/vn/ Kiçik bir prototip Vyetnam lüğəti
data/o/ Eksperimental İvrit lüğəti
data/kz/ Eksperimental qazax lüğəti
data/tr/ Eksperimental türkcə lüğəti
---- ----
morfologiya/ar/ Ərəb morfologiyası analizatoru
morfologiya/fa/ Fars morfologiyası analizatoru
---- ----
LİSENZİYA Bu kod və məlumat üçün lisenziya
ChangeLog Son dəyişikliklərin toplusu.
konfiqurasiya edin GNU konfiqurasiya skripti
autogen.sh Tərtibatçının konfiqurasiya baxım aləti
debug/ Kitabxananın sazlanması haqqında məlumat
msvc/ Microsoft Visual-C layihə faylları
mingw/ MSYS və ya Cygwin altında MinGW-dən istifadə haqqında məlumat

BAĞLAMA və imzanın yoxlanılması

Sistem adi tar.gz formatından istifadə etməklə paylanır, onu əmr satırında tar -zxf link-grammar.tar.gz əmrindən istifadə etməklə çıxarmaq olar.

Ən son versiyanın tarballunu aşağıdakı ünvandan yükləmək olar:
http://www.abisource.com/downloads/link-grammar

Fayllar endirmə zamanı verilənlər bazasında heç bir pozulma olmadığına əmin olmaq və üçüncü tərəflər tərəfindən kodun daxili hissələrinə zərərli dəyişikliklərin edilməməsinə kömək etmək üçün rəqəmsal imzalanıb. İmzaları gpg əmri ilə yoxlamaq olar:

gpg --verify link-qrammatika-5.9.1.tar.gz.asc

(tarix istisna olmaqla) ilə eyni nəticə yaratmalı olan:

Alternativ olaraq, md5 yoxlama məbləğləri yoxlanıla bilər. Bunlar kriptoqrafik təhlükəsizliyi təmin etmir, lakin sadə korrupsiyanı aşkar edə bilirlər. Yoxlama məbləğlərini yoxlamaq üçün əmr satırında md5sum -c MD5SUM yazın.

Git-də teqlər aşağıdakıları yerinə yetirməklə yoxlana bilər:

Link-qrammatika paylaşılan kitabxanasını və nümayiş proqramını tərtib etmək üçün əmr satırına yazın:

Quraşdırmaq üçün istifadəçini "root" olaraq dəyişdirin və deyin

Bu, liblink-grammar.so kitabxanasını /usr/local/lib , başlıq fayllarını /usr/local/include/link-grammar , və lüğətləri /usr/local/share/link-grammar qovluğuna quraşdıracaq. Ldconfig-in işə salınması paylaşılan kitabxana keşini yenidən quracaq. Quraşdırmanın uğurlu olduğunu yoxlamaq üçün işə salın (kök olmayan istifadəçi kimi)

Əlavə sistem kitabxanaları

Link-qrammatika kitabxanası konfiqurasiya müəyyən kitabxanaları aşkar etdikdə avtomatik aktivləşdirilən əlavə funksiyalara malikdir. Bu kitabxanalar əksər sistemlərdə isteğe bağlıdır və əgər onların əlavə etdiyi xüsusiyyət istənirsə, konfiqurasiyadan əvvəl müvafiq kitabxanalar quraşdırılmalıdır.

Kitabxana paketinin adları müxtəlif sistemlərdə dəyişə bilər (lazım olduqda Google ilə məsləhətləşin. ). Məsələn, adlara -dev əvəzinə -devel daxil ola bilər və ya ümumiyyətlə onsuz ola bilər. Kitabxana adları lib prefiksi olmadan ola bilər.

  • libsqlite3-dev (SQLite ilə dəstəklənən lüğət üçün)
  • libz1g-dev və ya libz-devel (hazırda paketlənmiş minisat2 üçün lazımdır)
  • libedit-dev (Editline-a baxın)
  • libhunspell-dev və ya libaspell-dev (və müvafiq ingilis lüğəti).
  • libtre-dev və ya libpcre2-dev (adətən libc REGEX tətbiqindən daha sürətli və FreeBSD və Cygwin-də düzgünlük üçün tələb olunur)

Qeyd: BSD-dən əldə edilən əməliyyat sistemləri (o cümlədən macOS) link-generator proqramını qurmaq üçün argp müstəqil kitabxanasına ehtiyac duyur.

Əgər libedit-dev quraşdırılıbsa, yuxarı və aşağı ox düymələri əvvəlki qeydləri xatırlayacaq. İstəyirsiniz ki, bu, sınaq və redaktəni çox asanlaşdırır.

node.js bağlamalarının iki versiyası daxil edilmişdir. Bir versiya kitabxananı əhatə edir, digəri əmr satırı alətini bağlamaq üçün emscripten istifadə edir. Kitabxana bağlamaları bindings/node.js-də, emscripten sarğı isə bindings/js-dədir.

Bunlar npm istifadə edərək qurulur. Əvvəlcə əsas C kitabxanasını qurmalısınız. Sonra aşağıdakıları edin:

Bu, kitabxana bağlamalarını yaradacaq və həmçinin kiçik bir vahid testini keçirəcək (keçməlidir). Nümunə bindings/node.js/examples/simple.js-də tapıla bilər.

Komanda xətti sarğı üçün aşağıdakıları edin:

Python3 bağlamaları müvafiq Python inkişaf paketlərinin quraşdırılması şərti ilə standart olaraq qurulur. (Python2 bağlamaları artıq dəstəklənmir.)

  • Linux:
    • 'rpm' paketlərindən istifadə edən sistemlər: python3-devel
    • 'Deb' paketlərindən istifadə edən sistemlər: python3-dev
    • Python3-ü https://www.python.org/downloads/windows/ saytından quraşdırın. Siz həmçinin http://www.swig.org/download.html saytından SWIG quraşdırmalısınız.
    • HomeBrew istifadə edərək python3 quraşdırın. Qeyd: Anaconda Python-un son versiyaları ilə qurma prosesi uğurla başa çatır, lakin nəticələnən modulun yüklənməsi qəzaya səbəb olur. Əgər siz macOS tərtibatçısınızsa, bu işdə bizə kömək lazımdır. GitHub deposunda müvafiq məsələlərə baxın (orada "anaconda" axtarın).
      Anakonda.

    QEYD: Konfiqurasiyanı verməzdən əvvəl (aşağıya baxın) PATH istifadə edərək tələb olunan python versiyalarının işə salına biləcəyini təsdiqləməlisiniz.

    Python bağlamalarının istifadəsi OPSİYONAL Python ilə link-qrammatikadan istifadə etməyi planlaşdırmırsınızsa, bunlara ehtiyacınız yoxdur. Python bağlamalarını deaktiv etmək istəyirsinizsə, istifadə edin:

    linkgrammar.py modulu Python-da yüksək səviyyəli interfeys təmin edir. example.py və sentence-check.py skriptləri demo təqdim edir və tests.py vahid testlərini həyata keçirir.

    Varsayılan olaraq, Makefile Java bağlamalarını qurmağa çalışır. Java bağlamalarının istifadəsi OPSİYONAL Java ilə link-qrammatikadan istifadə etməyi planlaşdırmırsınızsa, bunlara ehtiyacınız yoxdur. Aşağıdakı kimi söndürməklə Java bağlamalarının qurulmasını atlaya bilərsiniz:

    Əgər jni.h tapılmazsa və ya qarışqa tapılmazsa, java bağlamaları qurulmayacaq.

    jni.h tapmaq haqqında qeydlər:
    Bəzi ümumi java JVM paylamaları (əsasən, Sun-dan olanlar) bu faylı avtomatik olaraq tapmaq mümkün olmayan qeyri-adi yerlərdə yerləşdirir. Bunu aradan qaldırmaq üçün JAVA_HOME mühit dəyişəninin düzgün qurulduğundan əmin olun. Konfiqurasiya skripti $JAVA_HOME/Headers-də və $JAVA_HOME/include-də jni.h-ni axtarır, həmçinin $JDK_HOME üçün müvafiq yerləri yoxlayır. jni.h hələ də tapıla bilmirsə, CPPFLAGS dəyişəni ilə yeri qeyd edin: belə ki, məsələn,

    Nəzərə alın ki, /opt istifadəsi qeyri-standartdır və əksər sistem alətləri orada quraşdırılmış paketləri tapa bilməyəcək.

    /usr/local quraşdırma hədəfi standart GNU konfiqurasiya --prefiks seçimindən istifadə etməklə aşıla bilər, məsələn:

    pkg-config istifadə etməklə (aşağıya bax) qeyri-standart quraşdırma yerləri avtomatik aşkarlana bilər.

    Əlavə konfiqurasiya seçimləri tərəfindən çap olunur

    Sistem sınaqdan keçirilib və 32 və 64 bitlik Linux sistemlərində, FreeBSD, macOS, həmçinin Microsoft Windows sistemlərində yaxşı işləyir. Xüsusi OS-dən asılı qeydlər izlənilir.

    Son istifadəçilər tarball-u endirməlidirlər (baxın AÇMA və imzanın yoxlanması).

    Cari GitHub versiyası tərtibatçılar üçün nəzərdə tutulub (o cümlədən, düzəliş, yeni funksiya və ya təkmilləşdirmə təmin etmək istəyən hər kəs). Usta filialın ucu tez-tez qeyri-sabitdir və inkişaf mərhələsində olduğu üçün bəzən pis kod ola bilər. O, həmçinin standart olaraq quraşdırılmayan inkişaf alətlərinin quraşdırılmasını tələb edir. Bu səbəbdən, adi son istifadəçilər üçün GitHub versiyasının istifadəsi tövsiyə edilmir.

    Onu klonlayın: git clone https://github.com/opencog/link-grammar.git
    Və ya ZIP olaraq yükləyin:
    https://github.com/opencog/link-grammar/archive/master.zip

    Link-qrammatika qurmadan əvvəl quraşdırma tələb oluna biləcək alətlər:

    make (gmake variantı lazım ola bilər)
    m4
    gcc və ya cingilti
    autoconf
    libtool
    autoconf-arxiv
    pkg-konfiqurasiya
    pip və/və ya pip3 (Python bağlamaları üçün)

    Könüllü:
    swig (dil bağlamaları üçün)
    əyilmək
    Apache Ant (Java bağlamaları üçün)
    graphviz (söz-qrafik göstərmə xüsusiyyətindən istifadə etmək istəsəniz)

    GitHub versiyasında konfiqurasiya skripti yoxdur. Onu yaratmaq üçün istifadə edin:

    Səhvlərlə qarşılaşsanız, yuxarıda sadalanan inkişaf paketlərini quraşdırdığınızdan və sistem quraşdırmanızın güncəl olduğundan əmin olun. Xüsusilə, çatışmayan autoconf və ya autoconf-arxiv qəribə və yanıltıcı xətalara səbəb ola bilər.

    Davam etmək haqqında ətraflı məlumat üçün sistemin YARADILMASI bölməsində və ondan sonrakı müvafiq bölmələrdə davam edin.

    Tərtibatçılar üçün əlavə qeydlər

    Konfiqurasiya etmək üçün debug rejimi, istifadə edin:

    O, bir neçə məlumat strukturunu olduqca çap edə bilən bəzi doğrulama sazlama kodunu və funksiyaları əlavə edir.

    Sazlama üçün faydalı ola biləcək xüsusiyyət söz qrafiki ekranıdır. Onu aktivləşdirmək üçün konfiqurasiya seçimindən istifadə edin --enable-wordgraph-display. Bu xüsusiyyət haqqında ətraflı məlumat üçün Word-qrafik ekranına baxın.

    Mövcud konfiqurasiyada gcc istifadə edildikdə açıq-aydın standart C++ kitabxanasının qarışdırılması problemi var (düzəliş xoşdur). Bununla belə, FreeBSD-də ümumi təcrübə clang ilə tərtib etməkdir və bu problem yoxdur. Bundan əlavə, əlavə paketlər /usr/local altında quraşdırılır.

    Beləliklə, konfiqurasiya necə çağırılmalıdır:

    Qeyd edək ki, pcre2 tələb olunan paketdir, çünki mövcud libc regex tətbiqi lazımi səviyyədə regex dəstəyinə malik deyil.

    Bəzi paketlərin əvvəlki bölmələrdə qeyd olunanlardan fərqli adları var:

    minisat (minisat2) pkgconf (pkg-config)

    Düz vanil Link Grammar yuxarıda göstərildiyi kimi Apple macOS-da mükəmməl şəkildə tərtib edilməli və işləməlidir. Hazırda heç bir problem bildirilməyib.

    Əgər java bağlamalarına ehtiyacınız yoxdursa, demək olar ki, mütləq aşağıdakılarla konfiqurasiya etməlisiniz:

    Varsayılan olaraq, java 64-bit binar tələb edir və bütün macOS sistemlərində 64-bit inkişaf mühiti quraşdırılmayıb.

    Əgər Java bağlamalarını istəyirsinizsə, JDK_HOME mühit dəyişənini <Headers/jni.h> olduğu yerdə təyin etməyi unutmayın. JAVA_HOME dəyişənini java kompilyatorunun yerinə təyin edin. Qarışqa quraşdırdığınızdan əmin olun.

    GitHub-dan qurmaq istəyirsinizsə (bax GitHub repozitoriyasından BİNA) HomeBrew istifadə edərək orada sadalanan alətləri quraşdıra bilərsiniz.

    Windows-da link-qrammatikanı tərtib etməyin üç müxtəlif yolu var. Bunun bir yolu Windows üçün Linux uyğunluq qatını təmin edən Cygwin-dən istifadə etməkdir. Başqa bir yol MSVC sistemindən istifadə etməkdir. Üçüncü yol, Windows proqramlarını tərtib etmək üçün Gnu alətlər dəstindən istifadə edən MinGW sistemindən istifadə etməkdir. Mənbə kodu Vista-dan Windows sistemlərini dəstəkləyir.

    Cygwin üsulu hazırda ən yaxşı nəticə verir, çünki o, əmrin tamamlanması və tarixçəsi ilə sətirlərin redaktəsini dəstəkləyir və həmçinin X-windows-da söz qrafikinin göstərilməsini dəstəkləyir. (MinGW-də hazırda libedit yoxdur və MSVC portu hazırda əmrin tamamlanması və tarixçəsi, orfoqrafik və X-Windows söz qrafiki ekranını dəstəkləmir.)

    Link-qrammatika POSIX standart regex kitabxanalarının işlək versiyasını tələb edir. Bunlar Microsoft tərəfindən təmin edilmədiyi üçün surəti başqa yerdə əldə edilməlidir. Populyar seçimlərdən biri TRE-dir.

    Windows-da BİNA (Cygwin)

    Link-qrammatikanın MS Windows-da işləməsinin ən asan yolu POSIX sistemlərində işləyən proqram təminatını Windows-a portlamağa imkan verən Windows üçün Linux-a bənzər mühit olan Cygwin-dən istifadə etməkdir. Cygwin-i yükləyin və quraşdırın.

    Qeyd edək ki, pcre2 paketinin quraşdırılması tələb olunur, çünki libc REGEX tətbiqi kifayət qədər bacarıqlı deyil.

    Windows-da BİNA (MinGW)

    Link-qrammatika qurmağın başqa bir yolu Windows üçün POSIX-ə uyğun proqramları tərtib etmək üçün GNU alətlər dəstindən istifadə edən MinGW-dən istifadə etməkdir. MinGW/MSYS2-dən istifadə Windows üçün işlək Java bağlamalarını əldə etməyin ən asan yoludur. msys2.org saytından MinGW/MSYS2 yükləyin və quraşdırın.

    Qeyd edək ki, pcre2 paketinin quraşdırılması tələb olunur, çünki libc REGEX tətbiqi kifayət qədər bacarıqlı deyil.

    Windows-da TİKİLMƏ və İŞLƏMƏ (MSVC)

    Microsoft Visual C/C++ layihə faylları msvc kataloqunda tapıla bilər. İstiqamətlər üçün oradakı README.md faylına baxın.

    Proqramı işə salmaq üçün əmr verin (bu, PATH-dədir):

    Bu proqramı işə salır. Proqramda bir çox istifadəçi tərəfindən təyin olunan dəyişənlər və seçimlər var. Bunları link-parser sorğusuna !var daxil etməklə göstərmək olar. !help-ə daxil olmaq bəzi əlavə əmrləri göstərəcək.

    Lüğətlər 2 hərfdən ibarət dil kodu olan qovluqlarda yerləşdirilib. Link-parser proqramı birbaşa və ya verilənlər qovluğu adları altında belə bir dil kataloqunu həmin ardıcıllıqla axtarır:

    1. Cari qovluğunuz altında.
    2. MSVC ilə tərtib edilmədikdə və ya Windows konsolu altında işləmədikdə: Quraşdırılmış yerdə (adətən /usr/local/share/link-grammar ).
    3. Windows-da tərtib edilərsə: Link-parser icra edilə bilən kataloqda (skript ola bilən link-parser əmrindən fərqli yerdə ola bilər).

    Əgər link-parser istədiyiniz lüğəti tapa bilmirsə, problemi aradan qaldırmaq üçün 3-cü səviyyəni istifadə edin, məsələn:

    Digər yerlər əmr satırında göstərilə bilər, məsələn:

    Qeyri-standart yerlərdə lüğətlərə daxil olduqda, standart fayl adları hələ də qəbul edilir (yəni. 4.0.dict, 4.0.affiks, və s.).

    Rus lüğətləri data/ru dilindədir. Beləliklə, rus analizatoru aşağıdakı kimi başlaya bilər:

    Link-parser-ə arqument təqdim etməsəniz, o, cari yerli parametrlərinizə uyğun olaraq dil axtarır. Əgər belə bir dil kataloqu tapa bilmirsə, o, standart olaraq "en"-dir.

    Buna bənzər səhvlər görürsünüzsə:

    sonra UTF-8 dilləriniz ya quraşdırılmayıb, ya da konfiqurasiya edilməyib. Shell əmri locale -a en_US.utf8-i yerli kimi göstərməlidir. Əgər belə deyilsə, onda siz əməliyyat sisteminizdən asılı olaraq dpkg-yenidən konfiqurasiya etməli və/yaxud əməliyyat sisteminizdən asılı olaraq update-locale və ya apt-get install yerlilərini və ya bunların birləşmələrini və ya variantlarını işə salmalısınız.

    Yaranan quruluşu sınamağın bir neçə yolu var. Python bağlamaları qurulubsa, o zaman test proqramı ./bindings/python-examples/tests.py faylında tapıla bilər -- Çalışdırıldıqda, o keçməlidir. Ətraflı məlumat üçün bağlamalar/python-examples kataloqunda README.md-ə baxın.

    Dil məlumatı kataloqlarında ümumiyyətlə corpus-*.batch adlarına malik test/nümunə cümlələrinin çoxlu partiyaları da var. Parser proqramı sistemi çoxlu sayda cümlələrdə sınaqdan keçirmək üçün toplu rejimdə işlədilə bilər. Aşağıdakı komanda corpus-basic.batch adlı faylda təhliledicini işə salır

    corpus-basic.batch-in yuxarı hissəsinə yaxın olan !batch xətti toplu rejimini işə salır. Bu rejimdə ilkin * ilə etiketlənən cümlələr rədd edilməli və * ilə başlamayanlar qəbul edilməlidir. Bu toplu iş faylı corpus-biolg.batch və corpus-fixes.batch faylları kimi bəzi səhvlər haqqında məlumat verir. Bunların aradan qaldırılması üçün işlər davam edir.

    corpus-fixes.batch faylında link-qrammatikanın orijinal 4.1 buraxılışından bəri düzəldilmiş minlərlə cümlə var. corpus-biolg.batch-də BioLG layihəsindən biologiya/tibbi mətn cümlələri var. corpus-voa.batch Amerikanın Səsindən nümunələri ehtiva edir corpus-failures.batch çoxlu sayda uğursuzluqları ehtiva edir.

    Aşağıdakı nömrələr dəyişdirilə bilər, lakin hazırda bu faylların hər birində müşahidə oluna biləcək səhvlərin sayı təxminən aşağıdakı kimidir:

    Bağlamalar/python kataloqu Python bağlamaları üçün vahid testi ehtiva edir. O, həmçinin link-qrammatika kitabxanalarını vurğulayan bir neçə əsas yoxlama aparır.

    Parser üçün API (tətbiq proqramı interfeysi) var. Bu, onu öz tətbiqlərinizə daxil etməyi asanlaşdırır. API veb saytında sənədləşdirilir.

    FindLinkGrammar.cmake faylı CMake əsaslı qurma mühitlərində tərtibi sınamaq və qurmaq üçün istifadə edilə bilər.

    Tərtib etməyi və əlaqələndirməyi asanlaşdırmaq üçün cari buraxılış pkg-config sistemindən istifadə edir. Link-qrammatika başlıq fayllarının yerini müəyyən etmək üçün deyin ki, pkg-config --cflags link-grammar Kitabxanaların yerini əldə etmək üçün deyək ki, pkg-config --libs link-grammar Beləliklə, məsələn, tipik makefile daxil ola bilər. hədəflər:

    Bu buraxılış analizatora daxil olmağın üç yolunu təklif edən java faylları təqdim edir. Ən sadə yol org.linkgrammar.LinkGrammar sinifindən istifadə etməkdir, bu, təhlilçiyə çox sadə Java API təmin edir.

    İkinci imkan LGService sinifindən istifadə etməkdir. Bu, JSON mesajları kimi təhlil nəticələrini təmin edən TCP/IP şəbəkə serverini həyata keçirir. İstənilən JSON qabiliyyətli müştəri bu serverə qoşula və təhlil edilmiş mətni əldə edə bilər.

    Üçüncü imkan org.linkgrammar.LGRemoteClient sinifindən və xüsusən də parse() metodundan istifadə etməkdir. Bu sinif JSON serverinə qoşulan və cavabı ParseResult API vasitəsilə əldə edilən nəticələrə çevirən şəbəkə müştərisidir.

    Yuxarıda təsvir olunan kod Apache qarışqası quraşdırılarsa qurulacaq.

    JSON Şəbəkə Serverindən istifadə

    Şəbəkə serveri deyərək başlaya bilər:

    Yuxarıdakılar serveri 9000 portunda işə salır. O, port buraxılıb, kömək mətni çap olunur. Bu serverlə birbaşa TCP/IP vasitəsilə əlaqə saxlamaq olar, məsələn:

    (Alternativ olaraq telnet əvəzinə netcat istifadə edin). Qoşulduqdan sonra daxil edin:

    Qaytarılan baytlar cümlənin təhlilini təmin edən JSON mesajı olacaq. Varsayılan olaraq, mətnin ASCII-art təhlili ötürülmür. Bunu forma mesajları göndərməklə əldə etmək olar:

    Təhlilçi morfologiyaya əsaslanaraq bilmədiyi və təxmin edə bilmədiyi sözlə qarşılaşarsa, ilkin mərhələdə orfoqrafik yoxlayıcı işlədəcək. Konfiqurasiya skripti aspell və ya hunspell orfoqrafiya yoxlayıcılarını axtarır, əgər aspell inkişaf mühiti tapılarsa, sonra aspell istifadə olunur, əks halda hunspell istifadə olunur.

    Orfoqrafiyanın təxmin edilməsi iş vaxtında, !spell=0 bayrağı ilə link-parser müştərisində deaktiv edilə bilər. Ətraflı məlumat üçün !help yazın.

    Çoxlu mövzularda təhlil etmək üçün link-qrammatikadan istifadə etmək təhlükəsizdir. Fərqli mövzular fərqli lüğətlərdən və ya eyni lüğətdən istifadə edə bilər. Bütün mövzular tərəfindən paylaşılan qlobal olan təfərrüat istisna olmaqla, təhlil seçimləri hər bir mövzu əsasında təyin edilə bilər. Bu yeganə qlobaldır.

    A/Samitlərdən/saitlərdən əvvəl olan fonetik müəyyənedicilər müəyyənedicini dərhal ondan sonrakı sözlə əlaqələndirərək yeni PH keçid növü ilə idarə olunur. Status: 5.1.0 versiyasında təqdim olunub (Avqust 2014). Bir çox xüsusi hallı isimlər tamamlanmamış olsa da, əsasən yerinə yetirilir.

    Litva, türk və digər pulsuz söz sırası dilləri kimi bəzi dillər üçün istiqamətli keçidlər lazımdır. Məqsəd hansı sözün baş söz, hansının asılı olduğunu aydın şəkildə göstərən bir keçidə sahib olmaqdır. Bu, konnektorları tək ilə prefiks etməklə əldə edilir kiçik hərf hərf: h,d, 'baş' və 'asılı' ifadə edir. Bağlanma qaydaları elədir ki, h ya heç nəyə, ya da d ilə, d isə h və ya heç nəyə uyğun gəlmir. Bu, 5.1.0 versiyasında (Avqust 2014) yeni xüsusiyyətdir. Sayt əlavə sənədlər təqdim edir.

    İngilis dilindəki link-qrammatik keçidlər yönümsüz olsa da, belə görünür ki, onlara asılılıq qrammatikasının standart konsepsiyalarına tam uyğun gələn defakto istiqamət verilə bilər.

    Asılılıq oxları aşağıdakı xüsusiyyətlərə malikdir:

    Anti-refleksiv (söz özündən asılı ola bilməz, özünə işarə edə bilməz.)

    Antisimmetrik (əgər Word1 Word2-dən asılıdırsa, Word2 Word1-dən asılı ola bilməz) (məsələn, təyinedicilər isimlərdən asılıdır, lakin heç vaxt əksinə deyil)

    Oklar nə keçid, nə də anti-keçiddir: bir söz bir neçə baş tərəfindən idarə oluna bilər. Misal üçün:

    Yəni, Wd bağı vasitəsilə birbaşa sol divardan, eləcə də dolayısı ilə divardan kök felə, oradan da subyektə gedən yol var, subyektə, “o”ya. Oxşar döngələr B və R keçidləri ilə əmələ gəlir. Bu cür döngələr mümkün təhlillərin sayını məhdudlaşdırmaq üçün faydalıdır: məhdudiyyət "keçmə keçid yoxdur" meta-qaydası ilə birlikdə baş verir.

    • Qrafiklər planardır, yəni heç bir iki kənar kəsişməməlidir. Bununla belə, aşağıda "link-kəsişmə" müzakirəsinə baxın.

    Bir neçə əlaqəli riyazi anlayışlar var, lakin heç biri istiqamətləndirici LG-ni tam şəkildə tutmur:

    İstiqamətli LG qrafikləri DAGS-ə bənzəyir, ancaq LG yalnız bir divara (bir "üst" element) icazə verir.

    İstiqamətli LG qrafikləri ciddi qismən sifarişlərə bənzəyir, yalnız LG oxları adətən keçidli deyil.

    İstiqamətli LG qrafikləri katenaya bənzəyir, istisna olmaqla, katena ciddi şəkildə anti-keçidlidir -- istənilən sözə gedən yol katenada unikaldır.

    LG-nin əsas sənədləri təhlil qrafiklərinin planarlığını tələb edir. Bu, təbii dillərdə asılılıqların demək olar ki, heç vaxt kəsişmədiyi çox köhnə müşahidəyə əsaslanır: insanlar sadəcə keçidlərin kəsişdiyi cümlələrdə danışmırlar.Planarlıq məhdudiyyətlərinin qoyulması nəticədə yaranan təhlillər üçün güclü mühəndislik və alqoritmik məhdudiyyət təmin edir: nəzərə alınacaq təhlillərin ümumi sayı kəskin şəkildə azalır və beləliklə, təhlilin ümumi sürəti xeyli artırıla bilər.

    Bununla belə, bu planarlıq qaydasına təsadüfi, nisbətən nadir istisnalar var ki, bu cür istisnalar demək olar ki, bütün dillərdə müşahidə olunur. Bu istisnaların bəziləri aşağıda ingilis dili üçün verilmişdir.

    Beləliklə, planarlıq məhdudiyyətini yumşaltmaq və demək olar ki, sərt, lakin yenə də nadir istisnalara imkan verən başqa bir şey tapmaq vacib görünür. Belə görünür ki, Riçard Hudsonun “Söz qrammatikası” nəzəriyyəsində müəyyən etdiyi və sonra Ben Goertzel tərəfindən müdafiə olunan “məqsədli keçid” anlayışı belə bir mexanizm ola bilər.

    Planarlıq: nəzəriyyəyə qarşı təcrübə

    Təcrübədə planarlıq məhdudiyyəti analizatorun həyata keçirilməsində çox səmərəli alqoritmlərdən istifadə etməyə imkan verir. Beləliklə, icra nöqteyi-nəzərindən planarlığı saxlamaq istəyirik. Xoşbəxtlikdən, tortumuza sahib olmaq və onu yemək üçün rahat və birmənalı bir yol var. Qeyri-planar diaqram standart elektrik mühəndisliyi qeydindən istifadə edərək bir vərəqdə çəkilə bilər: naqillərin kəsişdiyi yerdə gülməli bir simvol. Bu qeyd LG konnektorlarına çox asanlıqla uyğunlaşdırılıb, aşağıda mövcud LG İngilis dili lüğətində artıq tətbiq edilmiş faktiki iş nümunəsidir. Hamısı keçid keçidləri bu şəkildə həyata keçirilə bilər! Beləliklə, qeyri-planar diaqramlar əldə etmək üçün mövcud təhlil alqoritmlərini əslində tərk etmək məcburiyyətində deyilik. Onları dəyişdirməyə belə ehtiyacımız yoxdur! Ura!

    Budur, işləyən bir nümunə: "Mən hər şeyə baxmaq və dinləmək istəyirəm." Bu, "hər şeyə" işarə edən iki J bağlantısını istəyir. İstədiyiniz diaqram bu kimi görünməlidir:

    Yuxarıdakılar həqiqətən də 'at'dan 'hər şeyə' Js keçidinə sahib olmaq istəyir, lakin bu Js keçidi birləşmənin keçidini kəsir (xxx ilə toqquşur). Digər misallar təklif edir ki, bir çox keçidlərin bağlayıcılara aşağı keçidlərə keçməsinə icazə verilməlidir.

    Planarlığın qorunması Js keçidini iki yerə bölməkdir: Jj hissəsi və Jk hissəsi birləşməni keçmək üçün birlikdə istifadə olunur. Bu, hazırda ingilis dili lüğətində tətbiq edilir və işləyir.

    Bu iş əslində tamamilə ümumidir və istənilən növ keçid keçidinə genişləndirilə bilər. Bunun işləməsi üçün Jj- əvəzinə uJs- və Jk- əvəzinə vJs- və ya buna bənzər bir şey daha yaxşı bir nota uyğun olardı. (TODO: daha yaxşı notasiya icad edin.) (Qeyd: Bu, "yağ bağlantılarının" bir növ yenidən ixtirasıdır, lakin kodda deyil, lüğətdə.)

    Əhəmiyyətli keçid: Nəzəriyyə

    Nəzərə alsaq ki, qeyri-planar təhlillər təhlilçi alqoritmində heç bir dəyişiklik edilmədən aktivləşdirilə bilər, tələb olunan tək şey koherent əsaslandırmada keçid keçidini hansı nəzəriyyənin təsvir etdiyini başa düşməkdir. Bu nəzəriyyə burada izah edilən Dik Hudsonun Landmark Transitivliyidir.

    Bu mexanizm aşağıdakı kimi işləyir:

    Birincisi, hər bir keçid istiqamətli, baş və asılı olmalıdır. Yəni, biz x,y və LG link növü A sözləri üçün x--A-->y və ya y<--A--x formasında olan yönləndirici-LG bağlantıları ilə maraqlanırıq.

    İstiqamətli-LG münasibətini x--A-->y və ya y<--A--x nəzərə alaraq, x-->y asılılıq əlaqəsini təyin edin. Yəni link tipli etiketə məhəl qoymayın.

    Başlar himayədarlar üçün əlamətlərdir. Əgər x-->y asılılıq əlaqəsi yerinə yetirilirsə, o zaman x-in y üçün əlamətdar olduğu deyilir və torpaq (x,y) predikatı doğrudur, torpaq (y,x) isə yanlışdır. Burada x və y sözlərdir, --> isə əlamətdar əlaqədir.

    Əsas istiqamətli-LG əlaqələri əlamətdar əlaqələr yaratsa da, əlamətdar əlaqələrin ümumi dəsti keçid bağlanması ilə genişləndirilir. Yəni torpaq(x,y) və torpaq(y,z) olarsa, torpaq(x,z). Yəni, əsas istiqamətli-LG əlaqələri tranzitivlik vasitəsi ilə yaratdıqları orientirlərin “generatorları”dır. Qeyd edək ki, keçid bağlanması unikaldır.

    Yuxarıda göstərilən əlamətdar münasibətdən əlavə, iki əlavə əlaqə mövcuddur: əlamətdar əlaqələrdən əvvəl və sonra. (İngilis dilində bunlar ivrit dilində sola və sağa uyğundur, əksinə). Yəni sözlər cümlədə xronoloji ardıcıllıqla gəldiyindən asılılıq əlaqəsi həm sola, həm də sağa işarə edə bilər. Əvvəllər müəyyən edilmiş əlamətdar əlaqə yalnız asılılıq sırasını təsvir etdi, biz indi söz ardıcıllığı sırasını təqdim edirik. Beləliklə, həm asılılıq münasibətini, həm də söz sırası münasibətini tutan land-before() və land-after() münasibətləri mövcuddur.

    Qeyd: landmarkdan əvvəlki münasibət land-B(x,y) x-->y-yə uyğundur (ingilis dilində, ivrit kimi sağ-sol dillərdə əks olunur), halbuki landmarkdan sonrakı əlaqə land-A(x,y) y<--x uyğun gəlir. Yəni torpaq(x,y) == torpaq-B(x,y) və ya torpaq-A(x,y) münasibətlərin predikat forması haqqında bəyanat kimi çıxış edir.

    Əvvəlki kimi, istiqamətləndirici işarələrin tam dəsti istiqamət-LG bağlantılarına tətbiq olunan keçid bağlanması ilə əldə edilir. Bu bağlamanı həyata keçirmək üçün iki fərqli qaydadan istifadə olunur:

    Daha sonra yönləndirici əlaqə yaratmaq üçün LG konnektorlarını adi qaydada birləşdirərək təhlil edilir. Daha sonra istiqamətli işarələrin keçidlə bağlanması hesablanır. Nəhayət, "sol divarın" ən yuxarı nöqtə olması ilə nəticələnməyən hər hansı təhlil ləğv edilir.

    Budur, əlamətdar keçidin (hazırda) pozulmuş təhlil üçün təbii həllini təmin etdiyi bir nümunə. "to.r" bölməsində "Nə etməli?" düzgün təhlil etmək. Bununla belə, o, həm də "O edəcək" səhv təhlilinə icazə verir. Düzəliş "do"nu obyekti götürməyə məcbur etmək olardı, lakin "do"dan "nə"yə keçidə icazə verilmir, çünki keçid keçidi buna mane olacaq.

    Bunu düzəltmək yalnız lüğətə düzəliş tələb edir, təhlilçinin özünə deyil.

    No-links-cross məhdudiyyətinin pozulduğu nümunələr, ingilis dilində:

    Hər ikisi ingilis dilində məqbul görünür, lakin “in-heter” müvəqqəti nizamlamanın qeyri-müəyyənliyi, keçidsiz keçid qaydası tətbiq ediləcəksə, iki fərqli təhlil ağacı tələb edir. Bu qeyri-təbii görünür. Oxşar:

    Fərqli bir nümunə sol divara keçidi əhatə edir. Yəni bağlantılar SOL-DİVAR - qalır üzərindən keçir burada - tapıldı:

    And Rosta üçün digər nümunələr:

    The icazə - tərəfindən keçid keçir tort - bu:

    Bağlayıcılarla idarə olunan təbii keçid var:

    "təbii" əlaqə "dünən" və "çərşənbə axşamı" felə qoşulmaq üçün MV bağlantılarından istifadə etməkdir. Ancaq bu edilərsə, o zaman bunlar "və" bağlayıcısından "cənnət" və "cəhənnəm" bağlarını kəsməlidir. Bunu qismən aşağıdakı kimi həll etmək olar:

    lakin "dünən" və "çərşənbə axşamı" zaman ön sözlərinə feldən istədiyiniz MV əlaqələri yoxdur -- halbuki onlar "Mən dünən cəhənnəmdə idim" və "Çərşənbə axşamı cənnətdə idim" fərdi cümlələri mövcud olduqda təhlil edilir. Bağlayıcıdan istifadə etmək istifadə olunan əlaqələri pozmamalıdır, lakin bu keçid keçidini tələb edir.

    Burada "up_to" "kimin" deyil, "nömrəni" dəyişdirməlidir. Link-krossing olmadan bunu etmək üçün heç bir yol yoxdur.

    Link qrammatikası tip nəzəriyyəsi kontekstində başa düşülə bilər. Tip nəzəriyyəsinə sadə girişi HoTT kitabının 1-ci fəslində tapmaq olar.
    Bu kitab onlayn olaraq sərbəst mövcuddur və növlərlə maraqlanırsınızsa, tövsiyə olunur.

    Bağlantı növləri kateqoriyalı qrammatikalarda görünən növlərlə əlaqələndirilə bilər. Link-qrammatika ilə bağlı gözəl cəhət ondan ibarətdir ki, keçid növləri kateqoriyalı qrammatikaya nisbətən istifadəsi və başa düşülməsi daha asan olan, lakin birbaşa həmin sistemə çevrilə bilən tip sistemi təşkil edir! Yəni link-qrammatika kateqoriyalı qrammatikaya tam uyğundur və istifadəsi daha asandır.

    LG-nin əsas sənədləri bu barədə şərhlər verir, lakin Bob Coecke-nin kateqoriya nəzəriyyəsi və qrammatikası ilə bağlı işinə də baxın. Coecke-nin diaqrammatik yanaşması LG-nin əsas sənədlərində verilmiş diaqramlarla mahiyyətcə eynidir, o zaman aydın olur ki, kateqoriya nəzəri yanaşma Link Grammar-a ekvivalentdir. Məsələn, bu giriş eskizinə http://www.cs.ox.ac.uk/people/bob.coecke/NewScientist.pdf baxın və diaqramların təməlin LG yapboz parçası diaqramları ilə mahiyyətcə eyni olduğunu müşahidə edin. LG nəşrləri.

    Hər hansı bir sualınız varsa, poçt siyahısına qeyd göndərməkdən çəkinməyin.

    Link-parser və link-qrammatik kitabxananın mənbə kodu GitHub-da yerləşir.
    Baq hesabatları üçün açın problem orada.

    Bütün mesajlar poçt siyahısına getməli olsa da, cari baxıcılarla əlaqə saxlamaq olar:

    Müəlliflərin və müəllif hüquqları sahiblərinin tam siyahısını AUTHORS faylında tapa bilərsiniz. Link Grammar analizatorunun orijinal müəllifləri bunlardır:

    Düzəltmək asandır: tərkib ağacına daha vahid API təmin edin. yəni söz indeksini təmin edin. Həmçinin, sözün həcmini, alt simvolunu və s. göstərən daha yaxşı söz API təmin edin.

    Böyük hərflə yazılmış ilk sözləri idarə etmək üçün incə texniki problemlər var. Bunu düzəltmək lazımdır. Bundan əlavə, hələlik bu sözlər nəticə bağlantılarında böyük hərfsiz göstərilir. Bu düzəldilə bilər.

    Ola bilsin ki, böyük hərflə a/an idarə oluna bildiyi kimi idarə oluna bilər! Axı bu, mahiyyətcə ən yaxın qonşu fenomenidir!

    Proksimal məsələ xərc əlavə etməkdir ki, Bill "Bill gəzintiyə çıxdı"nı təhlil edərkən bill.n-dən daha az xərc alır. Ən yaxşı həll, tokenləşdirmə zamanı "böyük hərf işarəsi nişanı" əlavə etmək olardı. Lüğət daha sonra a/fonetik fərqə oxşar qaydalarla bu işarəyə açıq şəkildə əlaqələndirir. Buradakı məqam ondan ibarətdir ki, bu, böyük hərfləri ad-hoc C kodundan çıxarıb lüğətə köçürür, burada hər hansı digər dil funksiyası kimi idarə oluna bilər. Tokenizer bunun üçün eksperimental kodu ehtiva edir.

    Korpus-statistikaya əsaslanan təhlil sıralaması:

    Korpus statistikası vasitəsilə təhlil sıralaması üçün köhnəni bərpa etmək lazımdır. Məsələni bu misal cümlələrlə izah etmək olar:

    Birinci cümlədə vergül iki göstərişin (imperativin) bağlayıcısı kimi çıxış edir. İkinci cümlədə "zəhmət olmasa" sözünü feil, vergülü bağlayıcı ilə səhv salmaq çox asandır və belə qənaətə gəlmək lazımdır ki, hansısa ifadə olunmamış obyekti sevindirib, sonra işıqları söndürmək lazımdır. (Bəlkə işıqları söndürməklə sevinmək olar?)

    Cümlə təhlil edilmədikdə, axtarın:

    • qarışıq sözlər: it/it's, there/theon/onlar, to/too, your/you're . Bunları diktələrə yüksək qiymətə əlavə etmək olar.
    • sahiblərdə apostrofların olmaması: "xalqların arzuları"
    • müəyyənedici razılaşma xətaları: "bir kitab"
    • aux fe'li razılaşma xətaları: "to be hooks up"

    Zəif razılaşma uyğun olmayan kiçik hərf hərflərinə qiymət verməklə həll edilə bilər.

    İngilis dilində ümumi bir fenomen, "düzgün" mövcud olmasını gözləyə biləcəyiniz bəzi sözlərin müxtəlif şərtlər altında yox ola bilməsidir. Aşağıda bunlardan bir nümunə verilmişdir. Bəzi mümkün həll yolları aşağıda verilmişdir.

    "Yaxşı görünür" kimi ifadələrdə gizli "it" (həmçinin sıfır-it və ya fantom-it deyilir) var, yəni cümlə həqiqətən "(bu) yaxşı görünür" kimi təhlil edilməlidir. Lüğət bu cür konstruksiyalara icazə vermək üçün qrammatika qaydalarına dəyişiklik etməklə deyil, bu cür xəyali sözləri açıq şəkildə qəbul etməklə sadələşdirilə bilər. Mötərizədə fantom sözü olan digər nümunələrə aşağıdakılar daxildir:

    • Mən bütün peçenyeləri yedim.
    • Mən onu cəmi bir həftədir tanıyıram.
    • Mən ona (necə) üzməyi öyrətdim.
    • Mən ona dedim ki, getdi.
    • Məni uçurumdan uçmağı dayandırdı.
    • (Bu) yaxşı görünür.
    • (Sən) evə get!
    • (Sən) de (mənə).
    • (Bu qədər kifayətdir!
    • (Mən) eşitdim ki, o, imtahan verir.
    • () yaxşısan?
    • Qapını açdı və (o) içəri girdi.
    • Emma iki qızın kiçik (qızı) idi.

    Bu, qapalı/səssiz hecalara qədər uzana bilər:

    Normalda imperativlərin subyektləri həmişə vergüllə əvəzlənməlidir: “Con, çəkici mənə ver”, amma burada and içərkən vergül udulur (səssiz).

    Bəzi mürəkkəb fantom konstruksiyalar:

    • Bilyard oynayırlar, amma snooker oynamırlar.
    • Mən Rinqonu tanıyıram, amma qardaşını (tanıyıram) bilmirəm.
    • O, hind yeməklərini sevir, lakin (o) Çin (yemək) deyil.
    • Əgər bu doğrudursa, (siz) bunu etməlisiniz.
    • Əgər onu kifayət qədər görsə, bəlkə də (edər).

    Müasir ingilis dilində bir çox (vurğusuz) hecalar silinə bilər, bu, ən çox ilkin vurğusuz hecada olur:

    • (a) 'hesab (a)'qorxmaq (a)'(a)'tamah (a)'ortasında(a)'
    • (a)'noint (a)'digər (a)'tutmaq (at)'meyil
    • (ol) 'əvvəl (ol)'gin (ol)'davranış (ol)'uzun (ol)'twixt
    • (con)'cern (e)'scape (e)'stablish Və s.

    Durğu işarələri, sıfır kopula, sıfır-bu:

    Zəif durğulu cümlələr problemlər yaradır: məsələn:

    Vergül olmayanı hazırda təhlil etmək mümkün deyil. Bunu sadə, sürətli, zərif bir şəkildə necə həll edə bilərik? Sıfır-copula və sıfır-o cümlələr üçün oxşar suallar.

    Kontekstdən asılı sıfır ifadələr.

    Professor və dekan arasındakı mübahisəni nəzərdən keçirin və dekan professordan parlaq rəy yazmasını istəyir. Mübahisənin sonunda dekan qışqırır: "Mən rəyin parlaq olmasını istəyirəm!" Bu, açıq şəkildə predikativ sifətdir və "Mən [yazdığınız rəyin parlaq olmasını istəyirəm" deməkdir. Bununla belə, kontekstdən çıxarıldıqda belə bir konstruksiya qeyri-qrammatikdir, çünki proqnozlaşdırma heç də aydın deyil və o, "*Hey Joe, bu rəyi mənə parlaq şəkildə çatdıra bilərsənmi?" kimi səhv oxunur.

    Mövzu bir xəyaldır, mövzu "sən"dir.

    Sıfır/fantom sözləri açıq şəkildə daxil etməklə idarə edin:

    Mümkün həll yollarından biri bir nöqtəli sıxlaşdırma həyata keçirməkdir. Lüğətdə fantom sözlər və onların bağlayıcıları var. Adi disjunktlar bunlarla əlaqələndirilə bilər, lakin bunu xüsusi başlanğıc kiçik hərfdən istifadə etməklə etməlidir (məsələn, hazırda tətbiq olunduğu kimi 'h' və 'd' hərflərinə əlavə olaraq 'z'). Parser, işlədiyi kimi, hər bir bağlayıcının ilkin hərfini araşdırır: əgər o, 'z' olarsa, adi budama qaydaları artıq tətbiq edilmir və fantom sözlər kovasından bir və ya bir neçə xəyali söz seçilir. (Bu vedrə sətirdən kənar saxlanılır, o, hələ cümlə söz ardıcıllığında yerləşdirilməyib, buna görə də adi budama qaydaları dəyişdirilir.) Əks halda, təhlil normal olaraq davam edir. Təhlilin sonunda, əgər əlaqəli olan hər hansı xəyali sözlər varsa, o zaman disjunktdakı bütün bağlayıcılar təmin edilməlidir (əlbəttə!), əks halda əlaqə etibarsızdır. Təhlildən sonra xəyali sözlər cümləyə daxil edilə bilər, yeri keçid uzunluğundan çıxarmaq olar.

    Yenidən yazma qaydaları kimi sıfır/fantom sözləri idarə etmək.

    Fantom söz məsələsini həll etmək üçün daha prinsipial yanaşma operator qrammatikası nəzəriyyəsindən yenidən yazmaq ideyasını götürməkdir. Yəni, müəyyən ifadələr və konstruksiyalar təhlil edilməzdən əvvəl yenidən öz “uyğun formasına” yazıla bilər (olmalıdır). Yenidən yazma addımı itkin sözləri daxil edəcək, sonra təhlil davam edəcək. Bu cür yanaşmanın cəlbedici cəhətlərindən biri də odur ki, yenidən yazmaq digər “zəhlətökən” hadisələri də idarə edə bilər, məsələn, yazı xətaları (çatışmayan apostroflar, məsələn, “olsun” və ya “gələk”, “onun” və “o”) və çoxlu -sözü yenidən yazır (məsələn, "gələk" vs. "uzaq edək" və ya "it's" vs. "it is").

    Bunun dəqiq necə həyata keçiriləcəyi bəlli deyil. Bununla belə, deyəsən, daha mücərrəd, semantik təhlilə qapı açır. Beləliklə, məsələn, Məna-Mətn Nəzəriyyəsində (MTT) SSynt-dən DSynt strukturları arasında hərəkət etmək lazımdır. Bu cür dəyişikliklər qrafikin səth sintaksisinin təhlilindən (məsələn, keçid-qrammatika ilə təmin olunur) dərin sintaktik struktura yenidən yazılmasını tələb edir. Bunun əksinə olaraq, təhlil etməzdən əvvəl qrafiki yenidən yazmaqla xəyali sözlərin idarə edilməsi emal qaydasını dəyişdirir. Bu onu göstərir ki, qrafikin yenidən yazılması üçün daha vahid yanaşma lazımdır: o, birtəhər təhlil zamanı aparılmalıdır ki, təhlil həm fantom sözlərin daxil edilməsinə rəhbərlik edə, həm də dərin sintaktik yenidən yazılara rəhbərlik edə bilsin.

    Tokenləşdirmə ilə bağlı başqa bir maraqlı ehtimal yaranır. Cari tokenizer ağıllıdır, ona görə ki, o, təkcə boşluğa bölünmür, həm də prefiksləri, şəkilçiləri silə və müəyyən məhdud morfoloji parçalanma növlərini həyata keçirə bilər. Yəni, hazırda tək-sözləri söz ardıcıllığına yenidən yazmaq qabiliyyətinə malikdir. Hal-hazırda bunu mühafizəkar şəkildə edir, orfoqrafik düzəliş təklifləri vermək kimi bir neçə istisna olmaqla, sözü yaradan hərflər qorunur. Yuxarıdakı mülahizələr göstərir ki, tokenləşdirmə və təhlil arasındakı sərhəd həm daha axıcı, həm də daha sıx birləşməlidir.

    “Əvvəlkindən daha xoşbəxt olacaq” ilə “əvvəlkindən daha xoşbəxt olacaq” ilə müqayisə edin. Cari təhlilçi baş sözü "xoşbəxt edir", "daha çox" isə EA linki ilə dəyişdirici edir. İnanıram ki, düzgün həll yolu "daha çox" başlıq etmək (müqayisəli olaraq əlaqələndirmək) və asılılığı "xoşbəxt etmək" olacaq. Bu, müqayisələr üçün qaydaları uyğunlaşdıracaq. və daha az, daha çox üçün qaydaları aradan qaldıracaq/sadələşdirəcək.

    Bununla belə, bu fikir iki dəfə yoxlanılmalıdır, məsələn. Hudsonun söz qrammatikası. Bu məsələdə çaşmışam.

    Hal-hazırda, bəzi keçidlər "məhdudiyyətsiz" uzunluqda fəaliyyət göstərə bilər, digərləri isə yalnız sonlu uzunluqda ola bilər. məs. təyinedicilər müraciət etdikləri ismin yanında olmalıdırlar. Daha yaxşı bir həll bəzi bağlayıcılar üçün 'uzanma' dəyərindən istifadə etmək ola bilər: onlar nə qədər uzun olarsa, xərc bir o qədər yüksəkdir. (Bu, lüğətdəki "inlimited_connector_set"i aradan qaldırır).

    Qarşılıqlı (dəf edən) təhlillər:

    Bəzən bir təhlilin mövcudluğu başqa bir təhlilin şübhəsiz səhv olduğunu göstərməlidir: əgər bir təhlil mümkündürsə, o zaman digər təhlillər şübhəsiz ki, çətin olmalıdır. Məsələn: və.j-g bağlayıcısı "Böyük Cənub və Qərb Dəmiryolunu" obyektin vahid adı kimi təhlil etməyə imkan verir. Bununla belə, o, eyni zamanda, demək olar ki, səhv olan tək bir varlıq olaraq "Con və Mayk" üçün nümunə uyğunluğu təmin edir. Lakin "Con və Mayk"ın alternativ təhlili var, şərti-və -- iki nəfərdən ibarət bir siyahı və buna görə də bu alternativ (və düzgün) təhlilin mövcudluğu onu göstərir ki, bəlkə də varlıq-və həqiqətən çox yanlış təhlildir. . Yəni, müəyyən təhlillərin sadəcə mümkünlüyü digər mümkün təhlilləri kəskin şəkildə rədd etməlidir. (İstisna: Ben və Jerry'nin dondurması, lakin bu halda biz Ben və Jerry-ni uyğun brendin adı kimi tanıya bilərik, lakin bu, "normal" lüğətdən kənardır (?) (amma bəlkə də lüğətdə olmalıdır!) )

    Daha çox misal: "yüksək su" birləşdiricisi A birləşdiricisi yüksək.a və AN yüksək.n ilə birləşdirilə bilər, bu ikisi ya birinə yığılmalı, ya da biri ləğv edilməlidir.

    Tərkibində mürəkkəb feil ifadələri olan cümlələr üçün təhlillərin sayını azaltmaq üçün WordNet-dən istifadə edin, məsələn, "vazət", "vermək" və s.

    Sürüşən pəncərə (artan) təhlili:

    Təhlillərin kombinator partlayışının qarşısını almaq üçün, təhlili əldə etmək üçün sürüşmə pəncərə alqoritmindən istifadə edərək, hər bir ifadə ilə artımlı təhlil etmək yaxşı olardı.Beləliklə, məsələn, uzun, davam edən cümlənin son yarısının təhlili cümlənin əvvəlinin təhlilinə həssas olmamalıdır.

    Bunu etmək kombinator partlayışına kömək edərdi. Beləliklə, məsələn, cümlənin birinci yarısında 4 məqbul təhlil, sonuncu yarısında isə daha 4 təhlil varsa, hazırda təhlilçi cəmi 16 təhlili bildirir. Əvəzində faktorlaşdırılmış nəticələri bildirə bilsəydi, daha faydalı olardı: birinci yarım üçün dörd məqbul təhlili və sonuncu yarım üçün dörd məqbul təhlili. Bu, link-qrammatikadan aşağı istifadəçilərin yükünü yüngülləşdirəcək.

    Bu yanaşmanın psixoloji dəstəyi var. İnsanlar uzun cümlələr götürür və onları fraza strukturları, yəni mürəkkəb cümlələr kimi "bir-birinə asılan" daha kiçik hissələrə bölürlər. Ən çox ehtimal olunan təhlil, kvazi alt cümlələrin hər birinin düzgün təhlil edildiyidir.

    Bu, sallanan sağa gedən bağlayıcıları təhlil kontekstində saxlamaqla həyata keçirilə bilər və sonra başqa bir cümlə parçası gəldikdə, sol divarın yerinə həmin kontekstdən istifadə edin.

    Bu bir qədər tikinti qrammatikası ideyalarının link-qrammatik lüğətə tətbiqinə bənzəyir. O, həmçinin müəyyən dərinliyə qədər Viterbi təhlilinə bir qədər bənzəyir. Viz. bir ifadə üçün tam geriyə-irəli təhlil edin və sonra bu tamamlandıqdan sonra Viterbi addımını atın. Yəni, ifadə bitdikdən sonra, yalnız sallanan bağlayıcıları ifadədə saxlayın, divar qoyun və sonra cümlənin növbəti hissəsinə keçin.

    Diqqət: bağ yolu cümlələrinə diqqət yetirin:

    Cari analizator bunları mükəmməl şəkildə təhlil edir, bir viterbi təhlilçisi bunlara toxuna bilər.

    Viterbi dekoderinin digər üstünlükləri:

    • Cümlə sərhədlərinə daha az həssasdır: bu, daha uzun, işlək cümlələri daha tez təhlil etməyə imkan verəcəkdir.
    • Arqonla, hip-danışmaqla daha yaxşısını edə bilərdim.
    • Real vaxt dialoquna dəstək (yarım tələffüz edilmiş cümlələrin təhlili).
    • Çoxlu axınların təhlili, məs. oyun/film skriptlərindən.
    • Cümlələr arasında ortaq istinad həllini aktivləşdirəcək (və ya sadələşdirəcək) (əvəzliklərin referentlərini həll etmək və s.)
    • Daha zəngin vəziyyətin daha yüksək təbəqələrə ötürülməsinə imkan verir: xüsusilə, cümlənin fraksiyaları üçün alternativ təhlillər, alternativ istinad qətnamələri.
    • Bəzi alternativ, daha yüksək səviyyəli məntiqdən istifadə edən plaginlər (məsələn, semantik məzmundan istifadə etməklə) aydınlaşdıra bilməsi üçün plug-in arxitekturasına icazə verərdi.
    • Koddakı sərt kodlu massiv ölçülərinin çoxunu aradan qaldırın.

    Viterbinin ardıcıllıqla işləməyin daha təbii, bioloji üsulu olduğunu iddia etmək olar. Bunun üçün bəzi eksperimental, psixoloji dəstəyi http://www.sciencedaily.com/releases/2012/09/120925143555.htm saytında tapa bilərsiniz, Morten Christiansen, Kornell psixologiya professoru.

    Qeydiyyatlar, sosiolektlər, dialektlər (xərc vektorları):

    Tipik bir qəzet başlığı olan “Oğrular bankı soyurlar” cümləsini nəzərdən keçirək. LG hazırda bunu təhlil edə bilmir, çünki təyinedici çatışmır (“bank” kütləvi isim deyil, sayma isimdir və ona görə də müəyyənedici tələb olunur. Əksinə, “oğrular suyu soyur”.) Bunun həlli yaxşı olardı. məcburi təyinedici keçidləri (D- və ya <[[()]] & headline-flag>) ilə əvəz etmək, başlıq bayrağı biti təyin edilərsə, D linkinin buraxılmasına imkan verir. Burada "başlıq-bayraq" yeni bir keçid növü ola bilər, lakin planarlıq məhdudiyyətlərinə tabe olmayan bir keçiddir.

    Nəzərə alın ki, bunu söyləmək yerinə yetirməkdən daha asandır: əgər sadəcə olaraq yüksək qiymətli sıfır link əlavə edilərsə və başlıq bayrağı yoxdursa, onda hər cür qeyri-qrammatik cümlələr qəribə təhlillərlə təhlil edilir, bəzi qrammatik cümlələr isə təhlil edilməlidir, lakin hazırda yoxdur. t, parsable olmaq, lakin crazy nəticələri ilə.

    And Rosta-dan daha çox nümunə:

    Təbii yanaşma sabit xərcləri düsturlarla əvəz etmək olardı. Bu, dialektin/sosiolektin dinamik dəyişkən olmasına imkan verərdi. Yəni, ikili başlıq bayrağına malik olmaqdansa, təhlil döngəsindən kənarda dəyişdirilə bilən qiymət düsturu olacaq. Bu cür düsturlar müxtəlif dialektlərə/sosiolektlərə xas təhlili aktivləşdirmək/deaktiv etmək üçün sadəcə keçid xərcləri şəbəkəsini dəyişdirməklə istifadə edilə bilər.

    Daha sadə alternativ, etiketli xərclərə (xərc vektoru) sahib olmaq olardı ki, müxtəlif dialektlər müxtəlif bağlantılara fərqli xərclər təyin etsin. Analiz zamanı dialekt təyin olunacaq və beləliklə, təhlil sıralaması zamanı həmin dialekt üçün xərclər sərf olunacaq.

    Bu həyata keçirildi, çatışmayan şey bunun necə istifadə olunacağına dair praktiki təlimatdır.

    Əl ilə dəqiqləşdirən fel nümunələri:

    Felin istifadə nümunələrini dəqiqləşdirmək üçün yaxşı istinad budur: "COBUILD GRAMMAR PATTERNS 1: THE COBUILD SERIES-DƏN FƏLLƏR", THE BANK OF ENGLISH, HARPER COLLINS-dən. Onlayn olaraq https://arts-ccr-002.bham.ac.uk/ccr/patgram/ və http://www.corpus.bham.ac.uk/publications/index.shtml

    Hal-hazırda tokenize.c ikiqat dırnaqları və bəzi UTF8 sitatlarını işarələyir (en/4.0.affix-də RPUNC/LPUNC sinifinə baxın - QUOTES sinfi bunun üçün istifadə edilmir, lakin böyük hərflərə dəstək üçün), ingilis dili lüğətində bəzi əsas dəstəklər (orada "% Dırnaq işarələrinə" baxın). Bununla belə, o, 'bunlar' və 'bunlar' kimi müxtəlif "qıvrımlı" UTF8 sitatları üçün bunu etmir. Bu nəticələr belə sitatları ehtiva edən cümlələr üçün bəzi çirkin təhlildir. (Qeyd edək ki, bunlar 4.0.affiksdədir).

    Sitatları sitat gətirilən mətndən ayırmaq üçün mexanizm lazımdır ki, hər birini müvafiq şəkildə təhlil etmək mümkün olsun. Link-qrammatika daxilində bunu necə idarə etmək bir qədər aydın deyil. Bu, bir qədər morfologiya (sözlərin “mini-cümlə” olduğu kimi təhlili), idiomlar (tək sözlər kimi rəftar edilən söz birləşmələri), toplu fraza strukturları (əgər... onda . nəinki. ancaq. lakin) problemi ilə bağlıdır. həm də . ) sitat gətirilən mətnə ​​oxşar uzun diapazonlu struktura malik olan (dedi. ).

    Lüğətin semantikləşdirilməsi:

    "to be fishing": Link qrammatikası "Mən sübut üçün balıq tuturdum" dörd təhlilini təklif edir, bunlardan ikisinə aşağı, ikisinə isə yüksək bal verilir. Yüksək bal toplayan iki nəfərdən biri aydın şəkildə pisdir. Düzgün "to be fishing.gerund"dan fərqli olaraq "to be fishing.isim" bağlantıları. Yəni mən xoşbəxt, sağlam və müdrik ola bilərəm, amma əlbəttə ki, balıq tuta bilmərəm. Bu, bəlkə də sadəcə lüğətin strukturunda bir səhv deyil, bəlkə də daha dərindir: link-qrammatikada leksik vahidlər (yəni, birləşmələr, idiomlar, institusional ifadələr) az və ya heç bir anlayışı yoxdur, bu da pis söz hissləri ilə təhlil etməyə imkan verir. gizlicə girmək.

    Məqsəd LG-yə leksik vahidlər haqqında daha çox bilik təqdim etməkdir.

    Fərqli söz duyğuları müxtəlif qrammatik qaydalara malik ola bilər (və beləliklə, istifadə edilən bağlantılar sözün mənasını ortaya qoyur): məsələn: “Mən razılaşıram” vs. “Mən qoyunlara meyl edirəm” – bunlar söz üçün iki fərqli məna istifadə edir. "meyil" feli və bir məna üçün icazə verilən qrammatik konstruksiyalar digəri üçün icazə verilən konstruksiyalarla eyni deyil. Bununla belə, "tend.v" üçün keçid qaydaları hər iki hissi özündə cəmləşdirməlidir, beləliklə, qaydaları olduqca mürəkkəb edir. Daha da pisi, potensial olaraq mənasız tikintilərə imkan verir. Bunun əvəzinə lüğətdə "tend.meaning1" və "tend.meaning2" üçün fərqli qaydaların olmasına icazə versək, qaydalar sadələşərdi (lüğətin ölçüsünü şişirtmək bahasına).

    Başqa bir misal: "Mən belə qorxuram" -- "belə" sözünə "qorxu"nun bütün leksik mənalarında deyil, yalnız bəzilərində icazə verilir. Belə ki, məs. "Mən belə qorxuram" "Mən belə düşünürəm" və ya "Mən belə ümid edirəm" ilə eyni semantik sinifdədir, baxmayaraq ki, bu fellərin digər mənaları tamamilə fərqlidir.

    [Sin2004] "Yeni sübutlar, yeni prioritetlər, yeni münasibət" J. Sinclair, (ed) (2004) Dil tədrisində korpusdan necə istifadə etməli, Amsterdam: John Benjamins

    Həmçinin bax: Pattern Grammar: A Corpus-Driven Approach to the Lexical Grammar of English
    Susan Hunston və Gill Francis (Birmingham Universiteti)
    Amsterdam: Con Benjamins (Korpus linqvistikası üzrə tədqiqatlar, redaktə edən Elena Tognini-Bonelli, cild 4), 2000
    Kitab icmalı.

    “The Molecular Level of Lexical Semantics”, EA Nida, (1997) Beynəlxalq Leksikoqrafiya Jurnalı, 10(4): 265–274. Onlayn

    Kollokasiyalarda "deşiklər" (aka "ibarələrin" "dəstək ifadələri"):

    Link-qrammatika sirkulyasiyaları və ya daha mürəkkəb çox sözlü strukturları dəstəkləmək üçün bir neçə mexanizm təmin edir. Mexanizmlərdən biri V, XJ və RJ bağlantılarına bax adi bağlantılardır. Digər mexanizm post-processing qaydaları vasitəsilə. (Məsələn, "dolduran-it" SF qaydaları post-processing istifadə edir.) Bununla belə, bir çox ümumi formalar üçün qaydalar hələ yazılmayıb. Ümumi problem, ortada "deşiklər" olan, onları bir-birinə bağlamaq üçün "bağlama" tələb edən dəstəkləyici strukturlardır.

    Məsələn, əlavə:

    Qeyd edək ki, [xxx] yuvasına çoxlu sözlər sığa bilər. Başqa bir ön söz birləşməsinin dolaşıqlığına diqqət yetirin: ". [xxx]-dən [yyy]-ə qədər"

    Delikli daha mürəkkəb birləşmələr daxildir

    'Sonra' isteğe bağlıdır ('sonra' 'boş söz'dür), məsələn:

    Yuxarıdakılar hazırda dəstəklənmir. Dəstəklənən bir nümunə "istinadsızdır", məs.

    Yuxarıdakılar eyni post-processing domenində baş verməli olan "bu" və "o" üçün xüsusi ayırmalar vasitəsilə dəstəklənir.

    ". X-dən və Y-dən" "X, və Y ilə, ." Burada X və Y digər ön sözləri ehtiva edən kifayət qədər uzun ifadələr ola bilər. Bu halda, adi keçid-qrammatik əlaqə qaydaları adətən "və X-dən"-ə doğru keçid əvəzinə X-dəki bəzi ön sözlərə "və Y-dən"-ni birləşdirəcək. Baxmayaraq ki, X və Y uzunluqlarını təxminən bərabər saxlamaq üçün xərc əlavə etmək kömək edə bilər, ". . . və. " nümunəsini tanımaq daha yaxşı olardı.

    "Ya . ya da . " üçün düzgün həll belə görünür:

    Bununla bağlı problem "nə"nin "nə" ilə koordinasiya etməməsidir. Yəni, “nə... nə də.” “nə.. və ya.” “nə... və.” “amma.. nə də.” demək olmaz ki, mənim ilkin olaraq koordinasiya problemini həll etmə üsulum Dn adlı yeni bir əlaqə icad etmək idi. SJn-i əlaqələndirin və Dn-nin yalnız SJn-ə qoşula bildiyinə əmin olun, başqa heç nə. Beləliklə, koordinasiyanı iki keçid arasında yaymaq üçün kiçik hərf "n" istifadə edilmişdir. Bu, link-qrammatika nəzəriyyəsinin nə qədər güclü olduğunu nümayiş etdirir: düzgün alt yazılarla məhdudiyyətlər böyük məsafələrdə keçidlər boyunca yayıla bilər. Bununla belə, bu həm də lüğəti daha mürəkkəb edir və qaydaları yazmağı çətinləşdirir: koordinasiya çoxlu müxtəlif linklərin birləşdirilməsini tələb edir. Və mən hesab edirəm ki, tək, yeni bir keçid yaratmaq adlanır. koordinasiyanı asan və birbaşa edəcək. Ona görə də bu fikri bəyənirəm.

    The . link XJ linki olmalıdır, hansına baxın.

    Yuxarıdakı misallardan daha idiomatikdir: ". X-in çiynindəki çip" "X-ə yaxşılıq etmək" "X-ə baxmaq"

    Yuxarıdakıların hamısı "təşkil edilmiş ifadələr" və ya "ifadələr" nümunələridir və ən çox İqor Mel'cuk və digərlərinin MTT və ya Məna-Mətn Nəzəriyyəsi kontekstində müzakirə olunur (ətraflı məlumat üçün "MTT Leksik Funksiyasını" axtarın). Mel'cuk çoxluq ifadələrini leksemlər kimi qəbul edir və təhlil üçün bunun birbaşa aidiyyəti yoxdur. Lakin frazemalar yüksək qarşılıqlı məlumat məzmununa malik olduqları üçün cümlənin sintaktik strukturunda üstünlük təşkil edə bilirlər.

    "Hər şeyə baxmaq və qulaq asmaq istəyirdi" in cari təhlili. qeyri-adekvatdır: “hər şeyə” keçid “və” ilə əlaqə yaratmalıdır ki, “qulaq asmaq” və “baxmaq” atom feli ifadələri kimi qəbul edilsin.

    MTT təklif edir ki, bəlkə də post-processing qaydalarının məzmununu başa düşməyin düzgün yolu sintaksisə proqnozlaşdırılan “leksik funksiyaların” həyata keçirilməsidir. Yəni, emaldan sonrakı qaydalar yalnız müəyyən sintaktik konstruksiyalara icazə verir və bunlar adətən müəyyən növ leksik funksiyalarda görülən konstruksiya növləridir.

    Alternativ olaraq, link-qrammatika verilmiş cümlənin mümkün təhlillərinin kombinator partlayışından əziyyət çəkir. Belə görünür ki, leksik funksiyalar bu təhlillərin çoxunu istisna etmək üçün istifadə edilə bilər. Digər tərəfdən, nəticələr çox güman ki, statistik təhlil sıralamasının nəticələrinə bənzəyir (ehtimal ki, bu cür kvazidiomatik birləşmələri ən azı zəif tutur).

    Ref. I. Mel'cuk: "Birliklər və leksik funksiyalar", ''Frazeologiya: nəzəriyyə, təhlil və tətbiqlər'' Ed. Anthony Paul Cowie (1998) Oxford University Press səh. 23-54.

    Ümumiyyətlə, bütün link-qrammatika infrastrukturun MTT-ləşdirilməsindən faydalana bilər.

    Leksik funksiyalara dair yuxarıdakı şərhi ivrit morfoloji təhlili ilə müqayisə edin. Vikipediyadan sitat gətirmək üçün:

    Nitq vahidi kimi sözlə məna vahidi kimi kök arasındakı bu fərq semit dillərində olduğu kimi, köklərin həqiqi sözlərdə işləndikdə çox müxtəlif formalara malik olduğu dillərdə daha vacibdir. Bunlarda köklər tək samitlərdən əmələ gəlir və müxtəlif sözlər (müxtəlif nitq hissələrinə aid olan) saitlər daxil edilərək eyni kökdən alınır. Məsələn, ivrit dilində gdl kökü böyüklük ideyasını ifadə edir və ondan bizdə gadol və gdola ("böyük" sifətinin kişi və qadın formaları), gadal "o böyüdü", hiqdil "o böyüdü" və maqdelet " böyüdücü", godel "ölçüsü" və migdal "qüllə" kimi bir çox başqa sözlərlə birlikdə.

    Sərt kodlaşdırma LL əvəzinə, diktdə hansı bağlantıların morfo bağlantılar olduğunu bəyan edin.

    • Kompilyasiya müddəti konstlərini qaytaran sorğu təqdim etməlidir, məsələn. sözdəki simvolların maksimum sayı və ya cümlədəki maksimum sözlər.
    • Kompilyasiya vaxtı sabitlərini silməlidir, məsələn. maksimum sözlər, maksimum uzunluq və s.

    Versiya 6.0 API-də Cümləni Cümləyə*, Bağlantıya Bağlantıya* dəyişəcək. Amma bəlkə də bu pis fikirdir.


    Qrafik istifadəçi interfeysləri

    1. PyRosetta Too lkit

    PyRosetta Alətlər dəsti Rosetta fayl növlərini qurmaq, nəticələri təhlil etmək, protokolları işə salmaq və bir çox digər molekulyar modelləşdirmə və dizayn tapşırıqlarını yerinə yetirmək üçün PyRosetta üçün GUI əlavəsidir. O, PyRosetta ilə /GUIs/pyrosetta_toolkit kataloqunda paylanır. Quraşdırma, istifadə və məsləhətlər üçün sənədlərə baxın.


    Cavablar

    Vektorun üç xüsusiyyəti növ, uzunluq və atributlardır.

    Atom vektorunun dörd ümumi növü məntiqi, tam, ikiqat (bəzən ədədi adlanır) və xarakterdir. İki nadir növ mürəkkəb və xamdır.

    Atributlar ixtiyari əlavə metaməlumatları istənilən obyektlə əlaqələndirməyə imkan verir. Siz attr(x, "y") və attr(x, "y") <- dəyəri ilə fərdi atributları əldə edib təyin edə və ya atributlar() ilə bütün atributları bir anda əldə edib təyin edə bilərsiniz.

    Siyahının elementləri istənilən növ ola bilər (hətta siyahı da), atom vektorunun elementləri hamısı eyni tipdədir. Eynilə, matrisin hər bir elementi verilənlər çərçivəsində eyni tipdə olmalıdır, müxtəlif sütunlar müxtəlif növlərə malik ola bilər.

    Siyahıya ölçülər təyin etməklə "siyahı massivi" yarada bilərsiniz. Siz matrisi df$x <- matrix() ilə verilənlər çərçivəsinin sütunu edə bilərsiniz və ya yeni verilənlər çərçivəsi yaradarkən I() istifadə edərək data.frame(x = I(matrix())) .

    &Hadley Wickham'ı kopyalayın. Jekyll, knitr və pandoc tərəfindən təchiz edilmişdir. Mənbə github-da mövcuddur.


    Videoya baxın: Tall hair tree (Iyun 2022).