Məlumat

PCA-nın genetik məlumatlarda klasterləri vizuallaşdırmaq üçün uyğunluğu

PCA-nın genetik məlumatlarda klasterləri vizuallaşdırmaq üçün uyğunluğu


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bir çox genetik tədqiqatlarda PCA tez-tez insan populyasiyalarında genetik klasteri araşdırmaq üçün istifadə olunur. Komponentlər üçün % dispersiya nadir hallarda bildirilir. İnsan məlumatları ilə mənim təcrübəmdən məlum oldu ki, ilk üç komponent (tez-tez tərtib edilir) variasiyanın çox az faizini ehtiva edir. İlk üç komponent ümumi olaraq dispersiyanın yalnız 10%-ni təşkil etdikdə vizual nəticələriniz (yəni klasterləşdirmə) nə dərəcədə mənalıdır?

Bu suala cavab vermək üçün aşağıdakı fərziyyələrə əsaslanan bir nəzəriyyə qurdum.

Bir nəzəriyyə. İnsanlar üçün qruplar (yəni eyni etnik qrup) daxilində variasiya nisbəti fərdlər daxilindəki genetik variasiyanın ~85%-ni təşkil edir. Əksinə, populyasiyalardakı variasiya (yəni kontinental miqyas) fərdlər daxilindəki genetik variasiyanın yalnız ~15%-ni təşkil edir.

İlk üç komponent (yəni, PC1, PC2, PC3) ümumi dispersiyanın yalnız kiçik bir hissəsini ehtiva etsə də, əksər hallarda əlaqəli öz dəyərlərin böyüklüyü daha yüksək komponentlərdən 50-70 dəfə çox ola bilər. Başqa sözlə, ilk üç komponent fərdi əsaslarla müqayisə edildikdə, hər hansı digər komponentdən əhəmiyyətli dərəcədə daha çox (50x-70x) dispersiyanı izah edə bilər.

Bəzən bu yüksək komponentlər qruplar daxilində gizli alt quruluşu izah etsələr də, eyni qrupdan olan fərdlərin öz aralarında ~85% genetik variasiya olduğunu unutmayın. Beləliklə, daha yüksək komponentlərin əksəriyyəti bunu qruplardakı variasiya daxilində izah edə bilər. Genetik qrupların təhlili üçün bu, genetikləri maraqlandırmır. Beləliklə, bu yüksək komponentlər fon səsləri kimi qəbul edilə bilər. Genetiklər, əsasən, çox qədim və güclü şəkildə ayrılan populyasiyalar daxilində variasiya ilə maraqlanırlar. Beləliklə, ilk üç komponentdə populyasiya qrupları formalaşdıqda, onların əsasən populyasiyalar daxilindəki variasiya hesabına formalaşdığını iddia etmək olar.

Xülasə: İlk üç komponentin məcmu hesab etdiyi aşağı dispersiya (<10%) populyasiyalar daxilində variasiyanın fərdlər daxilindəki genetik variasiyanın yalnız ~15%-ni təşkil etməsi ilə əsaslandırıla bilər.

Sualım budur: Mənim sualıma verilən nəzəriyyə ağlabatan görünürmü?


4-cü hissə: Təsisçi effektləri problemi

Alma Laney tərəfindən 16 Yanvar 2020 12 Yanvar 2020

Alma Laney və Alison Bernstein tərəfindən

Bu yazı, Patologiyaların və Sperma Epimutasiyalarının Epigenetik Transgenerasiya İrsinin Qiymətləndirilməsi: Nəsil Toksikologiyası adlı məqalənin nəşri ilə qaldırılan suallara cavab verən transgenerativ irsiyyət, epigenetika və qlifosat haqqında seriyanın dördüncüsüdür.


Fon

Adi bitki yetişdirmə proqramları arzu olunan fenotiplərə malik yeni sortların seçilməsi şansını artırmaq üçün çoxlu sayda nəsillər yaratmalıdır. Yüksək məhsuldarlıqlı fenotipləşdirmə və genotipləşdirmə üsullarının inkişafı daha yaxşı valideyn birləşmələrinin proqnozunu əhəmiyyətli dərəcədə artırdı. Effektiv strategiya bir neçə seçilmiş valideyn birləşməsinə diqqət yetirmək və böyük populyasiyalar yaratmaq ola bilər [1]. Bununla belə, valideyn keçid qabiliyyəti (məsələn, məhsuldarlıq, sinxronizasiya, uyğunluq) hələ də əsas problem ola bilər. Həqiqətən, öz-özünə uyğunsuzluq angiospermlər arasında ümumi bir maneədir [2]. Bundan əlavə, çiçəklənmədə çoxlu qarşılıqlı təsir göstərən ekzogen və endogen siqnallar iştirak edir [3]. Beləliklə, bitki reproduktiv biologiyası haqqında bilik və nəzarət səmərəli bitki yetişdirilməsi üçün vacibdir və buna əsaslı elmi tədqiqatlar həsr edilmişdir.

Kök və yumru bitkilərdə cinsi çoxalma qabiliyyətinin azalması bilavasitə əhliləşdirmə və diversifikasiya proseslərindən miras alınır [4]. Cinsi çoxalma ilə əlaqəli xüsusiyyətlər artıq yüksək səviyyədə saxlanılmır və ya əlaqəli xərclərə görə birbaşa əks seçilmir. Məsələn, kartofda (Solanum tuberosum L.), vəhşi və mədəni formalar arasında müqayisəli genomik tədqiqatlar polen inkişafı və gametogenezdə iştirak edən genlərdə seleksiya imzasını aşkar etdi [5]. Bundan əlavə, bəzi sortların geniş klonal yayılması cinsi sistemlərin fəaliyyətini də poza bilər [6]. Ümumiyyətlə, ploidlik səviyyələri və dioeziya cinsi çoxalmaya birbaşa maneədir, lakin bu mənada nişastalı kök yumruları üçün becərilən və dioikliyi əsas xarakter olan yeməli yamlar [7] istisna deyil. Bu xüsusilə daha böyük yam üçün belədir (D. alata), vəhşi qohumları ilə davam edən gen axını olmayan bir poliploid növdür [8].

Böyük yam ən çox yayılmış yam növüdür [10]. Mədəni, iqtisadi və qidalanma əhəmiyyətinə baxmayaraq, becərilən sortlar əsasən torpaq irqləridir (məsələn, Kot-d'İvuarda [11]) yetişdirmə proqramları nisbətən aşağı keçid müvəffəqiyyəti ilə mübarizə aparır. Əsas xromosom sayı (2n = 40) təsdiqləndikdən [8, 12] və triploid valideynlərin (2n = 60) və ya endospermin istifadəsi səbəbindən xaçların uğursuzluğu təsdiqləndikdən sonra ploidiya səviyyələri [10] ilə bağlı uyğunsuzluq/sterillik problemləri aradan qaldırıldı. uyğunsuzluğu başa düşülürdü [13]. Poliploid birləşmələr uğurla istifadə edilmiş və/və ya yaradılmışdır [12,13,14], lakin xaçların uğuru hələ də izah edilməmişdir. Üstəlik, ploid problemlərindən əlavə, valideyn birləşmələri arasında əldə edilən toxum dəstlərində əhəmiyyətli fərqlər aşkar edilmişdir [14, 15]. Biparental populyasiyalarda seqreqasiya təhrifi həmçinin gametofit və/yaxud zigotik seçimin baş verə biləcəyini göstərir [16].

Yetişdirmə proqramları əsasən qeyri-sabit və asinxron çiçəkləmə ilə maneə törədir D. alata [17], beləliklə, uyğun gələn məhsuldar valideynlərin sayını və nəticədə uğurlu xaçların sayını məhdudlaşdırır. Yam reproduksiyası biologiyasını anlamaq üçün indiyə qədər aparılan tədqiqatların əksəriyyəti dar növ daxili müxtəliflik şəraitində cinsin təyin edilməsinə yönəlmişdir. Həqiqətən, ZW/ZZ (D. rotundata [18]) və XX/XY (D. floribunda, [19] D. tokoro, [20] D. alata, [16]) cinsi təyinetmə sistemləri yalnız iki valideynli populyasiyalardan istifadə etməklə təsvir edilmişdir. Bundan əlavə, poliploidiya ilə bağlı sterillik fərziyyəsi təkzib edilsə də, əvvəllər qeyd edildiyi kimi [14], çiçəkli birləşmələrin çoxu kişilər olduğu üçün qadınların sonsuzluğu ehtimalı müvafiq fərziyyədir (D. alata: [14] D. rotundata: [21]). Bu tapıntılar üzrə nəticə çıxarmaq üçün daha müxtəlif çeşidli yam birləşmələri üzrə əlavə tədqiqatlara ehtiyac var.

Bu tədqiqatın məqsədi heyvandarlıq proqramlarını gücləndirmək üçün yam reproduktiv biologiyası haqqında əlavə bilik toplamaq idi. Beləliklə, diqqətimizi üzərinə çəkdik D. alata, üçün: (i) çiçəkləmə üçün hər hansı bir genetik maneənin mövcudluğunu müəyyən etmək D. alata, və (ii) cinsin təyini ilə bağlı mövcud bilikləri daha geniş və daha müxtəlif çeşidli yam növlərinə genişləndirmək.


5.2 Məlumatlar nədir və biz onları nə üçün qruplaşdırırıq?

5.2.1 Klasterləşmə bəzən kəşflərə səbəb ola bilər.

John Snow vəba hadisələrinin xəritəsini hazırladı və müəyyən etdi klasterlər hallardan. Daha sonra o, nasosların vəziyyəti haqqında əlavə məlumat toplayıb. Sıx iş qruplarının Broadstreet nasosuna yaxınlığı mümkün günahkar kimi suya işarə etdi. O, ayrı-ayrı məlumat mənbələri topladı ki, bu da ona vəba xəstəliyinin mənbəyini müəyyən etməyə imkan verdi.

Şəkil 5.1: Con Snounun vəba hadisələrinin xəritəsi: hər evdə kiçik barqartlar diaqnoz qoyulmuş halların qruplaşmasını göstərir.

⊕ David Freedman bu kəşfə səbəb olan bütün addımların gözəl təfərrüatlı hesabatına malikdir (Freedman 1991) .

İndi Şəkil 5.2-də göstərilən Londonun başqa bir xəritəsinə baxaq. Qırmızı nöqtələr İkinci Dünya Müharibəsi zamanı bombalanmış yerləri göstərir. Müharibə zamanı analitik qruplar tərəfindən bir çox nəzəriyyələr irəli sürülüb. Onlar bombalama nümunələri üçün rasional izahat tapmağa çalışdılar (kommunal qurğulara, arsenallara, (. ) ). Əslində, müharibədən sonra məlum oldu ki, bombardmanlar müəyyən hədəfləri vurmaq cəhdi olmadan təsadüfi şəkildə paylanıb.

Şəkil 5.2: Budur, Britaniya Milli Arxivinin http://bombsight.org saytında təsvir olunduğu kimi, 7 sentyabr 1940-cı ildə Londona atılan bombaların yerinin xəritəsi.

Klasterləşdirmə mürəkkəb çoxdəyişənli məlumatları anlamaq üçün faydalı bir texnikadır nəzarətsiz 71 71 Bütün dəyişənlər eyni statusa malik olduğu üçün belə adlandırılmışıq, biz izahedici dəyişənlərdən alınan məlumat əsasında bir dəyişənin (nəzarətçi cavabı) dəyərini proqnozlaşdırmağa və ya öyrənməyə çalışmırıq. . Kəşfiyyat üsulları məlumatların şərhində vacib ola biləcək qruplaşmaları göstərir.

Məsələn, qruplaşma tədqiqatçılara xərçəng biologiyası haqqında anlayışlarını artırmağa imkan verdi. Anatomik yerləri və histopatologiyası əsasında eyni görünən şişlər, gen ifadəsi məlumatları kimi molekulyar imzalarına əsasən çoxlu qruplara düşdü (Hallett et al. 2012) . Nəhayət, bu cür qruplaşmalar yeni, daha uyğun xəstəlik növlərinin müəyyənləşdirilməsinə səbəb ola bilər. Münasiblik, məsələn, onların müxtəlif xəstə nəticələri ilə əlaqəli olması ilə sübut edilir. Bu fəsildə məqsədimiz Şəkil 5.3 kimi şəkillərin necə qurulduğunu və onların necə şərh olunduğunu anlamaqdır.

Şəkil 5.3: Döş xərçəngi nümunələri (Xərçəng Genom Atlası (TCGA) və Döş Xərçəngi Beynəlxalq Konsorsiumunun Molekulyar Taksonomiyası (METABRIC) tərəfindən göstərilmişdir) miRNA ifadələrindən istifadə edərək qruplara bölünə bilər (Aure et al. 2017), . Müəlliflər aşağı süjetlərdə müxtəlif % qruplarında sağ qalma müddətlərinin fərqli olduğunu göstərirlər. Beləliklə, bu qruplar bioloji və klinik cəhətdən aktual idi. Bu cür təhlillərin vədi ondan ibarətdir ki, qruplar daha spesifik, optimallaşdırılmış müalicələr təmin etmək üçün istifadə edilə bilər.

4-cü fəsildə biz artıq qrupların açılması üçün bir texnikanı, EM alqoritmini öyrənmişik. Bu fəsildə araşdırdığımız üsullar daha ümumidir və daha mürəkkəb məlumatlara tətbiq edilə bilər. Onların bir çoxu müşahidələr cütləri arasındakı məsafələrə əsaslanır (bu, hamıya qarşı ola bilər və ya bəzən yalnız hamısı bəzilərinə qarşı ola bilər) və onlar müəyyən paylanma ailələrini, məsələn, normal, qamma-Poisson, və s. Ədəbiyyatda və elmi proqram təminatı sahəsində çoxalma alqoritmlərinin yayılması qorxulu ola bilər. Əslində bu, məlumat növlərinin müxtəlifliyi və müxtəlif sahələrdə qarşıya qoyulan məqsədlərlə bağlıdır.

CRAN-da BiocViews Clustering və ya Cluster görünüşünə baxın və klasterləşdirmə alətlərini təmin edən paketlərin sayını sayın.

Şəkil 5.4: Klasterləşdirmə alqoritmində edilən seçimləri atılan addımlara uyğun olaraq parçalayırıq: xüsusiyyətlərə görə müşahidələr düzbucaqlı cədvəlindən başlayaraq (X) müşahidələrdən müşahidələrə məsafə ölçüsünü seçirik və məsafə matrisini hesablayırıq, burada üçbucaqla sxematikləşdirilmişdir. Klasterlərin qurulması üçün məsafələr istifadə olunur. Solda, biz sağda iyerarxik çoxluq ağacı quran aqlomerativ metodları, məlumatları alt çoxluqlara ayıran bölmə üsullarını sxematikləşdiririk. Hər iki üsul növü seçim edilməsini tələb edir: klasterlərin sayı (k). (k) kimi bölmə yanaşmaları üçün - o deməkdir ki, bu seçim iyerarxik klasterləşmə üçün başlanğıcda edilməlidir, bu təhlilin sonuna qədər təxirə salına bilər.


Şəkil 1. clusterMaker2 fəaliyyətdədir. Bu ekran görüntüsündə, Collins-dən maya zülal-zülal qarşılıqlı şəbəkəsi, et al. (2007a) MCL istifadə edərək qruplaşdırılmışdır. Gasch və başqalarından bir maya ifadəsi məlumatları dəsti. ÜFE məlumatlarına və Collins və digərlərindən bir maya genetik qarşılıqlı məlumat toplusu idxal edilmişdir. (2007b) ayrıca şəbəkə kimi idxal edilmişdir. Bütün şəbəkələr qovşaq identifikatorlarını paylaşır ki, onlar əlaqələndirilə bilsinlər. Genetik qarşılıqlı əlaqə şəbəkəsi və ifadə məlumat dəsti istilik xəritələri kimi göstərilir.

UCSF clusterMaker2 müxtəlif klasterləşdirmə, filtrləmə, sıralama, ölçülərin azaldılması alqoritmlərini müvafiq vizuallaşdırmalarla birlikdə vahid interfeysdə birləşdirən Cytoscape tətbiqidir. Mövcud klasterləşdirmə alqoritmlərinə iyerarxik, k-medoid, AutoSOME, k-means, ifadə və ya genetik məlumatların qruplaşdırılması üçün HOPACH, PAM və DBSCAN və MCL, tranzitivlik klasterləşməsi, yaxınlığın yayılması, MCODE, icma klasterləşməsi (GLAY), SCPS üçün SO ME və Automatik daxildir. oxşarlıq və ya məsafə dəyərlərinə əsaslanan şəbəkələri bölmək. Bundan əlavə, şəbəkələrin qeyri-səlis bölməsinə dəstək vermək üçün qeyri-səlis C-Means və yeni “fuzzyfier” alqoritmi əlavə edilib. Şəbəkə bölmələri çoxluqları post-klaster filtrləmə algioritmləri ilə də dəqiqləşdirilə bilər. Əlavə olaraq, clusterMaker2 atributlar siyahısından məsafə matrisinin yaradılmasına və şəbəkənin bağlı komponentlərini klasterə təyin etməklə “klasterləşmə”nin yaradılmasına əsaslanan korrelyasiya şəbəkəsi yaratmaq imkanını təmin edir. İerarxik, k-medoid, AutoSOME və k-vasitələr klasterləri qovşaqların iyerarxik qrupları və ya istilik xəritələri kimi göstərilə bilər. Bütün şəbəkə bölgü klaster alqoritmləri Cytoscape şəbəkəsi daxilində ehtimal olunan klasterlərin interaktiv tədqiqinə imkan vermək üçün yığıla bilən qruplar yaradır və nəticələr həmçinin yalnız çoxluqdaxili kənarları ehtiva edən və ya çoxluqlararası kənarları geri əlavə edilən ayrıca şəbəkə kimi göstərilə bilər.

Yuxarıda müzakirə edilən klassik klasterləşdirmə alqoritmlərinə əlavə olaraq, clusterMaker2 potensial ortoqonal məlumatlara (məsələn, ifadə məlumatlarının nəticələrinə əsasən MCL klasterinin nəticələrinin sıralanması) əsaslanan klasterləri sıralamaq üçün beş alqoritm və Əsas Komponent Analizi (PCA), Əsas Koordinat Analizi (PCoA) və t- daxil olmaqla üç ölçülü azaldılması yanaşması təmin edir. Paylanmış Stokastik Qonşu Yerləşdirmə (tSNE).

clusterMaker2 Cytoscape-in ​​3.4 və ya daha yeni versiyasını tələb edir və Cytoscape App Store-da mövcuddur.

  1. BMC Bioinformatika Ssenari 1: Şəbəkə kontekstində gen ifadə analizi.
  2. BMC Bioinformatika Ssenari 2: Proteomik və genetik qarşılıqlı əlaqə məlumatlarında komplekslərin tapılması.
  3. BMC Bioinformatika Ssenari 3: Zülal oxşarlıq şəbəkələrinin qruplaşdırılması ilə funksional annotasiya.

İçindəkilər

1. Quraşdırma

Şəkil 2. clusterMaker2 clusterMaker menyu.

Şəkil 3. clusterMaker2 clusterMaker Vizualizasiyaları menyu.

clusterMaker2 Cytoscape App Store vasitəsilə və ya mənbəni birbaşa RBVI git deposundan endirməklə əldə etmək olar. Yükləmək üçün clusterMaker2 App Store istifadə edərək, siz Cytoscape 3.1 və ya daha yenisini işlətməlisiniz. Onu quraşdırmaq üçün ya Cytoscape 3.1-i işə salın, sonra internet brauzerinizdə App Store-a keçin və "clusterMaker2" axtarın. "clusterMaker2" düyməsini seçsəniz, clusterMaker2 Tətbiq səhifəsinə və Yüklemek düyməsi mövcud olmalıdır. Bunun üzərinə klikləyin və o, avtomatik olaraq Cytoscape-ə quraşdırılacaq. Alternativ olaraq, istifadə edə bilərsiniz Tətbiqlər və Tətbiq Meneceri və axtarın clusterMaker2 və quraşdırın.

2. ClusterMaker2 işə salın

Bir dəfə clusterMaker2 quraşdırıldıqda, altında iki yeni menyu iyerarxiyası quraşdıracaq Proqramlar Əsas menyu: clusterMaker (Şəkil 2) və clusterMaker Vizualizasiyaları (Şəkil 3). Dəstəklənən klasterləşdirmə alqoritmlərinin hər biri ayrı menyu elementi kimi görünür clusterMaker menyu. Məlumatlarınızı qruplaşdırmaq üçün sadəcə seçin Proqramlar&rarrclusterMaker&rarralqoritm harada alqoritm istifadə etmək istədiyiniz klasterləşdirmə alqoritmidir (bax Şəkil 2). Bu, seçilmiş alqoritm üçün parametrlər dialoqunu gətirəcək (aşağıya baxın).

The clusterMaker Visualization menyu məlumatların istilik xəritəsini (klasterləşdirmədən) göstərmək də daxil olmaqla vizuallaşdırma seçimlərini və bu üsullardan hər hansı biri cari şəbəkədə yerinə yetirilibsə, İerarxik və ya k-Means klasterlərini göstərmək üçün uyğun seçimləri ehtiva edir. Klasterlər haqqında məlumat Cytoscape atributlarında saxlandığı üçün JTree TreeViewJTree KnnView seçimlər qruplaşmadan sonra saxlanılan sessiyada mövcud olacaq.

  • Atribut Klaster Alqoritmləri: qovşaq atributlarının siyahısı və ya bir kənar atribut klasterləşdirməni yerinə yetirmək üçün seçilir. Normal vizuallaşdırma, sıraların şəbəkədəki qovşaqlara uyğun olduğu bir növ istilik xəritəsidir. Bir sıra seçilməsi şəbəkədə müvafiq nodu seçir. Kenar atributu seçilərsə, sütunlar da şəbəkədəki qovşaqlara uyğun gəlir və istilik xəritəsində hüceyrə seçimi şəbəkədə kənarı seçir.
  • Şəbəkə Klaster Alqoritmləri: şəbəkəni bölmək üçün kənar atribut seçilir. Qeyri-səlis klaster alqoritmləri də şəbəkəni bölür, lakin qovşaqların birdən çox klasterdə olmasına icazə verilir. Normal vizuallaşdırma klasterlərdən yeni şəbəkə yaratmaqdır.
  • Şəbəkə filtri alqoritmləri: bunlar a sonra icra edilmək üçün nəzərdə tutulub Şəbəkə Klaster Alqoritmi yaranan bölməni dəqiqləşdirmək üçün işə salınmışdır.

3. Atribut Klaster Alqoritmləri

Şəkil 4. clusterMaker2 AutoSOME çoxluğu dialoq.

3.1 AvtoSOME

AutoSOME klasterləşməsi hər iki funksiyanı yerinə yetirən bir klaster alqoritmidir atribut klasteri alqoritm, eləcə də a şəbəkə klasteri alqoritm. AutoSOME alqoritmi Özünü Təşkil edən Xəritənin (SOM) istifadəsi ətrafında fırlanır. SOM-un nəzarətsiz təlimi giriş sahəsinin aşağı ölçülü təsvirini yaradır. AutoSOME-də bu ölçülü azaldılmış aralıq SOM şəbəkəsi boyunca qonşu qovşaqlar arasında oxşarlıqların 2D təsvirinə sıxılır. Bu qovşaqlar bir-birinə oxşarlıq sıxlığına əsasən 2D məkanında daha da təhrif edilir. Bundan sonra, yenidən ölçülən node koordinatlarından minimum əhatə edən ağac qurulur. Monte-Karlo nümunəsi ağacın bütün kənarları üçün p-dəyərlərini hesablamaq üçün istifadə olunur. Birin altındakı kənarlar daxil edilir P-dəyər həddi sonra klasterləşdirmə nəticələrini geridə qoyaraq silinir. Stokastik əsaslı çıxış dəyişikliyini minimuma endirmək üçün AutoSOME klasterləşməsi bir neçə dəfə təkrarlana bilər. Klasterləşdirmə nəticələri artan bir şəkildə maksimum keyfiyyətdə sabitləşir Ansambl qaçışlarının sayı, giriş parametrlərindən biridir. Statistik olaraq, sabit klasterləşmə yaratmaq üçün 25-50 ansambl qaçışı kifayətdir.

Massiv Mənbələri
Məlumat Girişi
AutoSOME Əsas Tuning
Məlumatların Normallaşdırılması
    Xüsusi Dəyərlər təyin etməyin Normallaşma yoxdur Deaktiv edin Log2 ÖlçəkləməVahid fərqi və dəstlər Median MərkəzləşdirməKvadratların cəmi=1 üçün Heç biri. İfadə məlumatları 1 Hər ikisini aktivləşdirin Log2 ÖlçəkləməVahid fərqi və təyin edin Median Mərkəzləşdirmə üçün GenlərKvadratların cəmi=1 üçün Heç biri. İfadə məlumatları 2 Hər ikisini aktivləşdirin Log2 ÖlçəkləməVahid fərqi və təyin edin Median Mərkəzləşdirmə üçün GenlərKvadratların cəmi=1 üçün Hər ikisi.
    Heç biriGenlərMassivlərHər ikisi
    Heç biriGenlərMassivlərHər ikisi
    Sıra Orta Bütün çatışmayan dəyərləri dəyərin göründüyü sıranın orta dəyərinə təyin edin. Sıra Median Bütün çatışmayan dəyərləri dəyərin göründüyü sıranın median dəyərinə təyin edin. Sütun Ortası Bütün çatışmayan dəyərləri dəyərin göründüyü sütunun orta dəyərinə təyin edin. Sütun medianı Bütün çatışmayan dəyərləri dəyərin göründüyü sütunun median dəyərinə təyin edin.
Qeyri-səlis Klaster Şəbəkə Parametrləri
    Düyünlər (Genlər)Atributlar (massivlər)
    Mərkəzsiz KorrelyasiyaPearson korrelyasiyasıEvklid
Cytoscape Ətraflı Parametrlər
Data Çıxışı
    Şəbəkə Nəticələri yeni şəbəkə kimi təsəvvür edin İstilik xəritəsi Nəticələri HeatMap kimi görüntüləyin

3.2 Korrelyasiya şəbəkələrinin yaradılması

Şəkil 5. clusterMaker2 Korrelyasiya şəbəkəsi yaradın dialoq.

  • Evklid məsafəsi: bu, dəyərlər arasındakı fərqlərin kvadratlarının cəminin kvadrat kökü kimi hesablanan iki cərgə arasındakı sadə ikiölçülü Evklid məsafəsidir.
  • Şəhər-blok məsafəsi: iki sətirdəki qiymətlər arasındakı fərqlərin mütləq qiymətinin cəmi.
  • Pearson korrelyasiyası: müqayisə edilən iki cərgədəki dəyərlərin Pearson məhsul-moment əmsalı. Bu dəyər iki cərgənin kovariasiyasını onların standart kənarlaşmalarının hasilinə bölmək yolu ilə hesablanır.
  • Pearson korrelyasiyası, mütləq dəyər: yuxarıdakı dəyərə bənzəyir, lakin iki cərgənin kovariasiyasının mütləq dəyərindən istifadə etməklə.
  • Mərkəzsiz korrelyasiya: standart Pearson korrelyasiyasına kvadratların cəmini sıfır ətrafında mərkəzləşdirmək üçün şərtlər daxildir. Bu metrik kvadratların cəmini mərkəzləşdirməyə cəhd etmir.
  • Mərkəzsiz korrelyasiya, mütləq dəyər: yuxarıdakı dəyərə bənzəyir, lakin iki cərgənin kovariasiyasının mütləq dəyərindən istifadə etməklə.
  • Spearmanın dərəcə korrelyasiyası: Spearmanın dərəcə korrelyasiyası (&rho) iki sıra arasındakı korrelyasiyanın qeyri-parametrik ölçüsüdür. Bu metrik sətirlərdəki dəyərlərin tezlik paylanması ilə bağlı heç bir fərziyyəyə yol vermədiyi üçün faydalıdır, lakin hesablanması nisbətən bahadır (yəni, vaxt aparan).
  • Kendall's tau: Kendall tau dərəcə korrelyasiya əmsalı (&tau) iki sıra arasında. Spearmanın rütbə korrelyasiyasında olduğu kimi, bu metrik parametrik deyil və hesablama baxımından parametrik statistikadan daha bahalıdır.
  • Heç biri - atributlar korrelyasiyadır: Məsafə hesablamaları aparılmır. Bu, atributların artıq korrelyasiya olduğunu güman edir (ehtimal ki, yalnız kənar atributlar üçün faydalıdır). Qeyd edək ki, atributlar da normallaşdırılmayıb, ona görə də korrelyasiya 0 ilə 1 arasında olmalıdır.
Massiv mənbələri
Klasterləşdirmə Parametrləri
Vizuallaşdırma Seçimləri
Qabaqcıl Parametrlər

3.3 İerarxik Klasterləşdirmə

Şəkil 6. clusterMaker2 İyerarxik klaster dialoq.

  • cüt orta əlaqə: iki qrupdakı bütün element cütləri arasındakı orta məsafə
  • cüt-cüt tək əlaqə: iki qrupdakı bütün element cütləri arasındakı ən kiçik məsafə
  • ikili maksimum əlaqə: iki qrupdakı bütün element cütləri arasındakı ən böyük məsafə
  • cüt mərkəzli əlaqə: iki qrupdakı bütün element cütlərinin mərkəzləri arasındakı məsafə
  • Evklid məsafəsi: bu, dəyərlər arasındakı fərqlərin kvadratlarının cəminin kvadrat kökü kimi hesablanan iki cərgə arasındakı sadə ikiölçülü Evklid məsafəsidir.
  • Şəhər-blok məsafəsi: iki sətirdəki qiymətlər arasındakı fərqlərin mütləq qiymətinin cəmi.
  • Pearson korrelyasiyası: müqayisə edilən iki cərgədəki dəyərlərin Pearson məhsul-moment əmsalı. Bu dəyər iki cərgənin kovariasiyasını onların standart kənarlaşmalarının hasilinə bölmək yolu ilə hesablanır.
  • Pearson korrelyasiyası, mütləq dəyər: yuxarıdakı dəyərə bənzəyir, lakin iki cərgənin kovariasiyasının mütləq dəyərindən istifadə etməklə.
  • Mərkəzsiz korrelyasiya: standart Pearson korrelyasiyasına kvadratların cəmini sıfır ətrafında mərkəzləşdirmək üçün şərtlər daxildir. Bu metrik kvadratların cəmini mərkəzləşdirməyə cəhd etmir.
  • Mərkəzsiz korrelyasiya, mütləq dəyər: yuxarıdakı dəyərə bənzəyir, lakin iki cərgənin kovariasiyasının mütləq dəyərindən istifadə etməklə.
  • Spearmanın dərəcə korrelyasiyası: Spearmanın dərəcə korrelyasiyası (&rho) iki sıra arasındakı korrelyasiyanın qeyri-parametrik ölçüsüdür. Bu metrik sətirlərdəki dəyərlərin tezlik paylanması ilə bağlı heç bir fərziyyəyə yol vermədiyi üçün faydalıdır, lakin hesablanması nisbətən bahadır (yəni, vaxt aparan).
  • Kendall's tau: Kendall tau dərəcə korrelyasiya əmsalı (&tau) iki sıra arasında. Spearmanın rütbə korrelyasiyasında olduğu kimi, bu metrik parametrik deyil və hesablama baxımından parametrik statistikadan daha bahalıdır.
  • Heç biri - atributlar korrelyasiyadır: Məsafə hesablamaları aparılmır. Bu, atributların artıq korrelyasiya olduğunu güman edir (ehtimal ki, yalnız kənar atributlar üçün faydalıdır). Qeyd edək ki, atributlar da normallaşdırılmayıb, ona görə də korrelyasiya 0 ilə 1 arasında olmalıdır.
Massiv mənbələri
Klasterləşdirmə Parametrləri
Qabaqcıl Parametrlər
Vizuallaşdırma Seçimləri

Şəkil 7. clusterMaker2 K - çoxluq deməkdir dialoq.

3.4 K-Klasterləşdirmə deməkdir

K-Cluster parametrləri
K-Means Parametrləri
Vizuallaşdırma Seçimləri

3.5 K-Medoid Klasterləşdirmə

3.6 HOPACH Klasterləşdirilməsi

Əsas HOPACH Tuning Parametrləri
Massiv Mənbələri
HOPACH Parametrləri
Vizuallaşdırma Seçimləri

3.7 Medoidlər ətrafında bölmə (PAM) Klasterləşdirmə

K-Cluster parametrləri
PAM Parametrləri
Vizuallaşdırma Seçimləri

3.8 Ən Uzaq İlk Kəsmə K-mərkəzi Klasterləşdirmə

3.9 Səs-küylü tətbiqlərin sıxlığa əsaslanan məkan qruplaşması (DBSCAN) klasteri

Parametrlər
Massiv mənbələri
DBSCAN Parametrləri
Vizuallaşdırma Seçimləri

3.10 Cheng & Church's Bi-Cluster

4. Şəbəkə Klaster Alqoritmləri

Şəbəkə klaster alqoritmlərinin əsas funksiyası aşkar etməkdir təbii qruplaşmalar şəbəkə daxilində qovşaqların. Bu qruplar ümumiyyətlə iki qovşaq arasında bəzi oxşarlıq və ya məsafə metrikasını ehtiva edən rəqəmsal kənar atributu ilə müəyyən edilir, baxmayaraq ki, bəzi alqoritmlər sırf kənarın mövcudluğuna (yəni əlaqə) əsaslanır. Daha çox oxşar (və ya bir-birinə daha yaxın olan) qovşaqların qruplaşdırılma ehtimalı daha yüksəkdir.

Şəkil 8. clusterMaker2 Yaxınlığın yayılması çoxluğu dialoq.

4.1 Yaxınlığın yayılması

Affinity Progation, hansı nöqtələrin məlumat mərkəzi kimi xidmət etdiyini müəyyən etmək üçün şəbəkədəki nöqtələr arasında məlumat axınını modelləşdirir. Bu məlumat mərkəzləri adlanır nümunələr.İlkin olaraq, AP bütün məlumat nöqtələrini potensial nümunələr kimi nəzərdən keçirir. Real qiymətli mesajlar hər iterasiyada məlumat nöqtələri arasında mübadilə edilir. Köçürülən mesajların gücü hər hansı bir nöqtənin hər hansı digər nöqtəyə nümunə kimi xidmət etmə dərəcəsini müəyyən edir. Mümkün nümunəvi təyinatın keyfiyyəti kvadrat xəta enerji funksiyası ilə müəyyən edilir. Nəhayət, alqoritm yaxşı nümunələr toplusuna əsaslanaraq minimal enerjiyə çatır. Nümunələr daha sonra uyğun klasterləri çıxarmaq üçün istifadə olunur. AP aşağıda müzakirə olunan üç parametri giriş kimi qəbul edir.

AP Tuning
Massiv məlumatları üçün mənbə
  • Heç biri: Heç bir çevirmə etməyin
  • 1/dəyər: Dəyərin tərsini istifadə edin. Bu dəyər oxşarlıq metrikasından çox məsafə (fərq) olduqda faydalıdır.
  • LOG(dəyər): Dəyər jurnalını götürün.
  • -LOG(dəyər): Dəyərin mənfi jurnalını götürün. Edge atributunuz gözlənti dəyəridirsə, bundan istifadə edin.
  • SCPS: SCPS (Zülal Ardıcıllıqlarının Spektral Klasterləşdirilməsi) alqoritmini təsvir edən sənəd BLAST gözlənti dəyərləri üçün xüsusi çəkidən istifadə edir. Bu kənar çəkiyə çevrilmə həmin ağırlığı həyata keçirir.
Kənar çəkisinin kəsilməsi

Şəkil 9. clusterMaker2 Kənar Çəki Histoqramı Set Cutoff slayderi aktivləşdirilmiş dialoq.

  • Kesimi təyin edin Bu, qrafikə şaquli xətt qoyur və istifadəçiyə kəsmə dəyərini təyin etmək üçün xətti sürükləməyə imkan verir. Vertikul xəttini aktivləşdirmək üçün düyməni basdıqdan sonra historqramma daxil olmalısınız. Bu dəyərə malik olan kənarların dəyəri və sayı xəttin yuxarı hissəsində göstərilir (Şəkil 9-a baxın). Sürüşdürmə sürükləndikcə dəyəri təyin edir, ona görə də istədiyiniz kəsmə seçildikdən sonra əlavə hərəkətə ehtiyac yoxdur.
  • Yaxın Dialoqu bağlayın.
  • Yaxınlaşdırma Dialoqu böyüdür (eni 2-ə vurur). Histoqram sürüşdürmə pəncərəsində yerləşdirilir ki, istifadəçi bütün histoqrama daxil olmağa davam edə bilsin. Bu düymə təkrar basıla bilər.
  • Uzaqlaşdır İstifadəçi ilə dialoqu genişləndiribsə Yaxınlaşdırma düyməsinə basarsanız, bu düymə istifadəçiyə uzaqlaşdırmağa imkan verir.
  • Heuristik olaraq kəsmə seçin Bu, Apeltsin və et. al. (2011).
Massiv məlumatlarının tənzimlənməsi
Cytoscape Ətraflı Parametrlər
Vizuallaşdırma Seçimləri

Şəkil 10. clusterMaker2 Klaster Fuzzifier dialoq.

4.2 "Fuzzifier" klasteri

Biologiyada arakəsmələr nadir hallarda "sərt" olur və əksər bioloji tədbirlər müəyyən dərəcədə "qeyri-səlis" olur. Digər tərəfdən, biologiya üçün hazırlanmış şəbəkə klasterləşdirmə alqoritmlərinin əksəriyyəti sərt bölmələri yerinə yetirir. Məsələn, sabit kompleksləri müəyyən etmək üçün zülal-zülal qarşılıqlı şəbəkəsini bölmək və ya zülalları funksional qruplara şərh etmək üçün zülal-zülal oxşarlığı şəbəkəsini bölmək. Bu halların hər ikisində faktiki biologiya klasterləşdirmə alqoritmindən daha nüanslı bir görünüş verir. Məsələn, çoxlu komplekslərin üzvü olan zülallar sərt qruplaşmada yalnız birinə təyin ediləcək. Bu alqoritm klasterləşmə alqoritminin özünü yenidən kəşf etmədən çətin klasterləşmədə itirilmiş bəzi çatışmayan nüansları bərpa etmək üçün ilkin addımdır. Çox sadə bir yanaşma tələb edir qeyri-səlisləşdirici mövcud klaster nəticəsi (yəni, qismən üzvlük məlumatını mövcud sərt bölməyə bərpa edir). O, bunu qeyri-səlis c-vasitələr kimi hər bir klasterin mərkəzini hesablamaqla (aşağıya bax) və düyünün həmin mərkəzdən məsafəsini təyin etməklə edir. Bu üzvlük məlumatı şəbəkədə əlavə üzvlük kənarları kimi görüntülənə bilər.

Massiv Mənbələri
Kənar çəkisinin kəsilməsi
Massiv məlumatlarının tənzimlənməsi
Fuzzifier Qabaqcıl Parametrləri
Cytoscape Ətraflı Parametrlər
Vizuallaşdırma Seçimləri

Şəkil 11. clusterMaker2 İcma klasteri (GLay) dialoq.

4.3 İcma Klasterləşdirilməsi (GLay)

İcma klasterləşdirmə alqoritmi GLay Cytoscape plagini tərəfindən həyata keçirilən Girvan-Newman sürətli acgöz alqoritminin tətbiqidir. Bu alqoritm yalnız bağlantı üzərində işləyir, ona görə də massiv mənbəyi seçmək üçün seçimlər yoxdur, Yalnız seçilmiş qovşaqları birləşdirinFərz edin ki, kənarları yönləndirilməyib. O, bütün Cytoscape Advanced Settings seçimlərini, eləcə də Vizuallaşdırma Seçimlərini dəstəkləyir.

Şəkil 12. clusterMaker2 Qoşulmuş komponentlər klasteri dialoq.

4.4 Birləşdirilmiş komponentlər

Bu, sadəcə olaraq şəbəkənin bütün ayrılmış komponentlərini tapan və hər bir ayrılmış komponentə klaster kimi baxan çox sadə “klaster”dir. O, Massiv Mənbələri, Massiv Məlumat Tənzimləmələri, Cytoscape Qabaqcıl Parametrləri və Vizuallaşdırma Seçimləri seçimlərini dəstəkləyir. Şəkil 12 Qoşulmuş Komponentlər klasteri üçün seçimlər panelini göstərir.

Şəkil 13. clusterMaker2 Qeyri-səlis C-Means klasteri dialoq.

4.4 Qeyri-səlis C-vasitələri

Qeyri-səlis C-Means qeyri-səlis klasterləşdirmə alqoritmidir və k-vasitəsi ilə oxşardır. Bir node birdən çox klasterə aid ola biləcəyi üçün "qeyri-səlis"dir. Alqoritm "üzvlük dərəcəsini" (və ya üzvlük ehtimalını" bütün üzvlərin ortası alınmaqla hesablanmış düyünlə klasterin mərkəzi hissəsi arasındakı məsafəyə əsaslanaraq hesablayır. k-vasitəsi kimi, bu alqoritm də hesab edir ki, klasterlər məlumdur (baxmayaraq ki, bizim tətbiqimizdə bu, təxmin edilə bilər).

Massiv Mənbələri
Kənar çəkisinin kəsilməsi
Massiv məlumatlarının tənzimlənməsi
FCM Qabaqcıl Parametrləri
Cytoscape Ətraflı Parametrlər
Vizuallaşdırma Seçimləri

Şəkil 14. clusterMaker2 MCODE klasteri dialoq.

4.5 MCODE

  1. Yerli şəbəkə sıxlığına əsasən bütün qovşaqları ağırlaşdıran vertex çəkisi.
  2. Molekulyar kompleksin proqnozu, ən yüksək çəkili düyünlə baxaraq, verilmiş həddən yuxarı olan kompleksə qovşaqlar əlavə edərək rekursiv şəkildə hərəkət edir.
  3. Klaster keyfiyyətini yaxşılaşdırmaq üçün filtrlər tətbiq edən post-processing.
MCODE Tuning
Təkmil Tuning Seçimləri
Şəbəkə Qiymətləndirməsi
Klasterin tapılması

Şəkil 15. clusterMaker2 MCL çoxluğu dialoq.

4.6 MCL

Markov CLusting Alqoritmi (MCL) qrafikdəki axının simulyasiyasına əsaslanan qrafiklər üçün sürətli bölücü klasterləşdirmə alqoritmidir. MCL, zülal-zülal oxşarlığı şəbəkələri kimi mürəkkəb bioloji şəbəkələrə tətbiq edilmişdir. Bütün klasterləşdirmə alqoritmlərində olduğu kimi, ilk addım qruplaşdırılacaq dəyərlərin matrisini yaratmaqdır. MCL üçün bu dəyərlər kənar atributlarda saxlanmalıdır. Matris yaradıldıqdan sonra MCL alqoritmi müəyyən sayda iterasiya üçün tətbiq edilir. MCL-in hər iterasiyasında iki əsas addım var. Birincisi genişlənmə orijinal matrisin xətti cəbri matris-matris vurmasının eyni ölçülü boş matrisə çarpdırılması ilə matrisin genişləndirildiyi faza. Növbəti addımdır inflyasiya matrisdəki sıfırdan fərqli hər bir dəyər bir gücə qaldırıldıqdan sonra nəticənin diaqonal miqyasını həyata keçirən mərhələ. Müəyyən həddən aşağı olan istənilən qiymətlər hər iterasiyada normallaşdırma (miqyaslaşdırma) addımından sonra matrisdən çıxarılır. Bu proses zamanı axının yayılmasını modelləşdirir genişlənmə, onun daha homojen olmasına imkan verir, sonra isə zamanı daralır inflyasiya, burada daha yüksək cərəyan olan bölgələrdə qalınlaşır və aşağı cərəyan bölgələrində daha incə olur. MCL alqoritminin bu versiyası çoxnüvəli prosessorlarda performansı yaxşılaşdırmaq üçün paralelləşdirilmişdir.

MCL dialoqu Şəkil 15-də göstərilmişdir. MCL bir parametrə malikdir və Array Sources və Cytoscape Advanced Settings seçimlərini, həmçinin dörd təkmil parametrlər dəstini dəstəkləyir. Hər bir parametr aşağıda müzakirə olunur:

Əsas MCL Tuning

1,8-dən 2,5-ə qədər. Əksər şəbəkələr üçün yaxşı başlanğıc nöqtəsi 2.0-dır.

Massiv məlumatları üçün mənbə
Kənar çəkisinin kəsilməsi
Massiv məlumatlarının tənzimlənməsi
MCL Qabaqcıl Parametrləri
Cytoscape Ətraflı Parametrlər
Vizuallaşdırma Seçimləri

Şəkil 16. clusterMaker2 SCPS klasteri dialoq.

4.7 SCPS (Zülal Ardıcıllıqlarının Spektral Klasterləşdirilməsi)

SCPS zülalları qruplaşdırmaq üçün nəzərdə tutulmuş spektral üsuldur. Spektral üsullar daha az ölçülərdə qruplaşma üçün ölçülərin azaldılmasını yerinə yetirmək üçün giriş oxşarlıq matrisində öz dəyərlərindən istifadə edir. SCPS k ən böyük xüsusi vektordan matris qurur, burada k müəyyən ediləcək klasterlərin sayıdır. Həmin matrisin normallaşdırılmış transpozisiyası daha sonra standart k-vasitələr klasterləşdirmə alqoritminə giriş kimi istifadə olunur. İstifadəçi müəyyən edə bilər Klasterlərin sayı Əvvəlcədən təyin edilmiş dəyəri olan parametr k, eləcə də İterasiyaların sayı ki, k-vasitəsi işlədilmək deməkdir. Bununla belə, istifadəçi k-nin dəyərini əvvəlcədən bilmirsə, o, müəyyən edə bilər Klasterlərin sayı -1 və SCPS avtomatlaşdırılmış evristikdən istifadə edərək k üçün dəyər seçəcək. Evristik ən kiçik k tam ədədini seçir ki, k-ci və k+1-ci xüsusi dəyərin nisbəti ondan böyük olsun. Epsilon Paramter. 1.02 epsilon müxtəlif zülalları super ailələrə toplamaq üçün yaxşıdır. Daha dənəvər epsilon 1.1 zülalları funksional ailələrə toplaya bilər.

SCPS Tuning
    Epsilon Parametri: İstifadə ediləcək epsilon parametri. İterasiyaların sayı: k-vasitəsi klasterləşdirmə üçün təkrarların sayı. Klasterlərin sayı: Klasterlərin sayı. Bu -1 olarsa, SCPS avtomatlaşdırılmış evristikdən istifadə edərək k üçün dəyər seçəcək.
Massiv Mənbələri
Kənar çəkisinin kəsilməsi
Massiv məlumatlarının tənzimlənməsi
Cytoscape Ətraflı Parametrlər
Vizuallaşdırma Seçimləri

Şəkil 16. clusterMaker2 Tranzitivlik klasteri dialoq.

4.8 Transitivlik Klasterləşdirilməsi

TransClust biotibbi verilənlər bazasında baş verən gizli keçid xarakterini özündə birləşdirən klasterləşdirmə vasitəsidir. O, çəkilmiş keçid qrafiki proyeksiyasına əsaslanır. Kənarların əlavə edilməsi və çıxarılması üçün xərc funksiyası şəbəkəni kənarların əlavə edilməsi və çıxarılması üçün minimal xərclərlə keçid qrafikinə çevirmək üçün istifadə olunur. Son keçid qrafiki tərifinə görə çoxluq çıxışına ekvivalent olan fərqli qruplardan ibarətdir.

Massiv Mənbələri
Kənar çəkisinin kəsilməsi
Massiv məlumatlarının tənzimlənməsi
Təkmil Tuning Parametrləri
Dəqiq həlli tapın
    Maks. Alt qrup ölçüsü: Alt klasterin maksimum ölçüsü. Bu seçim tam olaraq saxlanacaq alt problemlərin ölçüsünü tənzimləyir. Nömrə nə qədər yüksək olsa, işləmə vaxtı bir o qədər yüksəkdir, həm də dəqiqlik. Sürətli kompüterlər üçün bu dəyəri 50-yə təyin etmək istəyə bilərsiniz. Maks. Vaxt (saniyə): Alqoritmdə hər bir döngəni yerinə yetirmək üçün saniyələrlə maksimum vaxt. Bu parametrin artırılması həm işləmə müddətini, həm də dəqiqliyi artırır. Sürətli kompüterlər üçün bu dəyəri 2-yə təyin etmək istəyə bilərsiniz.
Düyünləri birləşdirin
    Çox oxşar qovşaqları birinə birləşdirin?: Əgər bu doğrudursa, hədd parametrini aşan qovşaqlar klasterləşmə zamanı virtual olaraq bir obyektdə birləşdiriləcək. Bu, işləmə müddətini kəskin şəkildə azalda bilər. Həddi: Qovşaqları birləşdirmək üçün hədd, birləşmə parametri aktivləşdirilir. Smiliarity funksiyası kimi BLAST-dan istifadə edərək zülal ardıcıllığının qruplaşdırılması üçün həddi 323-ə təyin etmək məqsədəuyğun ola bilər, çünki bu, əldə edilə bilən ən yüksək oxşarlıqdır.
Paralel hesablama
Cytoscape Ətraflı Parametrlər
Vizuallaşdırma Seçimləri

5. Filtrləmə Klasterləri

Şəkil 18. Ən yaxşı qonşu filtri üçün parametrlər dialoqu.

5.1 Ən yaxşı qonşu filtri

BestNeighbor Filter Əsas Parametrləri
    Çoxluqdakı qovşaq kənarlarının nisbəti Klasterin üzvü olan bu node üçün kənarların nisbəti. Qeyd edək ki, bu çəkisizdir, ona görə də bu filtrdən istifadə edərkən diqqətli olmaq lazımdır
    Filtrləmək üçün klaster nəticələri sütunu Bu, filtrləmə üçün istifadə ediləcək klaster nömrələrini ehtiva edən atributdur.

Şəkil 19. Kəskin Kenar Filtri üçün parametrlər dialoqu.

5.2 Ən Kəskin Kənar Filtr

Kəskin Edge Əsas Parametrləri
    Daxili kənar nisbəti Daxili kənarların ümumi kənarlara nisbəti. Dəyərlər 0-dan 1-ə qədər dəyişə bilər, burada 0 çoxluğun daxili kənarlarının olmadığını, 1 isə bütün kənarların kənarların içərisində olduğunu bildirir.
    Filtrləmək üçün klaster nəticələri sütunu Bu, filtrləmə üçün istifadə ediləcək klaster nömrələrini ehtiva edən atributdur.

Şəkil 20. Sıxlıq Filtri üçün parametrlər dialoqu.

5.3 Sıxlıq Filtri

Sıxlıq Filtrinin Əsas Parametrləri
    Minimum sıxlıq Klasterin saxlanmalı olduğu minimum sıxlıq, burada 0 çoxluğun daxili kənarlarının olmadığını və 1 bütün qovşaqların bütün digər qovşaqlara qoşulduğunu bildirir (tam bağlıdır).
    Filtrləmək üçün klaster nəticələri sütunu Bu, filtrləmə üçün istifadə ediləcək klaster nömrələrini ehtiva edən atributdur.

Şəkil 21. Saç kəsimi filtri üçün parametrlər dialoqu.

5.4 Saç kəsimi filtri

HairCut Filter Əsas Parametrləri
    Minimum dərəcə Bu, klaster daxilində saxlanılacaq qovşaq üçün minimum dərəcədir.
    Filtrləmək üçün klaster nəticələri sütunu Bu, filtrləmə üçün istifadə ediləcək klaster nömrələrini ehtiva edən atributdur.

6. Klasterlərin sıralanması

6.1 Çoxlu qovşaqlar və kənarlar (Əlavə cəmi)

Çoxsaylı atribut əlavəsi (MMA) paneli istifadəçiyə qovşaqlardan və kənarlardan qeyri-məhdud sayda atribut seçmək imkanı verir.

MMA hər klasterdəki bütün qovşaqlardan keçir və istifadəçinin seçdiyi nömrə atributlarını ümumiləşdirir. Daha sonra hər bir klaster, hər bir klasterdəki orta məbləğə əsasən sıralanır və aşağıya doğru sıralanır, ən yüksək rütbəli klaster prostat xərçəngi biomarker klasteri olaraq ən çox ehtimal olunur.

Klasterdə kənarları necə sıralamaqla bağlı bir sual var. Cytoscape-də istifadəçi üçün siyahıya alındığı üçün hər bir kənarı sıralamağı seçdik. Beləliklə, kənar cədvəldə yalnız bir dəfə siyahıya alınarsa, əlavə olaraq yalnız bir dəfə hesablanacaqdır. Bu qərar sadəliyə əsaslanırdı. Kenarı istifadəçinin onu müəyyən etmədiyi və ya başa düşə bilmədiyi bir şey kimi təqdim etməmək. Bəzi çoxluq alqoritmləri eyni qovşağı və ya kənarı bir neçə klasterə təyin edə bilər, baxmayaraq ki, bu tezisdə istifadə etdiyim alqoritmlərdə belə deyil. Bunun üçün dəstək yalnız MAA və MAM tərəfindən həyata keçirilir, çünki onlar klasterləşdirmə alqoritmlərinin istifadə edilməsinə dair yekun qərardan əvvəl həyata keçirilirdi. Əgər MAA/MAM bir qovşaq və ya kənar üçün bir neçə xalın bu xüsusi halını aşkar edərsə, ona ən yüksək dəyəri təyin edəcək. Bu xüsusiyyəti Ranklust-da buraxmağın səbəbi, gələcəkdə bir problem olarsa, bunun necə edilə biləcəyinə dair bir nümunəyə sahib olmaqdır.

6.2 Çoxlu qovşaqlar və kənarlar (cəmi çarpın)

Çoxlu atributların vurulması (MAM) metodu əvvəldən mövcud olanları nəzərə alsaq, müəyyən dərəcədə lazımsızdır. clusterMaker2 klaster sıralaması. MAA-dan yeganə fərq balların daxil olacağı miqyasdır. MAA toplama yolu ilə çoxluqdakı hər bir düyün və kənardan balları əlavə edir, MAM bunu vurma ilə edir.

Vurma zamanı yaranan problem 0 ilə 1 arasında olan qovşaqları ehtiva edən klasterlər üçün xalların hesablanmasıdır, çünki xal o dərəcədə azalacaq ki, xalları normallaşdırarkən onunla işləmək çətin olacaq. Bu problem üçün seçdiyim həll klaster ortalamasına əlavə olunacaq baldan yeni bir xal çıxarmaq və ona 1.0 əlavə etməkdir. Bu yolla, klasterdəki mövcud orta xal yeni bala vurulduqda, köhnə qiymət 0,0 və ya həm köhnə, həm də yeni qiymət 1,0 olmadıqda, həmişə artacaq. 1-dən yuxarı qiymətlər olduqda, ballar 0-dan n arasında dəyişirsə, onu ardıcıl saxlamaq üçün onlara 1.0 artım da veriləcək. Alqoritmi işə salmazdan əvvəl hər bir dəyərin normallaşdırılması bütün dəyərləri 0 ilə 1 arasında saxlamağa kömək edir və beləliklə, 1.0-dan yuxarı hesaba 1.0 əlavə edərkən miqyaslama problemlərinin qarşısını alır. 1.0 əlavə etmək üçün bütün səbəb artmaq lazım olanda xalın azalması probleminə qarşı çıxmaq idi.

6.3 PageRank

6.4 Əvvəlkilərlə PageRank

Təsadüfi gəzintilər alqoritmi biomarker namizədlərinin prioritetləşdirilməsində effektiv olduğunu sübut etdi. PageRank (PR) Random Walks prinsipinə əsaslanan alqoritmdir və əvvəllər Google tərəfindən veb-səhifələri sıralamaq üçün istifadə edilirdi. PageRank with Priors (PRWP) PR-nin dəyişdirilmiş versiyasıdır, burada qovşaqlara və kənarlara PR-nin şəbəkəni keçməsindən əvvəl bir xal təyin edilə bilər. PR-nin kənarlara təyin edilmiş dəyərləri ola bilər, lakin PRWP-nin etdiyi klasterləri sıralamaq üçün heç bir xal tələb etmir.

PR və PRWP ilə müqayisədə MAA və MAM arasındakı fərq şəbəkənin necə qiymətləndirildiyidir. MAA və MAM, klaster atributuna uyğun olaraq kənarlar və qovşaqlardakı atributları yekunlaşdırmaqla hər bir çoxluq üçün xal hesablayır. PRWP qruplaşma atributundan asılı olmayaraq cari şəbəkəni qiymətləndirir.

MCL eyni şəbəkənin qeyri-klasterli və klasterli iki növü ilə işləmək imkanını açan klasterləşdirilmiş şəbəkə yaratmaq seçimini verir. Onların hər ikisi şəbəkədə, kənarda və qovşaq cədvəlində klaster atributuna malikdir ki, sıralama alqoritmləri klasterləri qiymətləndirə bilsin. PRWP hazırda seçilmiş şəbəkəni Cytoscape-də qiymətləndirir, nəticədə qruplaşdırılmamış şəbəkə və ya klasterli şəbəkənin qiymətləndirilməsi variantı yaranır. Sonuncu seçim klasterləşdirmə alqoritminə hesaba daha böyük təsir göstərir, çünki klasterləşdirilmiş şəbəkə eyni klasterdə olmayan qovşaqlar arasında kənarları pozur. Cytoscape-də MCL "klasterlərarası" birləşdirici kənarları göstərə bilər ki, bu da klasterləşmə zamanı pozulmuş egdesdir. Bu sonuncu seçim digər ikisinin birləşməsidir. O, vizual olaraq klaster şəbəkəsinə yaxın olacaq, lakin klasterlərarası kənarları olan şəbəkədə işləyən alqoritmlər yalnız klaster atributunu ehtiva edən şəbəkə ilə eyni nəticəyə sahib olacaqlar.

Tətbiq baxımından, alqoritmin icrası başa çatdıqdan sonra xalların şəbəkədə necə saxlanmasında da fərq var. Bütün xallar qovşaqlarda saxlanılır. İstifadəçiyə kənarların alınan ballar haqqında məlumat vermək üçün hər bir kənar qovşaqlar kimi üzvü olduğu klaster üçün ümumi balı göstərəcəkdir. Yalnız PRWP və PR də tək node hesabını göstərəcək.

6.5 Hiperlink ilə əlaqəli mövzu axtarışı

Buna misal olaraq hesab atributu ilə PRWP, sonra eyni şəbəkədə HITS işlədilməsi ola bilər. Növbəti addım PRWP və HITS-dən alınan iki balı MAA ilə birləşdirmək olacaq.

7. Ölçülərin azaldılması

Yeni clusterMaker2 1.1 və sonrakı versiyalar ölçülərin azaldılması üçün alqoritmlərin əlavə edilməsidir. Ölçülərin azaldılması təhlilinin ağlabatan müzakirəsi Vikipediyada mövcuddur.

Şəkil 22. PCA Scatter Plot.

7.1 Əsas Komponentlərin Təhlili

Ölçülərin azaldılması üçün əsas xətti texnika, əsas komponent analizi, məlumatların aşağı ölçülü bir məkana xətti xəritələşdirilməsini həyata keçirir ki, aşağı ölçülü təmsildə verilənlərin fərqliliyi maksimum olsun. Təcrübədə verilənlərin kovariasiya (bəzən də korrelyasiya) matrisi qurulur və bu matrisdə məxsusi vektorlar hesablanır. Ən böyük öz dəyərlərinə (əsas komponentlər) uyğun gələn öz vektorları indi ilkin verilənlərin dispersiyasının böyük bir hissəsini yenidən qurmaq üçün istifadə edilə bilər. The clusterMaker2 PCA-nın həyata keçirilməsi kovariasiya və ya korrelyasiya seçmək imkanı verir.

Massiv Mənbələri
PCA parametrləri
Nəticə Seçimləri

Şəkil 22. PCoA səpilmə planı.

7.2 Əsas Koordinatların Təhlili

Array Data üçün mənbə
Kənar çəkisinin kəsilməsi
Massiv məlumatlarının tənzimlənməsi
PCoA Parametrləri
Nəticə Seçimləri

7.3 t-Distributed Stochastic Neighbor Embedding

Massiv Mənbələri
T-SNE Parametrləri
Nəticə Seçimləri

8. Nəticələrin vizuallaşdırılması

Şəkil 24. tərəfindən yaradılmış şəbəkə clusterMaker2Mayadan MS/TAP zülal-zülal qarşılıqlı əlaqə məlumatları üçün MCL klasterləşdirmə alqoritmi. istifadə edərək şəbəkə yaradılmışdır Atributdan Yeni Şəbəkə Yaradın və klasterlərarası kənarları geri əlavə etmək seçimini seçin.

6.1 Atributdan yeni şəbəkə yaradın

Bu menyu elementi yalnız atributun eyni qiymətlərinə malik qovşaqların qoşulduğu istənilən ədədi atributdan şəbəkə yaratmaq üçün istifadə edilə bilər. Qeyd edək ki, bu dəyərlərin yığılması yoxdur, ona görə də davam dəyərlərindən istifadə çox az məna kəsb edən klasterlərlə nəticələnəcək. Dialoqda iki seçim var: Yalnız seçilmiş qovşaqları (və ya kənarları) göstərin Özünü izah edən yeni şəbəkə yalnız cari şəbəkədə seçilmiş qovşaqlardan ibarət olacaq Layoutdan sonra çoxluqlararası kənarları bərpa edin Bu seçim seçilərsə, yaranan şəbəkə yalnız klasterdaxili kənarlarla yaradılacaq. Sonra, şəbəkə qurulduqdan (və nəticədə bölündükdən) sonra çoxluqlararası kənarlar yenidən əlavə olunacaq.

6.2 Klasterlərdən yeni şəbəkə yaradın

Şəbəkə klasteri alqoritmi tamamlayıb qovşaq atributunda klaster nömrələrini saxlayıbsa, bu menyu elementi seçiləcək. Seçildikdə, bu menyu ehtiva edən yeni şəbəkə yaradacaq yalnız klasterdaxili kənarları, sonra çəkisiz qüvvəyə yönəldilmiş layout alqoritmindən istifadə edərək həmin şəbəkəni tərtib edin. Bütün klasterlərarası kənarlar atılacaq. Şəbəkənin çoxluqlararası kənarları ilə vizuallaşdırılmasının da dəyəri varsa, baxın Atributdan Yeni Şəbəkə Yaradın yuxarıdakı menyu elementi. Yalnız seçilmiş qovşaqları (və ya kənarları) göstərin Özünü izah edən yeni şəbəkə yalnız cari şəbəkədə seçilmiş qovşaqlardan ibarət olacaq

Şəkil 25. clusterMaker2nin JTree TreeView. Daha böyük şəkil qovşaqların iyerarxik qruplaşdırılmasının nəticələrini və beş node atributunu (istilik şoku təcrübəsinin ifadə məlumatları) göstərir. İçəridə kənar atributdan istifadə edərək iyerarxik qruplaşmanın nəticələri göstərilir. Nəticədə şəbəkə diaqonal boyunca simmetrikdir və sol və yuxarıdakı dendroqramlar eynidir.

6.4 JTree TreeView

Əsas TreeView pəncərənin dörd əsas şaquli pəncərəsi var: Node Dendrogram, Global HeatMap, Zoom HeatMap və Node List. Bu pəncərələrin müxtəlif hissələrini vurğulamaq üçün ölçüləri dəyişdirilə bilər TreeView. Pəncərələrin hər biri aşağıda ətraflı müzakirə olunur. Diqqət yetirin ki, içərisində bir sıra seçilir TreeView Cytoscape-də cari şəbəkə görünüşündə müvafiq nodu seçəcək (əgər həmin node varsa). Bunun əksi də doğrudur -- Cytoscape-də seçim müvafiq qovşaqları seçəcəkdir TreeView. Bu mühüm xüsusiyyətdir clusterMaker2: birdən çox baxış (cari şəbəkə, əgər varsa, birdən çox istilik xəritəsi) hər hansı bir görünüşdə seçimə eyni vaxtda cavab verir. Node Dendrogram Ən sol paneldə istilik xəritəsi üçün qovşaq dendroqramı göstərilir. Panelin yuxarı hissəsində a Vəziyyət göstəricinin yerindən asılı olaraq dəyişən pəncərə. Node dendroqramının üzərindəki göstərici ilə Vəziyyət pəncərədə dendroqramın hazırda seçilmiş filialı (əgər varsa) üçün ID və korrelyasiya göstəriləcək. Kursor üzərindədirsə Qlobal İstilik Xəritəsi pəncərə Vəziyyət pəncərə seçilmiş genlərin (qovşaqların) və massivlərin (atributların) sayını və seçimlərin diapazonunu göstərir. Nəhayət, əgər kursor yuxarıdadırsa İstilik Xəritəsini böyüt pəncərə, Vəziyyət pəncərə node və atribut adını, həmçinin göstəricinin altındakı ləkənin dəyərini göstərir.

Node dendrogram panelində siçan və klaviatura hərəkətləri
FəaliyyətHədəfNəticə
basın Dendrogram filialı Dendroqramın həmin qolunu və bütün uşaqları seçin
yuxarı ox Hazırda seçilmiş filial varsa, onun valideynini və bütün sonrakı uşaqlarını seçin
aşağı ox Hazırda seçilmiş filial varsa, yuxarı filiala keçin və aşağı filialın seçimini ləğv edin
sol ox Hazırda seçilmiş filial varsa, yuxarı filiala keçin və aşağı filialın seçimini ləğv edin
sağ ox Hazırda seçilmiş filial varsa, aşağı filiala keçin və yuxarı filialın seçimini ləğv edin
Qlobal istilik xəritəsi panelində siçan və klaviatura hərəkətləri
FəaliyyətHədəfNəticə
+ İstilik xəritəsi Qlobal görünüşü 2X böyüdün
- İstilik xəritəsi Qlobal görünüşü 1/2 nisbətində böyüdün (lakin hər xana üçün eni və ya hündürlüyü 1 pikseldən kiçik olmamalıdır)
basın İstilik xəritəsi İstilik xəritəsinin həmin cərgəsini seçin
shift-klikləyin İstilik xəritəsi İstilik xəritəsinin həmin xanasını seçin
sürükləmək İstilik xəritəsi Çıxarılan bölgənin əhatə etdiyi sıraları seçin
sürüşdürün İstilik xəritəsi Çıxarılan sahənin əhatə etdiyi bölgəni seçin
yuxarı ox Əgər cari seçim varsa, həmin seçimi bir sıra yuxarı köçürün
aşağı ox Əgər cari seçim varsa, həmin seçimi bir sıra aşağı köçürün
sol ox Cari seçim varsa, həmin seçimi bir sütundan sola köçürün
sağ ox Cari seçim varsa, həmin seçimi bir sütun sağa köçürün
nəzarət yuxarı oxu Cari seçim varsa, bu seçimi iki sıra genişləndirin (biri yuxarıda, biri aşağıda)
nəzarət aşağı ox Cari seçim varsa, bu seçimi iki sıra ilə daralın (biri yuxarıda, biri aşağıda)
nəzarət-sol ox Cari seçim varsa, bu seçimi iki sütunla genişləndirin (biri solda, biri sağda)
nəzarət-sağ ox Cari seçim varsa, bu seçimi iki sütunla müqavilə bağlayın (biri solda, biri sağda)
  • Parametrlər.
  • Data Saxla.
  • Qrafikləri ixrac edin.
  • Ağac qovşaqlarını çevirin (içində JTree TreeView yalnız dialoq)
  • Rəngləri Şəbəkəyə Xəritə.
  • Yaxın

Şəkil 26. Piksel Parametrləri Dialoqu.

İstifadəçilər hansı rəng sxeminin istifadə olunacağını müəyyən edə bilərlər: qırmızı-yaşıl (Qırmızı Yaşıl) davamlı və ya standart sarı-mavi (Sarı Mavi). Rəng sxemləri də təyin etməklə fərdiləşdirilə bilər Müsbət, Sıfır, Mənfi, və İtkin dəyərlər. Bu dəyərlər təyin edildikdən sonra onları əvvəlcədən təyin edilmiş kimi saxlamaq olar (Əvvəlcədən təyin et). The yük.Yadda saxla.. düymələr müvafiq olaraq rəng dəstlərini yükləmək və saxlamaq üçün istifadə olunur.

The Piksel Parametrləri dialoq da təmin edir Kontrast rənglərin kontrastını tənzimləmək üçün sürüşdürmə. Bu, istilik xəritəsi dəyərlərində daha incə fərqləri vurğulamaq üçün faydalıdır. Nəhayət, LogScale Dəyərlərin rənglərə xətti xəritələşdirilməsi əvəzinə istifadə edilə bilər və mərkəz nöqtəsi tək quyruqlu məlumatların nümayişini yaxşılaşdırmaq üçün təyin edilir. Data Saxla. Məlumat mübadiləsini və digər proqram təminatı ilə təhlili asanlaşdırmaq üçün Data Saxla. düyməsi cari məlumatları ixrac edəcək Klaster formatı, o cümlədən .cdt, .gtr, və .atr faylları, müvafiq olaraq.

Şəkil 27. Qrafik dialoqu ixrac edin.

Dəstəklənən Qrafik Formatlar clusterMaker2
FormatNövKeyfiyyət
pngBitmapən yüksək bitmap keyfiyyəti
jpgBitmapağlabatan bitmap keyfiyyəti, lakin yüksək miqyasda görünən aberrasiyalar
bmpBitmapçox yaxşı bitmap keyfiyyəti
pdfVektorəla keyfiyyət
svgVektorəla keyfiyyət, lakin geniş şəkildə dəstəklənmir
epsVektorəla keyfiyyət, lakin ayrı bir proqram tərəfindən işlənmək lazımdır

Şəkil 28. Bir hissəsinin misal ixracı TreeView həm Node, həm də Atribut dendroqramlarını göstərən istilik xəritəsi (böyük versiyanı görmək üçün şəkilə klikləyin).

Ümumiyyətlə, vektor formatları daha yüksək keyfiyyətli görünüş verir, çünki onlar ölçülə bilər. Xüsusilə Adobe Illustrator və ya Adobe Photoshop kimi qrafik paketlərində istifadə üçün vektor formatlarına daha çox üstünlük verilir. Veb səhifəyə və ya təqdimata daxil olmaq üçün, png Əgər hər hansı əhəmiyyətli böyütmə və kəsmə etməyi planlaşdırmırsınızsa, ağlabatan seçimdir (bax Şəkil 28).

Çıxışa daxil olanların seçimləri ekranın növündən asılıdır. üçün TreeView simmetrik olan istilik xəritələri (yəni, kənar atributdan istifadə etməklə yaradılmışdır), the Sol Node AğacıÜst düyün ağacı çıxışa daxil edilə bilər və siz demək olar ki, həmişə daxil etmək istəyəcəksiniz İstilik xəritəsi özü. üçün TreeView həm qovşaqları, həm də atributları kümelenmiş istilik xəritələrinə daxil edə biləcəksiniz Düyün ağacı, Atribut ağacı, və İstilik xəritəsi. Əgər atributlar qruplaşdırılmayıbsa, Atribut ağacı mövcud olmayacaq.

İstilik xəritəsinin yalnız bir hissəsi istənirsə, yalnız seçilmiş hissəni yadda saxlamağı seçə bilərsiniz (Yalnız Seçim). Nəzərə alın ki, dendroqramları çıxışa daxil etmək üçün tam alt ağac seçməlisiniz.

Ağac qovşaqlarını çevirin The Ağac qovşaqlarını çevirin düyməsi, əgər varsa, yuxarı dendroqramdakı ağacların sırasını dəyişəcək. Hal-hazırda, sol dendroqramı çevirmək üçün uyğun bir yol yoxdur.

Rəngləri Şəbəkəyə Xəritə. The Rəngləri Şəbəkəyə Xəritə. düyməsi istilik xəritəsindəki rəngləri yenidən Cytoscape qovşaqlarına (və simmetrik istilik xəritələri üçün kənarlara) çəkmək üçün bir üsul təqdim edir. Əgər tək sütun (atribut) seçilərsə, yeni VizMap yaradılacaq və həmin atributa uyğun rənglər şəbəkə görünüşündəki qovşaqlara təyin ediləcək. Birdən çox sütun seçilərsə, Rəngləri Şəbəkəyə Xəritə dialoq qutusu (aşağıda Şəkil 29-da göstərilmişdir) göstəriləcək. Bu dialoq qutusundan siz bir atribut seçə və həmin atribut üçün VizMap yarada və ya hər bir atribut üçün VizMap yaratmaq və onlar vasitəsilə canlandırmaq üçün bir neçə atribut seçə biləcəksiniz. An Animasiya sürəti slider istifadəçiyə animasiya sürətini seçməyə imkan verir. Hər bir atribut üçün VizMap yaradılmalı olduğu üçün ilkin keçid bir qədər uzun çəkəcək, lakin bundan sonra animasiya sürəti slayderə uyğun olmalıdır. Əgər nodeCharts plagin yükləndikdə, siz həmçinin şəbəkə görünüşündə müvafiq qovşaqların altında görünəcək istilik xəritəsi dəyərlərini əks etdirən kiçik bar-diaqramlar olan "HeatStrips" yarada biləcəksiniz.

QEYD: Hal-hazırda animasiyanı film kimi saxlamaq üçün heç bir yol yoxdur, baxmayaraq ki, bu çox tələb olunan xüsusiyyətdir və gələcəkdə tətbiq olunacaq.

Şəkil 29. The Rəngləri Şəbəkəyə Xəritə Dialoq

Şəkil 30. The JTree KnnView k=30 ilə k-Means klasterinin vizuallaşdırılmasının nəticələrini göstərən dialoq.

6.5 JTree KnnView

6.6 HeatMapView (qruplaşdırılmamış)

7. Qarşılıqlı əlaqə

7.1 Bağlantı şəbəkəsinin seçimi

Bu imkan planlaşdırılıb, lakin hələ tətbiq olunmayıb clusterMaker2

clustermaker hascluster Şəbəkədə klaster alqoritminin işlək olub-olmadığına baxın.

  • klaster tipi=[düyün|atribut]: qovşaqlar və ya atributlar üçün klasterlərin qaytarılıb-qaytarılmaması.
  • növü=[iyerarxik|kmeans|kmedoid|autosom]: Nəticələri əldə etmək üçün alqoritm
  • lambda=0.5: Lambda Parametri.
  • üstünlük=-1: Üstünlük Parametri (< 0 olarsa, Orta Kənar Çəkisinə təyin edin).
  • təkrarlamalar=10: İterasiyaların sayı
  • atribut=atribut: Massiv mənbələri
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • kənar çəkici=[--Heç biri--|1/dəyər|-LOG(dəyər)|LOG(dəyər)|SCPS]: Kənar çəkisinin çevrilməsi
  • edgeCutOff=kəsmək: Kənar çəkisinin kəsilməsi
  • yönləndirilməyən Kenarlar=[doğru|yalan]: Kənarların yönləndirilməmiş olduğunu fərz edin
  • tənzimləmə döngələri=[doğru|yalan]: Döngələri tənzimləyin
  • clusterAttrName=atribut adı: Klaster Atributu
  • Qruplar yaradın=yalan: Nəticələrlə metanodlar yaradın
  • debug=yalan: Sazlamağı aktivləşdirin
  • rejimi=[Normal|Dəqiqlik|Sürət]: İş rejimi
  • ansamblRuns=50: Ansambl qaçışlarının sayı
  • pvalueThresh=0.05: P-Dəyər Həddi
  • numThreads=iplər: Mövzuların sayı (No. CPU)
  • norma_rejimi=[Xüsusi|Normallaşma yoxdur| İfadə məlumatları 1|İfadə məlumatları 2]: Normallaşdırma rejimi
  • logscaling=yalan: Log2 Ölçmə
  • vahidVarians=yalan: Vahid fərqi
  • medCenter=[Heç biri|Genlər|Massivlər|Hər ikisi]: Median Mərkəzləşdirmə
  • cəmi kvadratlar=[Heç biri|Genlər|Massivlər|Hər ikisi]: Kvadratların cəmi=1
  • aktivləşdirinFCN=yalan: Qeyri-səlis klasterləşdirməni həyata keçirin
  • FCNput=[Düyünlər (Genlər)|Atributlar (massivlər)]: Mənbə Məlumatı
  • FCNmetrik=[Mərkəzsiz Korrelyasiya|Pearson korrelyasiyası|Evklid]: Məsafə Ölçüsü
  • maxEdges=2000: Qeyri-səlis şəbəkədə göstəriləcək kənarların maksimum sayı
  • atribut siyahısı=klaster atributları: Massiv Mənbələri (Node Atributları)
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • yoxsa yox=doğru: Məlumat olmayan qovşaqlara/kənarlara məhəl qoymayın
  • çoxluq_çıxışı=İstilik xəritəsi: Vizuallaşdırma seçin
  • rejimi=[Normal|Dəqiqlik|Sürət]: İş rejimi
  • ansamblRuns=50: Ansambl qaçışlarının sayı
  • pvalueThresh=0.05: P-Dəyər Həddi
  • numThreads=iplər: Mövzuların sayı (No. CPU)
  • norma_rejimi=[Xüsusi|Normallaşma yoxdur| İfadə məlumatları 1|İfadə məlumatları 2]: Normallaşdırma rejimi
  • logscaling=yalan: Log2 Ölçmə
  • vahidVarians=yalan: Vahid fərqi
  • medCenter=[Heç biri|Genlər|Massivlər|Hər ikisi]: Median Mərkəzləşdirmə
  • cəmi kvadratlar=[Heç biri|Genlər|Massivlər|Hər ikisi]: Kvadratların cəmi=1
  • aktivləşdirinFCN=yalan: Qeyri-səlis klasterləşdirməni həyata keçirin
  • FCNput=[Düyünlər (Genlər)|Atributlar (massivlər)]: Mənbə Məlumatı
  • FCNmetrik=[Mərkəzsiz Korrelyasiya|Pearson korrelyasiyası|Evklid]: Məsafə Ölçüsü
  • maxEdges=2000: Qeyri-səlis şəbəkədə göstəriləcək kənarların maksimum sayı
  • atribut siyahısı=klaster atributları: Massiv Mənbələri (Node Atributları)
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • yoxsa yox=doğru: Məlumat olmayan qovşaqlara/kənarlara məhəl qoymayın
  • çoxluq_çıxışı=Şəbəkə: Vizuallaşdırma seçin
  • atribut=atribut: Massiv mənbələri
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • kənar çəkici=[--Heç biri--|1/dəyər|-LOG(dəyər)|LOG(dəyər)|SCPS]: Kənar çəkisinin çevrilməsi
  • edgeCutOff=kəsmək: Kənar çəkisinin kəsilməsi
  • yönləndirilməyən Kenarlar=[doğru|yalan]: Kənarların yönləndirilməmiş olduğunu fərz edin
  • tənzimləmə döngələri=[doğru|yalan]: Döngələri tənzimləyin
  • clusterAttrName=atribut adı: Klaster Atributu
  • Qruplar yaradın=yalan: Nəticələrlə metanodlar yaradın
  • debug=yalan: Sazlamağı aktivləşdirin
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • yönləndirilməyən Kenarlar=[doğru|yalan]: Kənarların yönləndirilməmiş olduğunu fərz edin
  • clusterAttrName=atribut adı: Klaster Atributu
  • Qruplar yaradın=yalan: Nəticələrlə metanodlar yaradın
  • debug=yalan: Sazlamağı aktivləşdirin
  • əlaqə=[cüt-cüt tək əlaqə| ikili maksimum əlaqə| cüt orta əlaqə| cüt mərkəzli əlaqə]: Bağlantı
  • dMetrik=[Heç biri - atributlar korrelyasiyadır| Mərkəzsiz korrelyasiya| Pearson korrelyasiyası| Mərkəzsiz korrelyasiya, mütləq dəyər| Pearson korrelyasiyası, mütləq dəyər| Spearmanın dərəcə korrelyasiyası| Kendall's tau| Evklid məsafəsi| Şəhər-blok məsafəsi]: Məsafə Ölçüsü
  • atribut siyahısı=atribut: Massiv mənbələri
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • clusterAtributes=yalan: Klaster atributları və qovşaqlar
  • yoxsa yox=doğru: Məlumat olmayan qovşaqlara/kənarlara məhəl qoymayın
  • diaqonalları tənzimləyin=yalan: Döngələri tənzimləyin (ümumi deyil)
  • sıfırİtkin=yalan: Çatışmayan məlumatları sıfıra təyin edin (ümumi deyil)
  • Qruplar yaradın=doğru: Klasterlərdən qruplar yaradın
  • knumber=10: Klasterlərin sayı
  • təkrarlamalar=10: İterasiyaların sayı
  • dMetrik=[Heç biri - atributlar korrelyasiyadır| Mərkəzsiz korrelyasiya| Pearson korrelyasiyası| Mərkəzsiz korrelyasiya, mütləq dəyər| Pearson korrelyasiyası, mütləq dəyər| Spearmanın dərəcə korrelyasiyası| Kendall's tau| Evklid məsafəsi| Şəhər-blok məsafəsi]: Məsafə Ölçüsü
  • atribut siyahısı=atribut: Massiv mənbələri
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • clusterAtributes=yalan: Klaster atributları və qovşaqlar
  • yoxsa yox=doğru: Məlumat olmayan qovşaqlara/kənarlara məhəl qoymayın
  • Qruplar yaradın=doğru: Klasterlərdən qruplar yaradın
  • knumber=10: Klasterlərin sayı
  • təkrarlamalar=10: İterasiyaların sayı
  • dMetrik=[Heç biri - atributlar korrelyasiyadır| Mərkəzsiz korrelyasiya| Pearson korrelyasiyası| Mərkəzsiz korrelyasiya, mütləq dəyər| Pearson korrelyasiyası, mütləq dəyər| Spearmanın dərəcə korrelyasiyası| Kendall's tau| Evklid məsafəsi| Şəhər-blok məsafəsi]: Məsafə Ölçüsü
  • atribut siyahısı=atribut: Massiv mənbələri
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • clusterAtributes=yalan: Klaster atributları və qovşaqlar
  • yoxsa yox=doğru: Məlumat olmadan qovşaqlara/kənarlara məhəl qoymayın
  • Qruplar yaradın=doğru: Klasterlərdən qruplar yaradın
  • inflyasiya_parametri=2.0: Qranulyarlıq Parametri (inflyasiya dəyəri)
  • atribut=atribut: Massiv mənbələri
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • kənar çəkici=[--Heç biri--|1/dəyər|-LOG(dəyər)|LOG(dəyər)|SCPS]: Kənar çəkisinin çevrilməsi
  • edgeCutOff=kəsmək: Kənar çəkisinin kəsilməsi
  • yönləndirilməyən Kenarlar=[doğru|yalan]: Kənarların yönləndirilməmiş olduğunu fərz edin
  • tənzimləmə döngələri=[doğru|yalan]: Döngələri tənzimləyin
  • clustering Thresh=1X10 -15 : Zəif Kenar Çəkisi Budama Həddi
  • təkrarlamalar=16: İterasiyaların sayı
  • maksimum qalıq=.0001: Maksimum qalıq dəyər
  • maxThreads=0: Mövzuların maksimum sayı
  • clusterAttrName=atribut adı: Klaster Atributu
  • Qruplar yaradın=yalan: Nəticələrlə metanodlar yaradın
  • debug=yalan: Sazlamağı aktivləşdirin
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • loops daxildir=yalan: Döngələri daxil edin
  • dərəcə kəsmə=2: Dərəcə kəsilməsi
  • saç düzümü=doğru: Saç kəsimi
  • tük=yalan: Tük
  • hesab kəsmə=0.2: Node Score Cutoff
  • kCore=2: K-Core
  • maksimum Dərinlik=100: Maksimum Dərinlik
  • clusterAttrName=atribut adı: Klaster Atributu
  • Qruplar yaradın=yalan: Nəticələrlə metanodlar yaradın
  • debug=yalan: Sazlamağı aktivləşdirin
  • epsilon=1.02: epsilon Parametr
  • təkrarlamalar=50: İterasiyaların sayı
  • knumber=-1: Klasterlərin sayı
  • atribut=atribut: Massiv mənbələri
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • kənar çəkici=[--Heç biri--|1/dəyər|-LOG(dəyər)|LOG(dəyər)|SCPS]: Kənar çəkisinin çevrilməsi
  • edgeCutOff=kəsmək: Kənar çəkisinin kəsilməsi
  • yönləndirilməyən Kenarlar=[doğru|yalan]: Kənarların yönləndirilməmiş olduğunu fərz edin
  • tənzimləmə döngələri=[doğru|yalan]: Döngələri tənzimləyin
  • clusterAttrName=atribut adı: Klaster Atributu
  • Qruplar yaradın=yalan: Nəticələrlə metanodlar yaradın
  • debug=yalan: Sazlamağı aktivləşdirin
  • atribut=atribut: Massiv mənbələri
  • Yalnız seçilmiş=yalan: Yalnız seçilmiş qovşaqları birləşdirin
  • kənar çəkici=[--Heç biri--|1/dəyər|-LOG(dəyər)|LOG(dəyər)|SCPS]: Kənar çəkisinin çevrilməsi
  • edgeCutOff=kəsmək: Kənar çəkisinin kəsilməsi
  • yönləndirilməyən Kenarlar=[doğru|yalan]: Kənarların yönləndirilməmiş olduğunu fərz edin
  • tənzimləmə döngələri=[doğru|yalan]: Döngələri tənzimləyin
  • clusterAttrName=atribut adı: Klaster Atributu
  • Qruplar yaradın=yalan: Nəticələrlə metanodlar yaradın
  • debug=yalan: Sazlamağı aktivləşdirin
  • maxSubclusterSize=20: Maks. Alt qrup ölçüsü
  • maxTime=1: Maks. Vaxt (saniyə)
  • Oxşar birləşmə=yalan: Çox oxşar qovşaqları birinə birləşdirin?
  • birləşmə eşik=100: eşik
  • sayıOfThreads=iplər: Prosessorların sayı

8.2 clusterviz əmri

clusterviz istilik xəritəsi görünüşü Bir sıra atributlardan istilik xəritəsi vizualizasiyasını yaradın

  • atribut siyahısı=klaster atributları: istilik xəritəsinin sütunları üçün istifadə ediləcək atributların siyahısı.
  • Yalnız seçilmiş=[yalan]: Yeni şəbəkədə iştirak etmək üçün yalnız seçilmiş qovşaqlardan (və onların kənarlarından) istifadə edin.
  • atribut=klaster atributu: Bu, klaster atributu üçün istifadə ediləcək atributdur. Bu təmin edilmədikdə, sonuncu şəbəkə bölməsi klaster atributundan istifadə edilir.
  • Yalnız seçilmiş=[yalan]: Yeni şəbəkədə iştirak etmək üçün yalnız seçilmiş qovşaqlardan (və onların kənarlarından) istifadə edin.
  • atribut=klaster atributu: Bu, klaster atributu üçün istifadə ediləcək atributdur. Bu təmin edilmədikdə, sonuncu şəbəkə bölməsi klaster atributundan istifadə edilir.
  • kənarları bərpa edin=[yalan]: Şəbəkəni yaratdıqdan sonra klasterlərarası kənarları bərpa edin.
  • Yalnız seçilmiş=[yalan]: Yeni şəbəkədə iştirak etmək üçün yalnız seçilmiş qovşaqlardan (və onların kənarlarından) istifadə edin.

8. Təşəkkürlər

İerarxik və k-Means tətbiqləri clusterMaker2 Michael Eisen tərəfindən yazılmış orijinal Klaster proqramına əsaslanan Cluster 3.0 C tətbiqinə (Tokio Universitetində DNT İnformasiya Təhlili Laboratoriyasında olarkən Michiel de Hoon tərəfindən) əsaslanır. İstilik xəritəsi/dendroqram vizualizasiyası Stenford Universitetində olarkən Alok Saldanha tərəfindən həyata keçirilən Java TreeView-ə əsaslanır. MCL klaster alqoritmi Stejn van Dongen tərəfindən orijinal tezis əsasında, Gregor Heinrichi tərəfindən Java tətbiqinə istinadla yazılmışdır (bax: http://www.arbylon.net/projects/knowceans-mcl/doc/).

9. İstinadlar

  1. Collins SR, Kemmeren P, Zhao XC, Greenblatt JF, Spencer F, Holstege FC, Weissman JS, Krogan NJ.: Saccharomyces cerevisiae-nin fiziki interaktomunun hərtərəfli atlasına doğru. Mol Hüceyrə Proteomikası.6(3): 439–450 (2007). [PMID: 17200106]
  2. Collins SR, Miller KM, Maas NL, Roguev A, et al.: Genetik qarşılıqlı əlaqə xəritəsindən istifadə edərək maya xromosom biologiyasında iştirak edən zülal komplekslərinin funksional parçalanması. Təbiət. 446(7137): 806-810. (2007). [PMID: 17314980]
  3. Gasch AP, Spellman PT, Kao CM, Carmel-Harel O, Eisen MB, Storz G, Botstein D, Brown PO.: Maya hüceyrələrinin ətraf mühitdəki dəyişikliklərə reaksiyasında genomik ifadə proqramları. Mol Biol Hüceyrə, 11(12):4241-57 (2000). [PMID: 11102521]
  4. M. B. Eisen, P. T. Spellman, P. O. Brown və David Botstein: Klaster analizi və genom miqyasında ifadə nümunələrinin nümayişi. PNAS, 95(25):14863-8 (1998) [PMID:9843981]
  5. A. J. Saldanha: Java Treeview - mikroarray məlumatlarının genişləndirilə bilən vizuallaşdırılması. Bioinformatika, 20(17): 3246-8 (2004). [PMID: 15180930]
  6. M. J. L. de Hoon, S. Imoto, J. Nolan və S. Miyano: Açıq Mənbəli Klasterləşdirmə Proqramı. Bioinformatika, 20 (9): 1453-1454 (2004). [PMID: 14871861]
  7. A.M. Newman, J.B. Cooper: AutoSOME: çoxluq sayı haqqında əvvəlcədən məlumat olmadan gen ifadə modullarını müəyyən etmək üçün klasterləşdirmə üsulu. BMC Bioinformatika11:117 (2010). [PMID: 20202218]
  8. L. Apeltsin, J.H. Morris, P.C. Babbitt, T.E. Ferrin: Şəbəkə kənarında çəki paylanmasından istifadə edərək zülal oxşarlığı şəbəkə klasterləşdirmə alqoritmlərinin keyfiyyətinin yaxşılaşdırılması. Bioinformatika27(3): 326-333 (2011). [PMID: 21118823]
  9. B.J. Frey, D. Dueck: Məlumat nöqtələri arasında mesaj ötürməklə qruplaşma. Elm315(5814):972-976 (2007). [PMID: 17218491]
  10. M.E.Nyuman, M.Girvan: Şəbəkələrdə icma strukturunun tapılması və qiymətləndirilməsi. Phys Rev E Stat Nonlin Soft Matter Phys69(2 Pt 2): 026113 (2004).
  11. G. Su, A. Kuçinski, J.H. Morris, D.J. Dövlətlər, F. Meng: GLay: bioloji şəbəkələrin icma strukturunun təhlili. Bioinformatika26(24):3135-3137 (2010). [PMID: 21123224]
  12. A. J. Enright, S. Van Dongen, C. A. Ouzounis: Zülal ailələrinin geniş miqyaslı aşkarlanması üçün səmərəli alqoritm. Nuklein turşularının tədqiqi, 30(7): 1575-1584 (2002). [PMID: 11917018]
  13. S. van Dongen: Axın simulyasiyası ilə qrafik qruplaşması [PhD dissertasiyası]. Utrext (Hollandiya): Utrext Universiteti. 169 səh. (2000)
  14. T. Nepusz, R. Sasidharan, A. Paccanaro: SCPS: genom miqyasında zülal ailələrinin aşkarlanması üçün spektral metodun sürətli tətbiqi. >BMC Bioinformatika11:120 (2010). [PMID: 20214776]
  15. G.D.Bader, C.W. Hogue: Böyük protein qarşılıqlı şəbəkələrində molekulyar kompleksləri tapmaq üçün avtomatlaşdırılmış üsul. BMC Bioinformatika4:2 (2003). [PMID: 12525261]
  16. T. Wittkop, D. Emig, S. Lange, S. Rahmann, M. Albrecht, J.H. Morris, S. B & oumlcker, J. Stoye, J. Baumbach: Keçidli qruplaşma ilə bioloji məlumatların bölünməsi. Nat Metodları7(6): 419-420. (2010) [PMID: 20508635]
  17. T. Wittkop, D. Emig, A. Truss, M. Albrecht, S. Böcker, J. Baumbach: Transitivity clustering ilə hərtərəfli klaster təhlili. Nat Protokolu6(3): 285-295. (2011) [PMID: 21372810]

Müəlliflik hüququ 2018 Kaliforniya Universitetinin regentləri. Bütün hüquqlar qorunur.


Çoxlu müxtəlif klasterləşdirmə alqoritmləri

Klaster alqoritmləri ailəsinin bir neçə variantı var: K-orta, iyerarxik, DBSCAN, spektral, qauss, ağcaqayın, orta yerdəyişmə və yaxınlığın yayılması onlardan bəziləridir. Aşağıda ilk üç alqoritmdə bəzi əsas məqamları - ən çox tətbiq olunanları vurğulayıram.

K- deməkdir: Birinci, "K” istədiyiniz klasterlərin sayına aiddir. Yəni, K = n deməkdir n müəyyən edilməli olan klasterlərin sayı. Sonra hər bir məlumat çoxluğunun bölündüyü xəyali/süni məlumat nöqtəsi (məlumat nöqtələrinin ortalaması) olan "centroid" adlı bir şey var. Belə ki K = 2 o deməkdir ki, alqoritm müşahidələri (məlumatları) 2 klasterə böləcək ki, mərkəzlər və müşahidələr arasındakı məsafələr minimuma ensin.

Üstünlükləri: başa düşmək asandır, həyata keçirmək asandır

Dezavantajları: seçmək bəzən çətindir K outliers öz istiqamətində mərkəzi sürükləyə bilər miqyaslı data çoxluqlar dəyişə bilərsiniz

İerarxik qruplaşma: İerarxik klasterləşmə iki müxtəlif şəkildə işləyir: birincisi “aşağıdan yuxarıya” və ya aqlomerativ klasterləşmə adlanır, burada hər bir müşahidə öz klasterini alır, sonra hər bir klaster cütü birləşərək başqa klaster əmələ gətirir və s. digəri (a.k.a. "yuxarıdan aşağı" və ya bölücü qruplaşma) əks istiqamətdə işləyir, yəni., bütün müşahidələr bir klasterlə başlayır, sonra dəfələrlə kiçik klaster ölçülərinə bölünür.

Üstünlüklər: həyata keçirmək asan klasterlərin sayını müəyyən etmək asandır dendroqrama baxaraq K-vasitələri klasterləşdirmədən daha informativdir

Dezavantajları: kənar göstəricilərə yüksək həssaslıq böyük verilənlər dəstləri üçün vaxt apara bilər

DBSCAN: 1996-cı ildə təklif edilmiş, sıxlığa əsaslanan alqoritmdir, burada müşahidələr minimum sayda xal verilməklə bir-birinə nə qədər yaxın olduqlarına görə qruplaşdırılır. İki parametr tələb edir: (i) ε (epsilon) - nöqtələrin bir klasterdə olması lazım olan radiusun müəyyən edilməsi və (ii) minPts — sıx boşluq/klaster yaratmaq üçün minimum xal sayının müəyyən edilməsi. Kifayət qədər maraqlıdır ki, bu alqoritmi təklif edən 1996-cı il məqaləsi 2014-cü ildə KDD konfransında “Zaman Testi Mükafatını” qazandı.

Üstünlüklər: K-vasitələr və iyerarxik klasterləşmədən fərqli olaraq, DBSCAN kənar göstəricilərin mövcudluğunda möhkəmdir, beləliklə, anomaliyaların (yəni, kənar göstəricilərin) aşkarlanmasında istifadə edilə bilər.

Mənfi cəhətləri: it parametr dəyərlərinə həssasdır (ε minPts) müxtəlif məlumat sıxlığında hər hansı klasteri müvafiq şəkildə müəyyən edə bilmir.


Müəllif xülasəsi

Səsli ünsiyyət quran minlərlə növdən yalnız kiçik bir azlığın repertuarları səciyyələndirilmiş və ya ətraflı şəkildə tədqiq edilmişdir. Bu, böyük ölçüdə, inkişaf etdirilməsi çətin və çox vaxt növlərə xas olan yüksək səviyyəli təcrübə tələb edən ənənəvi analiz metodları ilə bağlıdır. Burada biz heyvan səsləri ilə bağlı vizual intuisiyaları kəmiyyətcə müqayisə etmək və inkişaf etdirmək üçün heyvan səslərinin gizli xüsusiyyət məkanlarına layihələndirilməsi üçün nəzarət olunmayan üsullar toplusunu təqdim edirik.Bu üsulları 29 müxtəlif növdən, o cümlədən nəğmə quşları, siçanlar, meymunlar, insanlar və balinalar daxil olmaqla, 19-dan çox heyvan səsləri toplusunun bir sıra təhlillərində nümayiş etdiririk. Biz öyrənilmiş gizli xüsusiyyət fəzalarının mürəkkəb spektr-zaman quruluşunu necə açdığını, növlər arası müqayisələrə imkan verdiyini və vokal element qruplarında stereotipiya, populyasiya regiolektləri, koartikulyasiya və fərdi identiklik kimi səslənmələrin yüksək səviyyəli atributlarını üzə çıxardığını göstəririk.

Sitat: Sainburg T, Thielk M, Gentner TQ (2020) Müxtəlif heyvan vokal repertuarlarında gizli strukturun tapılması, vizuallaşdırılması və kəmiyyətinin müəyyən edilməsi. PLoS Comput Biol 16(10): e1008228. https://doi.org/10.1371/journal.pcbi.1008228

Redaktor: Frédéric E. Theunissen, Berkli Kaliforniya Universiteti, BİRLEŞİK Ştat

Qəbul edildi: 12 dekabr 2019-cu il Qəbul edildi: 8 avqust 2020-ci il Nəşr olundu: 15 oktyabr 2020-ci il

Müəlliflik hüququ: © 2020 Sainburg et al. Bu, Creative Commons Attribution Lisenziyasının şərtlərinə uyğun olaraq paylanmış açıq giriş məqaləsidir və orijinal müəllif və mənbənin qeyd edilməsi şərti ilə istənilən mühitdə məhdudiyyətsiz istifadə, paylama və reproduksiyaya icazə verir.

Məlumatın mövcudluğu: Bu tədqiqatda istifadə edilən bütün səsləşdirmə məlumat dəstləri xarici mənbələrdən əldə edilmişdir, onların əksəriyyəti onlayn olaraq açıq şəkildə yerləşdirilmişdir (Cədvəl 1-ə baxın). Nəticələrimizi təkrarlamaq üçün lazım olan məlumatları Zenodo saytında tapa bilərsiniz (https://zenodo.org/record/3775893#.X3YdqZNKhTY).

Maliyyələşdirmə: NSF (https://www.nsf.gov/) GRF 2017216247 və Annette Merle-Smith Fellowship (https://carta.anthropogeny.org/support/fellowship) tərəfindən T.S. və NIH (https://www.nih.gov/) DC0164081 və DC018055-dən T.Q.G. Tədqiqatın dizaynında, məlumatların toplanmasında və təhlilində, nəşr etmək qərarında və ya əlyazmanın hazırlanmasında maliyyə verənlərin heç bir rolu olmayıb.

Rəqabətli maraqlar: Müəlliflər heç bir rəqabət aparan maraqların olmadığını bəyan ediblər.


3D nümunə

Üç ölçü ilə PCA daha faydalıdır, çünki məlumat buludları vasitəsilə onu görmək çətindir. Aşağıdakı nümunədə, orijinal məlumatlar 3D-də tərtib edilmişdir, lakin siz kamera bucağını tapmaqdan fərqli olmayan transformasiya vasitəsilə məlumatları 2D-yə proyeksiya edə bilərsiniz: ən yaxşı bucağı tapmaq üçün oxları fırladın. "Rəsmi" PCA transformasiyasını görmək üçün "PCA göstər" düyməsini basın. PCA transformasiyası üfüqi oxun PC1 ən çox variasiyaya malik olmasını təmin edir, şaquli oxun PC2 ikinci ən çox, üçüncü oxun isə PC3 ən azdır. Aydındır ki, PC3 atdığımızdır.


Bioloji məlumatların dağlarını vizuallaşdırmaq üçün yeni bir yol

Qrafik neyron şəbəkəsinin təqdim olunan bioloji məlumatlarla yarada biləcəyi vizual növünün ümumi nümunəsi. Kredit: Missuri Universiteti

Genetik materialın hüceyrə səviyyəsində öyrənilməsi, məsələn, təkhüceyrəli RNT ardıcıllığı elm adamlarına işdəki bioloji proseslərin ətraflı, yüksək dəqiqlikli görünüşünü təmin edə bilər. Bu təfərrüat səviyyəsi alimlərə toxumaların və orqanların sağlamlığını müəyyən etməyə və milyonlarla insanı təsir edən Alzheimer kimi xəstəliklərin inkişafını daha yaxşı başa düşməyə kömək edir. Bununla belə, çoxlu məlumat da yaradılır və onları təhlil etmək üçün səmərəli, istifadəsi asan bir üsula ehtiyac yaradır.

İndi Missuri Universiteti və Ohayo Dövlət Universitetindən olan mühəndislər və alimlər qrupu “maşın öyrənməsi” adlı kompüter metodundan istifadə edərək təkhüceyrəli RNT ardıcıllığından əldə edilən məlumatları təhlil etmək üçün yeni üsul yaratdılar. Bu üsul kompüterlərin gücündən istifadə edərək böyük həcmdə verilənləri ağıllı şəkildə təhlil edir və alimlərə daha sürətli nəticələr çıxarmağa və tədqiqatın növbəti mərhələsinə keçməyə kömək edir. Onların metodologiyası tərəfindən nəşr olunan yeni məqalədə ətraflı təsvir edilmişdir Təbiət Əlaqələri.

MU Mühəndislik Kollecinin professoru Dong Xu dedi: "Tək hüceyrəli genetik profilləşdirmə bugünkü texnoloji inkişafın ən qabaqcıl nöqtəsidir, çünki o, nə qədər genin mövcud olduğunu və onların fərdi bioloji hüceyrə səviyyəsindən necə ifadə edildiyini ölçür". "Ən azı, bu şəkildə təhlil edilən on minlərlə hüceyrə ola bilər, buna görə də böyük miqdarda məlumat toplanır. Hazırda bu tip məlumatlardan nəticələrin müəyyən edilməsi çətin ola bilər, çünki çoxlu məlumatlar olmalıdır. Tədqiqatçıların axtardıqlarını tapmaq üçün süzgəcdən keçirdik. Beləliklə, biz bu problemi həll etmək üçün ən yeni maşın öyrənmə üsullarından birini - qrafik neyron şəbəkəsini tətbiq etdik."

Kompüterlər məlumatları maşın öyrənmə prosesi vasitəsilə ağıllı şəkildə təhlil etdikdən sonra, qrafik neyron şəbəkəsi nəticələri alır və nümunələri asanlıqla müəyyən etməyə kömək etmək üçün məlumatların vizual təsvirini yaradır. Qrafik nöqtələrdən ibarətdir - hər bir nöqtə hüceyrəni təmsil edir və oxşar hüceyrə növləri asan tanınması üçün rənglə kodlanır. Xu, dəqiq tibbin tək hüceyrəli RNT ardıcıllığının necə istifadə oluna biləcəyinə yaxşı bir nümunə olduğunu söylədi.

"Bu məlumatlarla alimlər xərçəng toxumasının mikro-mühitindəki hüceyrələr arasındakı qarşılıqlı əlaqəni öyrənə və ya T-hüceyrələrinin, B-hüceyrələrinin və immun hüceyrələrinin xərçəng hüceyrələrinə hücum etməyə çalışdıqlarını izləyə bilərlər" dedi Xu. "Buna görə də, insanın güclü immun sisteminə malik olduğu və xərçəngin hələ tam inkişaf etmədiyi hallarda, xərçəngin erkən mərhələdə necə öldürülə biləcəyini öyrənə bilərik və maşın öyrənməsi sayəsində nəticələrimizi daha tez əldə edirik. Bu da bizi daha sürətli müalicəyə aparır”.

Xu hesab edir ki, bu, mühəndislərin və bioloqların biologiyadakı problemləri və ya problemləri öyrənmək üçün birlikdə necə işləyə biləcəyinə dair gözəl bir nümunədir. O ümid edir ki, bu üsul bioloqlar tərəfindən Alzheimer xəstəliyinin mümkün müalicəsi kimi mürəkkəb bioloji məsələlərin həllinə kömək etmək üçün yeni vasitə kimi istifadə oluna bilər.


Məlumat Elmində növbəti böyük şey &hellipdir. Biologiya

Xülasə: Hesablamalı Sintetik Biologiya (CSB) həm növbəti böyük şey, həm də məlumat elmindən istifadə etmək üçün bəlkə də ən vacib sahə olacaq. Adından da göründüyü kimi, bu, məlumat elmi ilə bioloji tədqiqatın kəsişməsində yerləşir. Artıq burada böyük irəliləyişlər və böyük investisiyalar baş verməyə başlayır. Dərin öyrənmə bacarıqları olan məlumat alimləri bunu yoxlamaq istəyəcəklər.

Məlumat elmində növbəti böyük şey budur (gözləyin) - biologiya! Əslində Hesablamalı Sintetik Biologiya (CSB) bəzən “hesablama sistemləri biologiyası” və ya sadəcə “sintetik biologiya” adlandırılır.

Bioloji tədqiqatçının nöqteyi-nəzərindən CSB geniş şəkildə təbii dünyada mövcud olmayan bioloji komponentlərin və sistemlərin dizaynı və istehsalına və ya mövcud bioloji sistemin yenidən dizaynına və istehsalına aiddir.

Məlumat alimi və xüsusən də startap dünyası üçün CSB dərin öyrənmədə irəliləyişlərdən istifadə edəcək yeni yaranan bir sahədir.

Şəxsi prioritet duyğularınızdan asılı olaraq, CSB bəşəriyyətin ən çətin bəzi xəstəliklərinin müalicəsini nəzərəçarpacaq dərəcədə sürətləndirəcək və ya 5-7 il müddətində gələcək təkbuynuzlu nəsil üçün təməl olacaq.

Bəlkə də bunu çərçivəyə salmağın daha yaxşı yolu hansının üzərində işləməyi üstün tutmaq olar, Facebook-da dostlarınızın üzlərini etiketləmək üçün üz tanıma, həmin səyahət platforması üçün chatbotlar yaratmaq və ya xərçəngi müalicə etmək və keyfiyyətli insan ömrünü uzatmaq üçün işləməkdir.

Bu sadəcə bioinformatika deyilmi?

Ən mühüm yeniliklər kimi CSB də dünən doğulmayıb. 1978-ci ildə məhdudlaşdırıcı fermentlərin kəşfi və istifadəsi bəzən biologiyada mühəndislik konsepsiyalarının ilk istifadəsi kimi qeyd olunur.

Dərin öyrənmə MPP-ni və hesablamanı kifayət qədər sürətləndirmək üçün GPU-ların istifadəsini gözləməli olduğu kimi, CSB də 2003-cü ildə insan genomunun dekodlanması və sonrakı 15 il ərzində genomik məlumatların partlaması ilə əsasən konsepsiya olaraq qaldı.

Erkən bioinformatika, genomikanı başa düşməyimizin başlanğıc mərhələləri üçün uyğun olan problemləri həll etməyə çalışdı. Məsələn, insan genomunda təxminən 10 milyon olan SNP-lərdən (tək nukleotid polimorfizmi) istifadə edərək tam genom modelini necə yığmaq və ya DNT-nin xüsusi sahələrini necə qeyd etmək olar.

CSB həmişəki kimi bioinformatika biznesi deyil.

Yalnız iki və ya üç il əvvəl dərin öyrənmə imkanlarında partlayışdan başlayaraq, ilk uzaqgörən bioloq/məlumat alimi qrupları, bir-biri ilə əlaqəsi olmayan fənlərdə bu yeni sinerjilərdən necə istifadə edəcəyini araşdırmağa başladılar.

Sizə bu sahənin nə qədər yeni və geniş açıq olduğunu hiss etmək üçün startapların formalaşmasını və sərmayəsini izləyən Angel.co veb-saytı böyük əksəriyyəti texnologiya ilə bağlı olan 4 Milyondan bir qədər çox startapı siyahıya alır. 5000-dən bir qədər çoxu “Böyük Məlumat”ı hədəfləyir, digər 5000-i isə “Analitika” kimi təsnif edilir. Yalnız 222-si bioinformatika kimi müəyyən edilir və bunların yalnız bir hissəsi CSB-ni izləyir.

Bu, təxminən 2010-cu ildə dərin öyrənmə yaşı kimi hiss olunur, hələ üç il ərzində təsvirin təsnifatı və ya nitqin tanınması 10.000 yeni süni intellekt başlanğıcı və tətbiqi ilə bağlı 95% dəqiqlik dərəcəsini vurdu.

Bəzi Nümunələr

Deməyə ehtiyac yoxdur ki, indiyə qədər dərc olunan materiallarda bu sahədəki yenilikçilər dərin öyrənməyə əsaslanan alqoritmlərdən başqa öz alqoritmləri haqqında çox şey söyləməkdən utanırdılar. Budur, baş verənlərin bir neçə şəkli.

Hexagon Bio: Antibiotiklərin dörddə üçü və xərçəng əleyhinə birləşmələrin yarısı, o cümlədən penisilin və statinlər təbii olaraq yaranan göbələklərdən (bilirsiniz, göbələklər və kiflər) əldə edilir. Lakin yeni birləşmələrin kəşfi əsasən təsadüfi olub və tədqiqatçının intuisiyasına əsaslanır.

Altıbucaqlı hansı gen qruplarının faydalı birləşmələr əmələ gətirə biləcəyini proqnozlaşdırmaq üçün 2000-dən çox göbələk və kif növünün göbələk genomunu minalayır. Daha sonra, məsələn, xərçəng hüceyrələrinə hücum edə biləcək ehtimal birləşmələri istehsal etmək üçün test mikroorqanizmlərini xüsusi çap edilmiş DNT hissələri ilə uyğunlaşdırdılar. Hal-hazırda onların klinik vəd göstərən təxminən 22 birləşmələri var.

Mülkiyyət alqoritmlərinə əlavə olaraq, Hexagon, DNT ardıcıllığı və avtomatlaşdırılmış iş stansiyaları kimi ticarətin ən səmərəli vasitələrindən istifadə etməyə keçdi. O, həmçinin gen qruplarının nüsxələrini yükləmək və çap etməklə DNT sintezini daha sürətli edən texnologiyadan istifadə edir. Bunlar bir düyməni basmaqla mayanı yenidən dizayn etmək üçün istifadə edilə bilər.

Son 18 ayda onlar özəl investorlardan 8 milyon dollar toplayıblar.

Rəqiblərin alqoritmlərinin DNT-nin potensial faydalı hissələrini nə qədər tez və dəqiq şəkildə ayırd edə bilməsi ilə bağlı mantar dərmanlarının kəşfi sahəsi xüsusilə istidir. Bu sahədə oynayan digərləri:

LifeMine Terapevtikləri: Harvard Universitetinin kimyəvi bioloqu tərəfindən təsis edilən startap, WuXi Healthcare Ventures, Google və Merck-in vençur qolu da daxil olmaqla böyük bir qrup investordan 55 milyon dollarlıq A seriyası raundunu əldə etdi.

Lodo Therapeutics Corp. May ayında 969 milyon dollara Roche birliyi ilə genom-mədən müqaviləsi imzaladı.

Adapsyn Bioscience Inc. mikrob hasilatı üçün yanvar ayında Pfizer-dən 162 milyon dollar alıb.

Bütün CSB yaş laboratoriya işlərini əhatə etmir

Xeyirxah AI iltihab, neyrodegenerasiya, yetim xəstəliklər və nadir xərçəng xəstəlikləri üçün yeni həll yollarının kəşfini davam etdirir. Bir qrup olaraq bunlar böyük əczaçılıq şirkətlərindən tədqiqat dolları cəlb etmək üçün lazım olan blokbaster bazar ölçüsünü təklif etmir. BenevolentAI hesab edir ki, bunların bir çoxuna cavablar artıq əczaçılıq Ar-Ge təşkilatı tərəfindən yaradılan istifadə olunmamış tədqiqatda mövcud ola bilər.

Onların yanaşması dərin mühakimə sistemi adlandırdıqları qabaqcıl süni intellekt platformasını inkişaf etdirməkdir. Bu platforma, bir növ qabaqcıl Watson QAM, insan mühakiməsi və məlumat arasındakı qarşılıqlı əlaqədən öyrənir və səbəbləri öyrənir.

Elmi məqalələrdə, patentlərdə, klinik sınaq məlumatlarında və çoxlu strukturlaşdırılmış məlumat dəstlərindən geniş həcmdə strukturlaşdırılmamış məlumatlardan istifadə edərək, platforma əvvəllər gizlədilən elmi biliyi müəyyən etməyə çalışır və artıq məlum olanlara əsaslanaraq nəyin “məlum olması lazım olduğunu” çıxarır.

Generativ Modellər ən qabaqcıl ola bilər

Harvard kimya professoru Alan Aspuru-Quzik iki fərqli dərmanın, məsələn, aspirin ilə ibuprofenin birləşmiş xassələrini təkrarlaya bilən molekulyar arxitekturalar təklif etmək üçün generativ DNN arxitekturasından istifadə etdi. Effektiv dərmanların birləşməsi və effektiv protokolların birləşməsi bizim daha çox xəstəlikləri effektiv şəkildə müalicə etmək və qənaətcil xərcləmə qabiliyyətimizi xeyli sürətləndirəcək.

Biz daha çox e-poçtlara cavab təklif edən Google-un Ağıllı Cavab funksiyası kimi tətbiqlərdə generativ DNN-lərdən (RNN-lər, LSTM-lər) istifadə etməyi düşünürük. Lakin giriş kimi potensial molekulyar arxitekturalardan istifadə edin və AI həm fiziki olaraq bir-birinə uyğunlaşacaq, həm də potensial olaraq birləşmiş terapevtik təsirə malik olan potensial birləşmələr təklif edə bilir.

2017-ci ilin dekabr ayında Aspuru-Quzik və Harvard, Toronto Universitetləri və Kembricdəki həmkarları ümidverici nəticələr dərc etdi 250.000 dərmana bənzər molekullar üzərində öyrədilmiş generativ modelin.

Bu şirkətlər hansı növ məlumat alimlərini axtarırlar?

Keçid etməkdə maraqlı ola biləcəkləriniz üçün şirkətdən asılı olaraq CNN, RNN, LSTM və Watson üslublu QAM-larda dərin öyrənmə bacarıqlarınız sizə yaxşı xidmət edəcəkdir. Baxdığımız iş təsvirləri Python və R-ni çağırdı, lakin bioinformatikaya xas olan başqa bir şey deyil.

İstisna odur ki, gördüyümüz təsvirlər bioloji tədqiqatlarla yaxından tanış olmaqdan daha çox şey tələb edirdi. Təxminimizcə, biologiyada paralel dərəcələri olan kifayət qədər məlumat alimi yoxdur və bu şirkətlər biologiyadan daha güclü məlumat elminə üstünlük verməyə başlayacaqlar.

Digər tərəfdən, övladlarımıza orta məktəbə və kollecə yaxınlaşdıqca nə oxumağı məsləhət görsək, məlumat elmi ilə biologiyanın birləşməsi güclü görünür.

Bizim təxminimiz budur ki, bu sahə yeni başlayır və texnoloji süni intellekt kimi yetkin olmaq üçün daha 7-10 il lazım olacaq. Bu, bu gün gənc data alimləri üçün yaxşı uzun karyera və ya 10 ildən sonra məktəbi bitirən yeni məlumat alimləri üçün yaxşı bir giriş nöqtəsi ola bilər.

Bu gün CSB ilə olduğumuz yer Henri Fordun əli ilə inşa etdiyi Model A ilə təxminən bərabərdir. Bu sahədə məlumat elmində və avtomatlaşdırmada irəliləyişlər arasında, biz çox da uzaq olmayan gələcəkdə kompüter ekranlarında müntəzəm olaraq genomları layihələndirə və ya redaktə edə bilərik.

Harvard Tibb Məktəblərində genom alimi Corc Çörç deyir ki, “Məncə, bu, kosmik inqilabdan və ya kompüter inqilabından daha böyük ola bilər”. Biz də belə düşünürük.

Müəllif haqqında: Bill Vorhies Data Science Central-ın redaktor direktorudur və 2001-ci ildən data alimi kimi fəaliyyət göstərir. Onunla əlaqə saxlamaq olar:


Videoya baxın: الدرس السابع2: طريقة BOX-JENKINS في البيانات الموسمية. (Iyul 2022).


Şərhlər:

  1. Miron

    Hər şey!

  2. War

    the right phrase

  3. Marven

    Təəssüf edirəm ki, indi müzakirədə iştirak edə bilmirəm. Lazımi məlumatlara sahib deyiləm. Ancaq məmnuniyyətlə bu mövzunu izləyəcəyəm.

  4. Bek

    Həqiqətən də qəribədir

  5. Daihn

    Fikrinizi tam olaraq bölüşürəm. Bunda bir şey var və bu fikri bəyənirəm, sizinlə tamamilə razıyam.

  6. Creedon

    Yerini vurdun. I think this is a very good idea. I completely agree with you.



Mesaj yazmaq