Məlumat

MHC zülalları məlum olan ən polimorf insan zülallarıdırmı?

MHC zülalları məlum olan ən polimorf insan zülallarıdırmı?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Alberts və digərlərinin "Hüceyrənin Molekulyar Biologiyası" kitabında "MHC zülalları məlum olan ən polimorfik insan zülallarıdır" başlıqlı bir paraqraf var. 6-cı nəşr. 2014.

Amma bu yaxınlarda kimsə mənə dedi ki, məhkəmə tibbdə şəxslərin müəyyən edilməsinə kömək edən genlər toplusunun nümunəsi belə deyil. (Genləri xatırlamadım.) Doğrudurmu?

MHC zülalları məlum olan ən polimorf insan zülallarıdırmı?


Bəli. Çoxlu MHC (insanlarda MHC HLA adlanır) genləri var. Klassik lokuslar - sinif I A, B və C və II sinif DP, DQ və DR - ən polimorfikdir.

Budur, polimorfizmlərin sayını açıq şəkildə göstərən 2002-ci il məqaləsindən bir cədvəl. Müsabiqə deyil.

Bu rəqəmlərin son dərəcə köhnəldiyini qeyd etməyimə dəyər. IPD-IMGT/HLA məlum HLA allellərinin tam siyahısını təqdim edə bilər, lakin dəqiq rəqəmlər on minlərlə:


Danışdığınız şəxs, yəqin ki, mikropeyklər adlanan ardıcıllıqları nəzərdə tuturdu. Bunlar polimorfik olan və fərdlər arasında olduqca dəyişkən olan kiçik bölgələrdir və bunların bir neçəsinin birlikdə istifadəsi genetik barmaq izi üçün faydalı ola bilər, lakin hər bir fərdi mikrosatellit, məsələn, HLA sinif I A qədər polimorfik olmayacaq.


İmmunologiyada sərhədlər

Redaktor və rəyçilərin mənsubiyyətləri onların Loop tədqiqat profillərində təqdim olunan ən son məlumatlardır və baxış zamanı onların vəziyyətini əks etdirməyə bilər.


  • Məqaləni yükləyin
    • PDF yükləyin
    • ReadCube
    • EPUB
    • XML (NLM)
    • Əlavə
      Material
    • EndNote
    • Referans meneceri
    • Sadə TEXT faylı
    • BibTex


    PAYLAŞIN

    MHC zülalları məlum olan ən polimorf insan zülallarıdırmı? - Biologiya

    (= əsas histouyğunluq kompleksi (MHC))
    Axtarış səhifəsinə qayıt
    Bu lüğətdən çıxarılan və daxil etməyin faydalı olacağını düşündüyünüz hər hansı terminləri bilirsinizsə, lütfən, GenScript-dəki Redaksiyaya təfərrüatları göndərin.

    MHC
    Əsas histouyğunluq kompleksinin abbreviaturası.
    mikrob
    [Gk. mikros, kiçik + bios, həyat] .

    MHC I sinif zülalları bədənin əksər nüvəli hüceyrələrində funksional reseptor əmələ gətirir.
    3 böyük və 3 kiçik var MHC HLA-da I sinif genləri:
    HLA-A
    HLA-B
    HLA-C
    kiçik genlər HLA-E, HLA-F və HLA-G-dir
    β2-mikroqlobulin əsas və kiçik gen alt bölmələri ilə birləşərək heterodimer əmələ gətirir.

    Əsas histouyğunluq kompleksinə baxın.
    misel Lipid aqreqatları öd duzlarının səthi örtüyü ilə. İncə bağırsaqda lipidlərin həzmində bir mərhələ.

    uyğun gəlməyən donordakı reseptorlar "qeyri-öz" sayılır və immun sistemi tərəfindən rədd edilir.
    Ana və dölün qanı qarışarsa, Rh antigenini tanıyan yaddaş hüceyrələri ilk hamiləlikdə gec əmələ gələ bilər.

    bədənin demək olar ki, bütün nüvəli hüceyrələrində olan molekullar hüceyrə daxilində sintez edilmiş yad antigenlərdən əldə edilən peptidləri bağlayır.

    antigenlər, potensial qan mərhələsindəki vaksinlər yoluxmuş eritrositlərin səthində ifadə olunan xüsusi halqa ilə yoluxmuş səth antigenlərini (RESA) hədəfləyə bilər.

    H-2 kompleksi: Əsas histouyğunluq kompleksi (

    1937-ci ildə Peter Gorer tərəfindən kəşf edilmişdir.
    Saç sancağı ilgəsi: Tək bir zəncir daxilində dupleks əmələ gəlməsi ilə əmələ gələn nuklein turşusu halqası (həmçinin kök döngəsi də deyilir). Əgər PCR primerində baş verərsə, o, işləməyəcək.

    Adaptiv immunitet: Limfositlərin antigenlərə uzunmüddətli və spesifik reaksiyası üçün kollektiv termin. tələb edir

    , T-hüceyrə reseptorları (TCR) və immunoqlobulinlər (Ig), həmçinin rekombinaz aktivliyi olan fermentlər (TCR və Ig gen lokuslarında yenidən qurulma üçün).

    -antigen kompleksi, TC hüceyrələri hədəf hüceyrənin plazma membranında məsamələr əmələ gətirən zülal perforini buraxır, bu da ionların və suyun hədəf hüceyrəyə axmasına səbəb olur, bu da onun genişlənməsinə və nəticədə parçalanmasına səbəb olur.

    B hüceyrələrinin inkişafında II sinif antigenin işlənməsi". Beynəlxalq İmmunologiya icmalı. 19 (2-3): 139-55. doi:10.3109/08830180009088502. PMID 10763706.
    ^ Kehry MR, Hodgkin PD (1994). "Köməkçi T-hüceyrə membranları ilə B-hüceyrəsinin aktivləşdirilməsi". İmmunologiyada tənqidi rəylər. 14 (3-4): 221-38. doi: 10.

    Viral infeksiya gedirsə, makrofaqlar və digər immun hüceyrələr virusla təmasda olacaq və onların hüceyrə səthində viral antigenlər nümayiş etdirəcəklər.

    2 molekula antigen təqdim edən hüceyrələr deyilir.

    Bədənin bütün hüceyrələri I sinif adlanan səth zülalları istehsal edir

    protein. Uyğun reseptoru olan TC hüceyrəsi anormal hüceyrəni tanıyacaq.

    Bu fenomenin bir halı əsas histouyğunluq kompleksindəki lokuslarda baş verir (

    ) burada bəzi insan allelləri digər insan allellərinə nisbətən bəzi şimpanze allelləri ilə daha yaxından əlaqəlidir (şək. 7).

    II sinif yüksək polimorfik olan gen lokuslarıdır, yəni hər iki şəxsin eyni MHCII lokusunu paylaşma ehtimalı aşağıdır. Buna görə də, iki şəxsin nə qədər yaxından əlaqəli olduğunu ayırd etmək üçün faydalı bir yoldur.

    Birincisi, T-hüceyrəsinin tanıma qabiliyyətinə malik reseptorlara malik olub olmadığını yoxlayan müsbət seçimdir

    antigenləri təqdim edəcək molekullar. İkincisi, orqanizmin toxumalarına və rezident florasına hücum edən T-hüceyrələrini bu hüceyrələrdən gələn antigenlərə cavab verdiyi üçün onları çıxaran mənfi seçimdir.

    İnsan HLA genləri (ekvivalent

    siçanlarda genlər) çoxlu allellərə malikdir və heç bir iki fərddə bütün gen lokuslarında eyni allel yoxdur. Aşağıdakılardan hansı bu genetik müxtəlifliyin nəticələridir?
    A.
    Populyasiya daxilində immun reaksiya ilə tanınıb aradan qaldırıla bilən patogen növlərini maksimum dərəcədə artırır.

    əsas histouyğunluq kompleksi (

    əsas immunogen kompleksin bir hissəsidir.

    əsas histouyğunluq kompleksi (

    markerlər transplantasiya edilmiş toxuma və orqanların rədd edilməsinə səbəb ola biləcək T-hüceyrə reaksiyalarını tetikler.
    Malpigi borusu.

    Makrofaq bakteriyaları yedikdə, bakteriyalardan olan zülallar (antigenlər) qısa peptid zəncirlərinə parçalanır və bu peptidlər daha sonra xüsusi molekullara bağlanmış makrofaq səthində "göstərilir".

    II (Əsas Histouyğunluq Kompleksi II Sinif üçün).

    Səthi immunoqlobulin (Ag tanınması)
    İmmunoqlobulin Fc reseptoru
    Sinif II Əsas Histouyğunluq Kompleksi (

    H-2 kompleksi. Əsas histouyğunluq kompleksi (

    ) siçan, 17-ci xromosomda yerləşir.
    haploid. Normal olaraq gametlərdə olan xromosom dəstini ehtiva edən hüceyrə və ya orqanizm.

    Harvard Tibb Məktəbinin alimləri insan leykosit antigeni (HLA) kimi tanınan güclü gen kompleksinin fəaliyyətinə hansı amillərin təsir etdiyini araşdırmaq üçün yola çıxdılar. Bir müddətdir məlumdur ki, insanlarda HLA genlərinin spesifik variantları və əsas histouyğunluq kompleksləri (

    Bu gen ilk dəfə T- və B-hüceyrə nəsilləri üçün təsvir edilmişdir (Behrens et al, 1994). Gen endoplazmatik retikulumla əlaqəli zülalı kodlayır və peptidlərin hüceyrələrə çatdırılmasında iştirak edir.

    sinif I molekulları (Snyder et al, 1997). IHC, lenfositlərdə ER-pozitivliyini göstərən RNAseq məlumatlarını dəstəkləyir.

    Histocompatible İki heyvanın hüceyrələrinin immunoloji rədd edilmədən çarpaz transplantasiya oluna biləcəyi genetik vəziyyətə aiddir. Histouyğunsuzluğun əksi. Histouyğunluq əsasən Əsas Histouyğunluq Kompleksindəki genlər tərəfindən idarə olunur və ya


    Öz-özünə hesabat verən peptidlər MHC yivini işıqlandırır

    Ətraf mühitə həssas flüoroforlarla kimyəvi cəhətdən dəyişdirilmiş sintetik oliqopeptidlər peptidlərin MHC molekullarına bağlanmasının real vaxtda vizuallaşdırılmasına imkan verir. Bu texnologiya antigen təqdimatı haqqında anlayışımızı genişləndirəcək və canlı hüceyrələrdəki müxtəlif reseptorlara flüoresan peptid bağlanmasının vizuallaşdırılmasına imkan verəcək.

    Əsas histouyğunluq kompleksi (MHC) molekulları T-hüceyrə reaksiyalarını aktivləşdirmək üçün immunogen zülallardan oliqopeptid peptid antigenlərini təqdim edir. Antigen təqdimatının kritik cəhəti peptidlərin MHC molekullarına bağlanmasıdır. Kifayət qədər uzunluğa malik peptidlərin yalnız ~1%-i istənilən MHC sinif I və ya II sinif gen məhsuluna bağlana bilir. MHC molekullarına peptidin bağlanmasının kəmiyyətini müəyyən etmək üçün çoxsaylı üsullar mövcud olsa da, heç biri real vaxtda bağlanmanı aşkar etmir, yəni indiyə qədər. Bu sayında Təbiət kimyəvi biologiyası, Venkatraman və b. 1, insan MHC sinif II molekul DR1 ilə bağlandıqdan sonra, ekoloji cəhətdən həssas flüoroforlarla dəyişdirilmiş peptidlərin flüoresanda böyük artımlar, emissiyada Stokes sürüşməsinin artması və flüoresans ömrünün artması nümayiş etdirdiyini bildirir, bunların hamısı peptid bağlanmasını real şəkildə izləmək üçün istifadə edilə bilər. vaxt.


    22 mart 2021-ci il

    Dünyada təqribən 2,6 milyon insanın ölümünə səbəb olan sirli yeni patogen olan SARS CoV-2 ilə bağlı çoxlu çaşdırıcı suallardan bəlkə də ən təkidlisi budur: niyə xəstəlik bəzən 100 ili əsirgəmədən belə təsadüfi şəkildə vurur. qoca nənə, həyatın ən yaxşı çağında sağlam gənc kişi və qadınları öldürərkən?

    Karen Anderson, Abhishek Singharoy və Arizona Dövlət Universitetinin Biodizayn İnstitutundakı həmkarları tərəfindən aparılan yeni bir araşdırma bəzi ilkin ipuçları verə bilər. Onların tədqiqatı insanın adaptiv immun sisteminin kritik protein komponenti olan MHC-I-ni araşdırır.

    Tədqiqat göstərir ki, MHC-I-nin müəyyən variant formaları güclü immun reaksiyanı stimullaşdırmaqla orqanizmi qorumağa kömək edə bilər, digərləri isə fərdləri viral hücumlara, ağır xəstəliyə və ehtimal ki, ölümə məruz qoya bilər.

    "Bizim tapıntıların nəticəsi odur ki, SARS-CoV-2-yə güclü və müxtəlif T hüceyrə reaksiyası qurmaq qabiliyyəti xəstəliyin şiddətini məhdudlaşdırmaq üçün vacib ola bilər" dedi Anderson. "Bu işin açarı fərdi MHC-I peptid bağlama qabiliyyətini proqnozlaşdırmaq üçün protein strukturundan istifadə etməkdir."

    Mobil polis

    İnsanlar, bütün onurğalılar kimi, bütün nüvəli hüceyrələrdə MHC-I molekullarını daşıyırlar. MHC-I-nin mərkəzi rolu orqanizmə infeksiyaları viruslardan və digər patogenlərdən təmizləməyə kömək etməkdir. O, bunu virusun fraqmentlərini toplayaraq, onları hüceyrə səthinə daşıyaraq və onları CD8+ T hüceyrələri kimi tanınan immun agentlərə təqdim etməklə edir.

    Bununla belə, MHC-I polimorfik molekuldur, yəni o, viral fraqmentləri bağlamaq və onları T hüceyrələri tərəfindən sorğu-sual üçün təqdim etmək qabiliyyəti ilə əhəmiyyətli dərəcədə fərqlənən müxtəlif formalarda baş verir. Hansı MHC-I variantlarının və ya allellərinin mövcudluğundan asılı olaraq, orqanizm SARS CoV-2-yə qarşı uğurlu immun cavab verə bilər və ya bunu edə bilməyəcək və bədəni həssas buraxa bilər.

    Cell Reports Medicine jurnalında çıxan yeni araşdırmada Anderson, Singharoy və onların həmkarları EnsembleMHC kimi tanınan, hansı MHC-I allellərinin viral fraqmentləri bağlamaqda və onları T hüceyrələrinə təqdim etməkdə ən yaxşı olduğunu proqnozlaşdırmaq üçün nəzərdə tutulmuş mürəkkəb alqoritmi təsvir edirlər. Onlar həmçinin immun cavabının güclü stimulyatoru olduğuna inanılan SARS CoV-2 struktur zülallarından əldə edilən 108 viral peptidi müəyyən edirlər.

    "Bu, SARS-CoV2 sıçrayışı ilə molekulyar epidemiologiyanın ilk nümunələrindən biridir" Singharoy deyir. (Birinci müəllif) Eric Wilson tərəfindən hazırlanmış molekulyar xüsusiyyətlərdən populyasiya xüsusiyyətlərinə qədər miqyas olduqca yenidir."

    Wilson Biodizayn İnstitutunun və ADU-nun Molekulyar Elmlər Məktəbinin tədqiqatçısıdır.

    Effekt diapazonu

    Tədqiqat 52 ümumi MHC-I allelini araşdırır və onların tam SARS CoV-2 genomundan əldə edilən viral fraqmentləri, eləcə də ən vacib virus zülalları olduğuna inanılan struktur komponentlərin əsas alt dəstindən əldə edilən fraqmentləri bağlamaq qabiliyyətində əhəmiyyətli fərqlər aşkar edir. güclü immun reaksiyalar yaradır. Bu əsas zülallar virusa 4 kritik strukturu yığmağa kömək edir və S (Sünbül), N (Nukleokapsid), M (Membran) və E (Zərf) zülalları kimi tanınır.

    CD8+ T hüceyrələri epitoplar kimi tanınan bu struktur zülalların dok bölgələrini tanıya bilir. Bu patrul immun hüceyrələri S, N, M və E zülalları ilə qarşılaşdıqda, adətən məhv olmaq üçün yoluxmuş hüceyrəni hədəf alırlar.

    Tədqiqatçılar 23 ölkədən COVID-19 rəqəmlərini müqayisə etdikdə, xəstəlikdən ölüm nisbətinin MHC-I variantlarının paylanması ilə sıx əlaqəli olduğunu aşkar etdilər. Xüsusilə, SARS CoV-2 peptid fraqmentlərinin güclü bağlayıcıları kimi sıralanan MHC-I allelləri ilə zəngin olan populyasiyalar, COVID-19-dan ölüm nisbətlərinin azaldığını göstərdi və bu, bu əlverişli MHC-I allellərinin yeni koronavirusla qarşılaşdıqları zaman güclü immun reaksiya yaratdıqlarını göstərir.

    İş həm fərdlərdə, həm də populyasiyalarda COVID-19-a qarşı həssaslığın monitorinqi üçün mühüm nəticələrə malikdir və həmçinin tədqiqatçılara gələcək peyvəndlərin kritik komponenti olan immun cavabı ən yaxşı şəkildə stimullaşdıran SARS CoV-2 patogeninin əsas hissələrini ayırmağa kömək edə bilər.

    Müdafiə tədbirləri

    MHC-I molekulları bütün insan genomunun ən polimorfik hissəsi olan MHC geni tərəfindən yaradılır. MHC-nin 160-dan çox müxtəlif funksiyalı zülalları kodladığı məlumdur, bunların yarısı birbaşa immun reaksiyalarında iştirak edir. MHC-I zülallarının böyük müxtəlifliyi orqanizmi geniş spektrli patogen fraqmentləri bağlaya və immunitet reaksiyasını dəqiq tənzimləyə bilən nəhəng erkən xəbərdarlıq müdafiə sistemi ilə təmin edir. MHC-I molekullarının zəngin müxtəlifliyi həm də virus kimi yad işğalçının bütün potensial bağlayıcı molekulları oğurlamasını çətinləşdirir.

    Müşahidə aparan CD8+ T hüceyrələri özünü məndən olmayandan ayırmaq üçün qeyri-adi bir qabiliyyətə malikdir. Əgər T hüceyrələri gördüklərini bəyənmirlərsə, antigen təqdim edən MHC-I molekulları əldə etdikləri fraqmentləri göstərdikdə, CD8+ T hüceyrələri yoluxmuş hüceyrəni məhv edəcək.

    Əvvəlki tədqiqatlar göstərdi ki, MHC-I tərkibindəki cüzi amin turşusu fərqləri belə dərin təsirlərə səbəb ola bilər. Bir tərəfdən, bəzi MHC-I formaları sağlam toxumaların xarici olaraq tanındığı Graves xəstəliyi, psoriaz, revmatoid artrit və ya dağınıq skleroz kimi iltihablı və otoimmün xəstəlikləri inkişaf etdirə bilər. Digər tərəfdən, MHC-I variantları virusun və ya digər patogenin müvafiq fraqmentlərini bağlamaq üçün struktur olaraq təchiz olunmamış ola bilər və immun cavab verə bilmir. Bu səbəbdən, MHC genotipi bir sıra viral infeksiyalardan sonra xəstənin nəticələrinin kritik təyinedicisi hesab olunur.

    MHC-I də toxuma transplantasiyası hallarında mühüm rol oynayır, onun tam adı - əsas histouyğunluq kompleksi - təklif edir. Əgər bağışlanmış toxuma resipiyentlə uyğun gəlmirsə, MHC-I molekulları donor toxumasından fraqmentlər təqdim edir ki, bunlar xarici olaraq tanınır və T hüceyrələri tərəfindən hücuma məruz qalır.

    Qorunma izi ilə

    Hazırkı araşdırmada tədqiqatçılar SARS CoV-2 zülal fraqmentləri üçün bağlanma yaxınlıqlarını proqnozlaşdırmaq üçün EnsembleMHC kimi tanınan xüsusi hazırlanmış alqoritmdən istifadə edərək MHC-I zülalının 52 ümumi allelini araşdırdılar. Birincisi, SARS CoV-2 genomunda zülalların tam repertuarı üçün hər bir allelin bağlanma yaxınlığını ölçən iki məlumat dəsti tərtib edildi. İkinci məlumat dəsti hər bir allelin yalnız S, N, M və E struktur viral peptid namizədlərinə bağlanma yaxınlıqlarını araşdırır.

    Tədqiqatçılar daha sonra 23 ölkə ilə aparılan tədqiqatda 52 allelin yayılmasına uyğun gələn zülal allellərinin kütləvi məlumat bankını çıxardılar. Hər bir ölkə MHC-I-ə bağlanma qabiliyyətini MHC-I allel tezlikləri ilə birləşdirən əhali üzrə geniş xal aldı.

    2020-ci ilin yanvar-aprel aylarında tədqiqat dövründə ölüm nisbəti daha aşağı olan ölkələr və EnsembleMHC tərəfindən SARS CoV-2 zülalları üçün güclü bağlayıcı molekullar kimi müəyyən edilən allellərin yüksək əhali üzrə faizləri arasında cəlbedici bir əlaqə tapıldı.

    Bundan əlavə, yalnız S, N, M və E zülalları üçün yüksək bağlayıcı yaxınlıq nümayiş etdirən allellər müqayisə edildikdə, aşağı COVID-19 ölüm nisbəti ilə bu əlverişli MHC-I allelləri dəsti arasında əlaqə ən güclü idi və bu, yenə də virusun struktur zülallar immun cavab yaratmaqda ən effektivdir.

    Tapıntılar göstərir ki, SARS-CoV-2 struktur zülal peptidləri ilə əlaqə qura bilən MHC-I allelləri olan xəstələr infeksiyadan sonrakı nəticələri yaxşılaşdırmaq və ölüm nisbətini aşağı salmaqla gücləndirilmiş CD8+ T hüceyrə reaksiyasını stimullaşdıra bilər.

    Yeni tədqiqatda təsvir edilən güclü texnika MHC-I allelləri ilə immun reaksiyanın incə əlaqəsini daha da ortaya qoyur və tədqiqatçılara SARS CoV-2-dən ən vacib immunogen virus fraqmentlərini təyin etməyə kömək edəcək və gələcək peyvəndin inkişafına kömək edəcək. Bu cür məlumatların xəstənin klinik məlumatları və genetik profilləri ilə birləşdirilməsi hələ də çətin olan bu xəstəlik üçün ən böyük risk altında olanları müəyyən etməyə kömək edə bilər.


    Metodlar

    Hüceyrə mədəniyyəti və HLA tiplənməsi

    Bu tədqiqat Comité d'Ethique de la Recherche de l'Hôpital Maisonneuve-Rosemont tərəfindən təsdiqləndi və bütün subyektlər yazılı məlumatlı razılıq verdilər. Sitotoksiklik analizləri üçün təzə qan nümunələri tələb olunduğu üçün biz Centre d'Etude du Polymorphisme Humain-dən yüksək səciyyələnən B-LCL-ləri öyrənmək əvəzinə, mövcud donorlardan yeni B-LCL-lər yaratmağı seçdik. PBMC-lər iki əkiz olmayan HLA-eynil Qafqaz qadın bacısının (54 və 56 yaş) qan nümunələrindən təcrid edilmişdir. B-LCL-lər Ficoll-Paque Plus (Amersham) ilə PBMC-lərdən, ardınca təsvir edildiyi kimi EBV infeksiyasından əldə edilmişdir. 2,5 ml tam RPMI-10 mühitində on milyon PBMC, təchizatçıdan (ATCC VR-1492) əldə edilən 1 ml EBV (B95-8 ştammı) süspansiyonu ilə 37 °C su banyosunda 2 saat ərzində inkubasiya edilmişdir. 1 μ ml -1 siklosporin A (Siqma-Aldrich) ehtiva edən tam RPMI-10 hüceyrə süspansiyonuna 10 ml ümumi həcmdə əlavə edildi və nəmləndirilmiş 37 °C, 5% CO-da 3-5 həftə inkubasiya edildi.2 inkubator. Maisonneuve-Rosemont Xəstəxanasında yüksək rezolyusiyaya malik HLA genotiplənməsi aparılıb. İki bacı HLA-A*03:01,*29:02 B*08:01,*44:03 C*07:01,*16:01 DRB1*03:01,*07:01-dir.

    RNT çıxarılması və transkriptom kitabxanalarının hazırlanması

    İstehsalçının göstərişlərinə uyğun olaraq DNase I müalicəsi (Qiagen) daxil olmaqla RNeasy mini dəsti istifadə edərək ümumi RNT 5 milyon B-LCL-dən təcrid edilib. Ümumi RNT kəmiyyəti NanoDrop 2000 (Thermo Scientific) və RNT keyfiyyəti 2100 Bioanalyzer (Agilent Technologies) ilə qiymətləndirilib. Transkriptom kitabxanaları istehsalçının protokoluna uyğun olaraq TruSeq RNT Nümunə Hazırlama Dəsti v2 (Illumina) istifadə edərək 1 μg ümumi RNT-dən yaradıldı. Qısaca olaraq, poli-A messenger RNT iki dövrə təmizlənmədən istifadə edərək poli-T oliqo-ilişdirilmiş maqnit muncuqları ilə təmizləndi. Poli-A RNT-nin ikinci elüsyonu zamanı RNT parçalanmış və cDNT sintezi üçün hazırlanmışdır. Birinci zolağın tərs transkripsiyası təsadüfi primerlər və SuperScript II (Invitrogen) istifadə edərək həyata keçirildi. İkiqat zəncirli cDNA yaratmaq üçün əks transkripsiyanın ikinci raundu aparıldı, daha sonra Agencourt AMpure XP PCR təmizləmə sistemindən (Beckman Coulter) istifadə edilərək təmizləndi. Parçalanmış cDNA-nın son təmiri, 3′ uclarının adenilasiyası və adapterlərin bağlanması istehsalçının protokoluna əsasən tamamlandı. Hər iki ucunda adapter molekulları olan DNT fraqmentlərinin zənginləşdirilməsi 15 dövr PZR gücləndirilməsi və Illumina PCR qarışığı və primerlər kokteyli ilə həyata keçirilib.

    DNT çıxarılması və ekzomun tutulması

    Genomik DNT istehsalçının göstərişlərinə uyğun olaraq PureLink Genomik DNT Mini Kitindən (Invitrogen) istifadə edərək 5 milyon B-LCL-dən çıxarılıb. DNT kəmiyyəti və keyfiyyəti NanoDrop 2000 (Thermo Scientific) ilə qiymətləndirilib. Genomik kitabxanalar istehsalçının protokoluna uyğun olaraq TruSeq DNT Nümunə Hazırlama Kitindən (v2) (Illumina) istifadə edilməklə 1 μg genomik DNT-dən qurulmuşdur. İstehsalçının göstərişlərinə uyğun olaraq TruSeq ekzom zənginləşdirmə dəsti (Illumina) ilə hibrid seçim əsaslı ekzom zənginləşdirilməsi üçün 500 ng DNT-Seq kitabxanasından istifadə etdik.

    Bütün transkriptomun və ekzomanın ardıcıllığı və xəritələşdirilməsi

    TruSeq v3 kimyası ilə işləyən Illumina HiSeq2000 maşınından istifadə etməklə cütləşdirilmiş (2 × 100 bp) ardıcıllıq həyata keçirilib. Hər zolağa iki RNT-Seq və ya dörd ekzomik kitabxana ardıcıllıqla (slayd üçün səkkiz zolaq) yerləşdirilib. Klaster sıxlığı təqribən 600-800 k klaster mm -1 (istinad 2) üçün hədəflənmişdir. Aşağı keyfiyyətli oxunuşları silmək üçün Illumina iffət keyfiyyət filtrindən istifadə edilmişdir. Əsas zəngin iffəti ən böyük siqnalın intensivliyinin iki ən böyük siqnalın cəminə bölünməsi nisbətidir. İlk 25 dövrədə birdən çox əsas zəng iffət <0.6 olduqda oxunuşlar bu filtrdən keçdi. Oxumaların 96%-dən çoxu bu filtrdən keçib (Əlavə Məlumat 1). Ardıcıllıq məlumatları Casava 1.8.1 və Eland v2e xəritəçəkmə proqramlarından (Illumina) istifadə edərək insan istinad genomuna (hg19) uyğunlaşdırılıb. Əvvəlcə *.bcl faylları sıxılmış FASTQ fayllarına çevrildi, ardınca indeks üzrə ayrı-ayrı multipleksləşdirilmiş ardıcıllıqların demultipleksləşdirilməsi. Tək oxunuşlar çox toxumlu və boşluqlu hizalama metodundan istifadə edərək insan istinad genomuna uyğunlaşdırıldı. Multiseed hizalama 32 əsas və ardıcıl toxumların ilk toxumunu ayrı-ayrılıqda uyğunlaşdırmaqla işləyir. Boşluqlu hizalama hər bir namizədin düzülməsini oxunuşun tam uzunluğuna qədər genişləndirir və 10 bazaya qədər boşluqlara imkan verir. Aşağıdakı meyarlar tətbiq edildi: (i) oxunuşda boşluqlar olmadan ən çox iki uyğunsuzluğa uyğun gələn ən azı bir toxum var və (ii) aşağı axınında ən azı beş uyğunsuzluğu düzəltmək şərti ilə bütün oxunuş üçün boşluqlara icazə verilir. Hər bir namizədin uyğunlaşdırılması üçün ardıcıllığın əsas keyfiyyət qiymətlərinə və uyğunsuzluqların mövqelərinə əsaslanan ehtimal balı hesablanmışdır. Phred şkalası ilə ifadə edilən oxunuşun uyğunlaşma balı, namizədin uyğunlaşmalarının ehtimal ballarından hesablanmışdır. Verilmiş oxunuş üçün ən yaxşı düzülmə ən yüksək ehtimal balı olan namizədin uyğunlaşmasına uyğun gəlirdi və uyğunlaşma balı həddi keçdiyi halda saxlanılır. Oxuma düzülmələri, əgər onlar bitişik daxiletmə/silmə hadisələrini ehtiva edərsə və ya qoşalaşmış son anomaliyalar mövcud olarsa, əlavə olaraq süzülürdü. İki və ya daha çox yerdə xəritələnmiş oxunuşlar sonrakı təhlillərə daxil edilməyib. Ekzoma qoşalaşmış son kitabxanalar üçün cütün hər yarısı üçün ən yaxşı xal düzülmələri hesablanmış və təxmin edilən əlavə ölçüsü paylanmasına uyğun olaraq ən yaxşı qoşa oxunan düzülmələri tapmaq üçün müqayisə edilmişdir. RNT-seq kitabxanaları vəziyyətində, birləşmə birləşmələrinə və çirkləndiricilərə (mitoxondrial və ribosomal RNT) qarşı əlavə uyğunlaşdırma aparıldı. Çirkləndiricilərin xəritələşdirilməsi ardıcıllığı ləğv edildi, eyni zamanda birləşmə qovşaqlarına bənzərsiz şəkildə göstərilən oxunuşlar saxlanıldı və genom koordinatlarına çevrildi.

    Transkript ifadəsinin kəmiyyəti

    Subyektlər arasında transkript ifadəsini qiymətləndirmək və müqayisə etmək üçün iki üsuldan istifadə etdik. Birinci üsulda Casava 1.8.1 proqram təminatı (Illumina) aşağıdakı düsturdan istifadə edərək, hər milyon xəritələnmiş oxunuşda ekson modelinin kilobazasına görə oxunan gen və ya ekson ifadə səviyyələrini (RNT-seq) qiymətləndirmək üçün istifadə edilmişdir: gen və ya ekson RPKM= 10 9 × Cb/Nb × L, burada Cb xüsusiyyətə düşən əsasların sayıdır, Nb xəritələnmiş əsasların ümumi sayıdır və L əsas cütlərdə xüsusiyyətin uzunluğudur. Transkript ifadəsini müqayisə etmək üçün xam hesablamalara əsaslanan DESeq 59 paketindən də istifadə etdik. Transkript ifadə səviyyəsi SNP çağırışında nəzərə alınmadı.

    SNP-lərin müəyyən edilməsi və oxunanların sayılması

    Variant çağırışı, indel aşkarlanması və oxunuşların sayılması Casava 1.8.1 proqram təminatından (Illumina) istifadə edilməklə həyata keçirilib. Variant zənglərinin və saytın əhatə dairəsinin xülasələrinin keyfiyyətini yaxşılaşdırmaq üçün oxunuşlar namizəd indeksləri ətrafında yenidən uyğunlaşdırıldı. Fərdi əsas zənglər uyğunsuzluq sıxlığı və ya qeyri-müəyyənlik əsasında daha sonra süzüldü və qalan əsas zənglər saytın genotiplərini proqnozlaşdırmaq üçün istifadə edildi. Casava həmçinin istinad genomu (GRCh37.p2, NCBI) və subyektlərimizin ardıcıl transkriptomu və ekzomu arasında müşahidə edilən bütün SNP-ləri əldə etmək üçün istifadə edilmişdir. Sentromerlərin yaxınlığında və yüksək nüsxə sayı bölgələrində SNP və indel çağırışları silindi. Casava hər SNP üçün ən çox ehtimal olunan genotipi (max_gt) hesablayır. Q-ən çox ehtimal olunan genotip (Qmax_gt) ehtimalını ifadə edən dəyər. The Q-dəyər bazanın yanlış çağırılması ehtimalını ölçən və aşağı keyfiyyətli SNP-ləri süzgəcdən keçirmək üçün istifadə olunan keyfiyyət balıdır (bax 'Siliko-yaradılan proteomlar və fərdiləşdirilmiş verilənlər bazaları bölməsi). Ən azı 5 × əhatə dairəsi ilə ardıcıllıqla SNP-lər saxlanıldı. Bu məlumat (.txt faylları) sonrakı emal üçün daxili python moduluna, pyGeno 19-a yüklənmişdir.

    Siliko-yaradılan proteomlar və fərdiləşdirilmiş verilənlər bazaları

    Məlumatların axtarışı, təhlili və emalı üçün pyGeno-ya əsaslanan müxtəlif daxili skriptlərdən istifadə etdik. Biz ekzom ardıcıllığı məlumatlarını transkriptom ardıcıllığı məlumatlarına inteqrasiya etdik. Transkriptom ardıcıllığı ilə tapılan hər bir SNP üçün, biz ən çox ehtimal olunan genotipi saxladıq. Q-dəyər (Qmax_gt) ≥20 idi ki, bu da 1% səhv nisbətinə uyğundur (daha yüksək keyfiyyət balı səhv ehtimalının daha kiçik olduğunu göstərir). Əgər SNP də ekzom ardıcıllığı ilə əhatə olunmuşdusa, biz yalnız RNT-seq tərəfindən tapılan ən çox ehtimal olunan genotipi deyil, həm də ekzomanın ardıcıllığı ilə ümumi olan bütün əsasları daxil etdik. Biz həmçinin yalnız ekzom ardıcıllığı ilə tapılan və bir xüsusiyyətə malik olan SNP-lərin genotiplərini daxil etdik. Q-qiymət ≥20. Nəhayət, biz transkriptom və ekzom ardıcıllığı tərəfindən çağırılan bütün SNP əsaslarını daxil etdik. Q-dəyər. Bütün SNP-lərin saxlanılan genotipləri daha sonra hər bir subyekt üçün “fərdiləşdirilmiş genom” yaratmaq üçün doğru mövqedə istinad genomuna (GRCh37.p2, fasta faylı) inteqrasiya edildi. Bu fərdiləşdirilmiş genomlar Y xromosomu və mitoxondrial DNT istisna olmaqla, bütün xromosomlar üçün Ensembl gen dəstində (GRCh37.65, gtf faylı) bildirilmiş bütün transkriptləri çıxarmaq üçün istifadə edilmişdir. Bu transkriptlər o zamanlar idi silisiumda Ensemb gen dəstində göstərilən oxu çərçivəsindən istifadə edərək zülallara çevrilir. MIP-lərin böyük əksəriyyətinin maksimum uzunluğunun 11 amin turşusu olduğunu nəzərə alaraq, hər bir heterozigot ns-SNP-də mərkəzləşdirilmiş 21 amin turşusundan ibarət bir pəncərə qurduq. Pəncərədə birdən çox SNP olduqda, biz tərcümə etdik silisiumda bütün mümkün birləşmələri və onları fərdiləşdirilmiş məlumat bazalarına daxil edin (Şəkil 1b). Nəhayət, biz bütün tərcümə məhsullarını MIP-lərin identifikasiyası üçün istifadə olunan iki fasta fayl verilənlər bazasında (hər mövzu üçün bir) tərtib etdik (bax: 'MS/MS ardıcıllığı və peptid qruplaşması' bölməsi). Hər iki nəticə verilənlər bazası qalıqların sayı (1-ci mövzuda 36.007.210 və 2-ci mövzuda 36.010.026) və daxilolmaların sayı (1-ci mövzuda 95.806 və 2-ci mövzuda 95.687) baxımından oxşar ölçüyə malik idi. Üstəlik, onların ölçüsü istifadə olunan UniProt insan məlumat bazasının ölçüsü ilə müqayisə edilə bilər (43,384,120 qalıq və 75,530 giriş).

    MS/MS ardıcıllığı və peptid qruplaşması

    Texniki və bioloji replikasiyalar 8 üzrə MS məlumatlarının reproduktivliyinə dair əvvəlki araşdırmalarımız əsasında biz hər bir mövzudan 5 × 10 8 eksponent olaraq böyüyən B-LCL-lərin dörd bioloji təkrarını hazırladıq. MIP-lər yumşaq turşu müalicəsi ilə buraxıldı, 30 cc HLB patronunda duzsuzlaşdırıldı, 3000 Da kəsici membranla süzüldü və əvvəllər təsvir edildiyi kimi off-line 1100 seriyalı ikili LC sistemindən (Agilent Technologies) istifadə edərək kation mübadiləsi xromatoqrafiyası ilə yeddi fraksiyaya ayrıldı. 8,9. Tərkibində MİP ​​olan fraksiyalar 0,2% qarışqa turşusunda yenidən dayandırıldı və LTQ-Orbitrap ELITE kütlə spektrometrinə (Termo Elektron) qoşulmuş Eksigent LC sistemindən istifadə edərək LC-MS/MS tərəfindən təhlil edildi. Peptidlər xüsusi bir C-də ayrıldı18 tərs faza sütunu (150 μm i.d. X 100 mm, Jupiter Proteo 4 μm, Phenomenex) 600 nl dəq -1 axın sürəti və 120 dəqiqə ərzində 3-60% sulu ACN (0,2% qarışqa turşusu) xətti qradientindən istifadə etməklə. Tam kütlə spektrləri 30.000 həll gücündə işləyən Orbitrap analizatoru ilə əldə edilmişdir. m/z 400). Kütləvi kalibrləmə daxili kilid kütləsindən (protonlaşdırılmış (Si(CH3)2O))6 m/z 445.120029) və peptid ölçmələrinin kütləvi dəqiqliyi 5 p.m. MS/MS spektrləri 35% normallaşdırılmış toqquşma enerjisi ilə daha yüksək enerjili toqquşma dissosiasiyasında əldə edilmişdir. Maksimum enjeksiyon vaxtı 300 ms olmaqla 50.000 hədəf dəyərinə altıya qədər prekursor ionları toplandı və fraqment ionları 15.000 qətnamə ilə işləyən Orbitrap analizatoruna köçürüldü. m/z 400.

    Kütləvi spektrlər Xcalibur proqramından istifadə edərək təhlil edildi və pik siyahılar Mascot distiller Version 2.3.2 ( http://www.matrixscience.com ) istifadə edərək yaradıldı. Məlumat bazası axtarışları UniProt Human verilənlər bazasına (43,384,120 qalıq, 2 aprel 2013-cü ildə buraxılmışdır), 1 və 2-ci mövzulara xas verilənlər bazalarına (müvafiq olaraq 34,976,580 və 34,990,381 qalıqlar, bax ')silisium-dayaradılan proteom və fərdiləşdirilmiş verilənlər bazaları bölməsi) və EBV_B95.8 verilənlər bazası (40,946 qalıq), Mascot (Versiya 2.3.2, Matrix Science). FDR-ni hesablamaq üçün biz insan UniProt və ya mövzuya aid verilənlər bazasından istifadə edərək birləşdirilmiş hədəf/tökmə verilənlər bazasına qarşı Mascot axtarışı həyata keçirdik. Hədəf irəli ardıcıllığı və fırıldaqçı onun əks tərəflərini təmsil edir. Prekursor və fraqment ionları üçün kütləvi dözümlülüklər 5 p.m. və müvafiq olaraq 0,02 Da. Axtarışlar sisteinilləşmə, fosforlaşma (Ser, Thr və Tyr), oksidləşmə (Met) və deamidasiya (Asn, Gln) üçün dəyişən dəyişikliklərlə ferment spesifikliyi olmadan aparılmışdır. Xam məlumat faylları ibarət peptid xəritələrə çevrildi m/z daxili proqram təminatından (Proteoprofile) istifadə edərək 8000 say həddini aşan bütün aşkar edilmiş ionlar üçün dəyərlər, yük vəziyyəti, saxlama müddəti və intensivliyi 9 . Bütün müəyyən edilmiş peptid ionlarına uyğun gələn peptid xəritələri, nümunə dəstləri və təkrarlar arasında onların bolluğunu əlaqələndirmək üçün bir-birinə uyğunlaşdırıldı. Yalnız bir mövzuda aşkar edilmiş MIP-lərin MS/MS spektrləri əl ilə təsdiq edilmişdir.

    MİP-lərin identifikasiyası

    MİP identifikasiyası dörd meyara əsaslanırdı: (i) 8-11 amin turşusunun kanonik MİP uzunluğu, (ii) NetMHCcons alqoritmi 43 tərəfindən verilən proqnozlaşdırılan MHC-ə bağlanma yaxınlığı, (iii) keyfiyyətini əks etdirən Mascot balı. peptid təyinatı və (iv) hədəf (doğru) identifikasiyalara qarşı təxribat (yanlış) nisbətini göstərən FDR. Əvvəlcə bu parametrlər arasındakı əlaqəni qiymətləndirdik. FDR dəyərləri <60% və bütün 8-11-mers üçün ≤1,750 nM MHC-ə bağlı yaxınlıq dəyərləri arasında güclü korrelyasiya (0,88) tapdıq (Əlavə Şəkil 1). Həqiqətən, FDR azaldıqca MHC-ə bağlanma yaxınlığı ≤1,750 nM olan peptidlərin nisbəti artır (Əlavə Şəkil 2a). Bu korrelyasiya MIP-lərə xas idi, çünki təsadüfi peptidlər üçün heç bir əlaqə tapılmadı (Əlavə Şəkil 1 və 2b). Bu nəticələr göstərir ki, aşağı FDR dəyərləri yüksək yaxınlıqlı peptidlərin (MHC-ə bağlanma yaxınlığı ≤1,750 nM) və beləliklə, MİP-lərin zənginləşdirilməsinə imkan verir. Bununla belə, əsas filtr kimi ciddi aşağı FDR-dən istifadənin çatışmazlığı ondan ibarətdir ki, identifikasiyaların ümumi sayı əhəmiyyətli dərəcədə azalır (Əlavə Şəkil 2a), həmçinin müəyyən edilmiş kiçik peptidlərin (8-9-mers) nisbəti (Əlavə Şəkil 2c) ). Müvafiq olaraq, MIP-lər kimi qısa peptidlərin aşağı FDR-ə nail olmaq üçün ümumiyyətlə daha yüksək Mascot balları tələb etdiyi anlayışına uyğun olaraq, hədəfdə tapılan peptidlərin nisbi nisbəti peptid uzunluğunun 60 artması ilə azalmışdır. Üstəlik, MIP-lərin tandem MS fraqment ionları, Mascot kimi verilənlər bazası axtarış motorları tərəfindən təyin edilməsini daha da çətinləşdirən triptik peptidlərdən daha az proqnozlaşdırıla bilən və bərabər paylanmışdır. Yüksək məhsuldarlıqlı MIP aşkarlanması üçün daha uyğun Mascot xal həddini təyin etmək üçün biz Mascot hesabı ilə FDR≤5% ilə müəyyən edilmiş bütün 8-11-mer peptidlər üçün proqnozlaşdırılan bağlanma yaxınlığı arasındakı əlaqəni qiymətləndirdik (Şəkil 1c). Then, we calculated the number of MIPs identified with all combinations of Mascot score and predicted binding affinity. We found that the highest number of MIP identifications was obtained by combining a Mascot score ≥21 and an MHC-binding affinity ≤1,250 nM at a 5% FDR (Fig. 1c).

    MS/MS validation of a subset of MIPs

    Polymorphic and non-polymorphic MIPs exclusively detected in one of the two subjects (Table 1 and Supplementary Data 3) were synthesized by Bio Basic Inc. and JPT peptide technologies. Subsequently, 500 fmols of each peptide were injected in the LTQ-Orbitrap ELITE mass spectrometer using the same parameters as those used to analyse the biological samples.

    Ns-SNPs found in MIP-coding regions in the population

    For each MIP, we retrieved the coordinates of the peptide-coding DNA region. These coordinates were then used to extract both the corresponding reference sequence and all non-synonymous validated SNPs reported by dbSNP (Build 137) for that region. For MIPs deriving from multiple source regions, the number of ns-SNPs reported corresponds to that of the MIP source region possessing the maximal number of ns-SNPs.

    Random peptide sampling

    We constructed a genome-wide index. To do so, we indexed every coding sequences reported in the Ensembl gene set (GRCh37.65), except for those located in the Y chromosome or the mitochondrial DNA, into a segment tree. Next, we kept only the first layer of the tree and removed the gaps between the indexed regions, effectively transforming the tree into a coding DNA sequence list, which was used for the random peptide sampling. For each of the 4,468 identified peptides, a random peptide of the same length and that fell entirely into a single coding DNA sequence, was chosen. Next, for each randomly selected peptide, we counted the number of ns-SNPs reported in dbSNP137 (validated and missense). The distribution was obtained after repeating the sampling of 4,468 random peptides 10,000 times.

    PCR and Sanger sequencing

    PCR amplification of the MiHA-encoding DNA and cDNA regions was performed with the Phusion High-Fidelity PCR kit (New England BioLabs). For each candidate, 1–2 pairs of sequencing primers were designed manually and with the PrimerQuest software (Integrated DNA Technologies, Supplementary Table 1), and were synthesized by Sigma. PCR products were purified with the PureLink Quick Gel Extraction Kit (Invitrogen). Sanger sequencing was performed on candidate DNA and cDNA at the IRIC’s Genomics Platform. Sequencing results were visualized with the Sequencher software v4.7 (Gene Codes Corporation).

    Cytotoxicity assays

    DCs were generated from frozen PBMCs, as previously described 61 . To generate cytotoxic T cells, autologous DCs were irradiated (4,000 cGy), loaded with 2 μM of peptide and cultured for 7 days with freshly thawed autologous PBMCs at a DC:T-cell ratio of 1:10. From day 7, responder T cells were restimulated for seven additional days with irradiated autologous B-LCLs pulsed with the same peptide (B-LCL:T-cell ratio 1:5). Expanding T cells were cultured in RPMI 1,640 (Invitrogen) containing 10% human serum (Sigma-Aldrich) and L -glutamine. IL-2 (50 U ml −1 ) was added for the last 5 days of the culture. Cytotoxicity assays were performed as described 9 , with minor modifications. In brief, B-LCLs were labelled with carboxyfluorescein succinimidyl ester (CFSE Invitrogen), extensively washed, irradiated (4,000 cGy) and then used as targets in cytotoxicity assays. Target cells were plated in 96-well U-bottom plates at 5,000 cells per well. Effector cells were added at different effector-to-target ratios in a final volume of 200 μl per well. Plates were centrifuged and incubated for 18–20 h at 37 °C. Flow cytometry analysis was performed using a LSRII cytometer with a high-throughput sampler device (BD Biosciences). The percentage of specific lysis was calculated as follows: [(number of CFSE + cells remaining after incubation with unpulsed target cells−number of CFSE + cells remaining after incubation with peptide-pulsed target cells)/number of CFSE + cells remaining after incubation with unpulsed target cells] × 100.

    Statistical analysis and data visualization

    The two-tailed Student’s t-test was used to identify differentially expressed MIPs and MiHAs that induced cytotoxicity. The two-tailed Mann–Whitney test was used to compare the MHC-binding affinity of MIPs detected exclusively in one subject. Differentially expressed transcripts were identified with the DESeq package that uses a model based on the negative binomial distribution 59 . The Spearman correlation was used to evaluate the relationship between differences in MIP abundance and differences in MIP-coding gene or exon expression. The genomic location of identified MIPs including MiHAs and the RNA-seq and exome sequencing coverage were visualized with the Circos software 62 . The Integrative Genomics Viewer v2.0 (ref. 63) was used to visualize and inspect regions coding MIPs including MiHAs.


    Structural and dynamic features of MHCII molecules during peptide exchange

    MHCII proteins reach the endosomal compartment preloaded with the class-II associated invariant chain peptide (CLIP) where HLA-DM catalyzes the exchange of CLIP for higher affinity antigens. DM-catalyzed peptide exchange determines the fate of immunogenicity of a number of antigens, however, the underlying molecular principles of peptide exchange are not well understood. We could show by a combination of NMR experiments and molecular simulations/Markov state modeling (with the group of Frank Noé, Freie Universität Berlin) how low populated pMHCII conformations dictate the catalyzed and non-catalyzed peptide exchange reactions and we are further interested in the role of how natural polymorphisms and particular antigens affect the proposed mechanistic model. With respect to this, the interference of small molecules, such as known drugs on MHC-peptide presentation and CD4+ T cell response represents an additional MHCII-related research field in our group.


    What is HLA

    The HLA (human leukocyte antigen) is a form of MHC gene complex present in humans. It consists of around 200 genes located close together on chromosome 6. These genes are expressed on all nucleated cells. The main function of the HLA molecules is to present antigens produced inside the cell on the cell surface in order to be recognized by T cells. Therefore, T cells can recognize foreign antigens upon self-antigens, initiating an acquired immune response. On the other hand, the recognition of antigens by T cells as self allows determining histocompatibility. But, the recognition of self-antigens as non-self by the immune system leads to autoimmune diseases.

    Figure 1: Human Chromosome 6

    However, HLA complex is the most polymorphic loci of the human genome. The two main classes of HLA complex are Class I, which contains HLA-A, HLA-B, and HLA-C genes, and Class II, which contains HLA-D genes. The most polymorphic HLA gene is the HLA-B, which has 425 alleles recognized up to date. Likewise, the HLA-DRB1 gene has 289 recognized alleles, and HLA-A gene has 214 recognized genes. The IPD-IMGT/HLA database contains all the reported and named sequences of HLA alleles up to date. According to the basic genetic principles, children inherit HLA alleles from parents.

    Figure 2: MHC Complex Function

    Furthermore, for successful organ transplantation, the HLA alleles of the donor and the recipient have to be matched to each other. The organs with unmatching or non-self HLA alleles will be rejected from the body by the immune system. Therefore, scientists have developed a number of techniques to type HLA alleles in individuals for various purposes, including organ transplantation, paternity tests to determine the percentage of a child, and to identify carriers of certain hereditary diseases such as cancer, diabetes, lupus, etc.


    Müzakirə

    MHC proteins are among the most polymorphic in the human genome, with the International Immunogenetics HLA database currently listing the sequences of more than 1,000 HLA-A and 1,500 HLA-B proteins (34). Experimental binding data, however, are lagging far behind and binding peptides have been reported for fewer than 150 proteins (6). As a result, significant computational efforts have been devoted in recent years to the development of peptide binding prediction methods (see refs. 6 and 7 for recent reviews) but their accuracy still depends, to a great extent, on the availability of a fairly large number of experimental measurements, ideally of unrelated peptides, for either the protein itself (6) or some “closely related” proteins (27). Notably, the most accurate predictors rely on convoluted machine-learning algorithms, thus, on the one hand, attesting to the complex nature of MHC-peptide binding, and, on the other hand, presenting no readily interpretable information to help investigate it.

    Here, we have used special purpose molecular modeling simulations to predict, for a given MHC protein, the sequence of thousands of binding peptides, to each of which is associated an atomically detailed structural model and a predicted intermolecular binding energy. We have demonstrated that a rather simple binding model—a PFM—inferred from these simulations agrees well with available experimental binding data. In addition, the accompanying structural models suggest plausible—and testable—mechanistic explanations for the observed binding preferences, and for divergences in binding specificity between closely related proteins. Predictions can be made for proteins without three-dimensional structures and for proteins with little or no experimental binding data. As a result, these predictions are insensitive to heterogeneities in the available peptide binding datasets, making them well-suited to comparisons of peptide binding between different proteins and across the MHC family.

    Our structure-based approach to binding specificity prediction also has significant limitations. The molecular modeling, although state-of-the-art, is still quite crude: The MHC backbone is held fixed throughout the simulations (the side chains near the peptide can rearrange) the force fields were parameterized for monomeric protein structure prediction and design, and likely could be substantially improved for modeling protein–peptide interactions modeling simulations focused exclusively on binding of 9-mer peptides. As a result of these and other limitations, the specificity predictions and related inferences from these modeling simulations are sometimes inaccurate: Anchor-position preferences are mispredicted in some of the homology-model-based binding profiles, and these mispredictions can have a disastrous effect on binding predictions. The fact that self-template binding predictions for these targets are significantly more accurate illustrates the sensitivity of our binding landscapes to the backbone of the template MHC molecule, and suggests that incorporation of MHC backbone flexibility may lead to substantial improvements in accuracy.

    Notwithstanding these significant limitations, we are optimistic that, given the large community of researchers working to improve molecular modeling force fields and sampling methods, the quality of simulation-derived inferences will continually improve. Indeed, an advantage of a large-scale modeling study such as this one, focused on a family of proteins with extensive experimental structural and binding data, is the ability to highlight current limitations in modeling methods and suggest avenues for improvement. As an example, analysis of an initial underprediction of beta-branched amino acids at the second anchor position (P9) revealed a systematic error in our modeling of rotamer preferences at C-terminal positions fixing this error substantially improved binding prediction for MHC proteins with aliphatic preferences at this position. Understanding the apparent bias toward histidine in many of the structure-based PFMs (Fig. S2) may also reveal specific force field deficiencies, whose correction could further improve performance.

    Our structure-based approach is highly complementary to traditional sequence-based predictors. Although the peptide binding prediction accuracies are on the whole lower, particularly for well-characterized proteins, the atomically detailed models allow the investigation of new aspects of MHC-peptide interactions. We have used these models to investigate the extent and mechanistic basis of pairwise correlations between peptide positions, and are currently examining the role of the peptide backbone conformation in determining specificity profiles. Structural modeling may also shed light on T-cell receptor (TCR) recognition of peptide-MHC complexes, given that the peptide’s structure, as well as its sequence, is being recognized doing so could lead to an improved understanding of T-cell alloreactivity and its role in transplant outcome. By explicitly modeling the TCR-peptide-MHC ternary complex, it may be possible to rationalize and perhaps predict patterns of TCR cross-reactivity to different peptide-MHC complexes. Finally, a physicochemical approach is well suited to modeling MHC interactions with peptides that contain nonnatural or posttranslationally modified amino acids, for which limited binding data currently exists. MHC molecules have been shown to specifically recognize and prefer phosphorylated variants of certain peptides, suggesting a mechanism for immune surveillance of cells with deregulated phosphorylation, a hallmark of malignant transformation (35). As molecular modeling methods continue to improve, we expect that structure-based predictions will play an increasingly important role in the investigation of MHC-peptide interactions.


    Materiallar və metodlar

    MHC Loci and Alleles Included in Analyses

    Five key classical human MHC genes (HLA-A, -B, -C, -DRB1, və -DQB1) were analyzed in this study. Alleles at each locus were defined at second field (four-digit) resolution and only alleles annotated as “ümumi” in the CWD catalogue ( Mack et al. 2013) were included in the analyses. The allele annotation “ümumi” in the CWD catalogue does not specifically indicate a high population frequency but more the extent and quality of documentation available for the given allele. This category indicates that there is universal agreement about the identity of this allele because it has been observed in multiple populations and there is sufficient data for robust frequency estimation ( Mack et al. 2013). These criteria resulted in the analysis of 63 alleles for HLA-A, 123 for HLA-B, 40 for HLA-C, 73 for HLA-DRB1, and 21 for HLA-DQB1 ( supplementary table S1 , Supplementary Material online).

    Pathogen Proteins

    Binding prediction analyses were performed on a data set of representative human pathogen proteins. Pathogens were selected from the Gideon database ( Berger 2005) based on the following criteria: a global distribution, a potential for high mortality and/or morbidity, and a significant impact over the course of human history ( Wolfe et al. 2007). The rational for these criteria was that such pathogens are likely to have contributed significantly to human evolution in general and to the evolution of MHC genes in particular. Wolfe et al. (2007) provided a comprehensive list of infectious diseases with the greatest evolutionary and historical significance. From that list, we have taken the majority of pathogens in our data set. However, to assess mortality and morbidity, epidemiological data were also collected from two published reports: the Annual report of the European Centre for Disease Prevention and Control ( European Centre for Disease Prevention and Control 2013) and the WHO Global Health Estimates ( World Health Organization 2016). First, pathogens with the highest current mortality were included. However, not just mortality, but also nonfatal morbidity can be historically and evolutionarily significant. Indeed, morbid pathogens can reduce the fitness of their host in different ways (e.g., by increasing the sterility), thus pathogens considered morbid were also included. Finally, eradicated pathogens known to be important in human history were taken into account. Here, we used protein sequences of present day pathogens to explore signatures of historical selection, even though ancient pathogen strains might have differed slightly in their antigen repertoires. While we do not expect an effect on the general patterns observed here, it might be interesting to explore subtle differences in future work. We further aimed for a balanced representation of different groups of pathogens (i.e., viruses, bacteria, parasites). Based on these criteria, we identified 27 pathogens (10 viruses, 10 bacteria, 7 macroparasites) that were classified into three groups: extracellular, intracellular, and intra-extracellular, based on their primary environment in the human body ( supplementary table S2 , Supplementary Material online). Then, for the selected pathogens, amino acid sequences of 232 pathogen proteins (8.5 ± 5.8 per pathogen) known to be antigenic ( Vita et al. 2015) and/or likely exposed to the host immune system (mostly secreted and surface proteins) ( Rana et al. 2016) were obtained from GenBank (for accession numbers see supplementary table S2 , Supplementary Material online).

    Peptide Binding Prediction Algorithms

    Computational antigen-binding prediction algorithms for MHC molecules were used to determine pathogen peptides potentially bound by the MHC alleles under investigation. Binding prediction was computed for all alleles at each of the five human MHC genes. Furthermore, as prediction analysis are likely to be more accurate for the core of the binding groove, which is known to be nine residues long and contributes the most to the recognition of the antigens, binding prediction was performed considering all possible 9mer pathogen-derived peptides. The data set of 232 representative human pathogen proteins described above resulted in a total of 118,097 unique pathogen-derived 9mer peptides that were analyzed using two different algorithms: NetMHCpan (v2.8) ( Hoof et al. 2009) for the alleles at class I loci (HLA-A, -B, -C) and NetMHCIIpan (v3.0) ( Karosiene et al. 2013) for the alleles at class II loci (HLA-DRB1, -DQB1). For alleles at the two class II loci (HLA-DRB1HLA-DQB1), we repeated the binding prediction analysis considering all possible 15mer pathogen-derived peptides. The predicted binding affinity between pathogen peptides and MHC molecule variants (defined in nanomolar IC50, i.e., half maximal inhibitory concentration) are ranked by the respective software, based on comparison with a large pool of naturally occurring peptides, and a rank percentage score (%rank) is assigned to each peptide. To define “bound” peptides, we used the default %rank threshold of 2, which includes weak and strong binders. All analysis were also repeated using another established binding threshold (%rank of 0.5) which includes only strong binders. Alel HLA-A*30:04 was predicted to bind about four times as many peptides as the other 62 HLA-A alleles ( supplementary fig. S2 , Supplementary Material online) and was thus excluded as an outlier from subsequent analysis in order to prevent distortion of results. The binding prediction analyses were performed first on the complete data set of pathogen proteins (n = 232), and then considering proteins within three groups separately: extracellular (n = 58), intracellular (n = 100), and intra-extracellular (n = 75).

    Sequence Divergence

    Allele divergence was computed on the same set of alleles used in the binding prediction analysis reported in supplementary table S1 , Supplementary Material online. Protein sequences of HLA alleles were obtained from IMGT/HLA database ( Robinson et al. 2015). Exons forming the variable region in the peptide binding groove (i.e., exon 2 and 3 for class I alleles and exon 2 for class II alleles) were selected following the annotation obtained from Ensemble database ( Aken et al. 2016). Amino-acid sequence alignments were performed using MUSCLE ( Edgar 2004), and sites containing alignment gaps at the beginning or the end of sequences were removed. Genetic distances between alleles for all possible allele pairs at each locus were determined removing missing sites in pairwise comparisons and using five different pairwise parameters of allele divergence: p-distance ( Henikoff 1996), DayHoff ( Dayhoff et al. 1978), JTT ( Jones et al. 1992), Grantham ( Grantham 1974), and Sandberg ( Sandberg et al. 1998). Pairwise amino acid p-distance, DayHoff and JTT distances were calculated in MEGA 7 ( Kumar et al. 2016). Grantham and Sandberg sequence distances were calculated using a custom Perl script that required two input files: a FASTA file with aligned HLA alleles and a specific amino acid distance matrix. Grantham amino acid distance matrix was constructed from Grantham (1974). Sandberg amino acid distance matrix was calculated based on Euclidian distances between all 20 amino acids, using the Euclidian distance method in R version 3.4.1 ( R Development Core Team 2017) according to the five physicochemical z-descriptors described in Sandberg et al. (1998): z1 (hydorphobicity), z2 (steric bulk), z3 (polarity), z4, and z5 (electronic effects). Our perl script (together with the Grantham amino acid similarity matrix) is freely available for download from SourceForge (https://granthamdist.sourceforge.io/). It can be used for calculation of pairwise Grantham divergence for any set of aligned MHC alleles of any species.

    Allele Frequencies

    Information about HLA allele frequencies in different human populations where obtained from the Allele Frequency Net Database (AFND) ( Gonzalez-Galarza et al. 2015). We considered only populations of European ancestry with large sample sizes and for which frequencies of alleles at second field resolution were available: USA NMDP European Caucasian (N = 1,242,890), German (N= 39,689), and Polish (N= 20,653) populations. Furthermore, as with the analyses above, we focused on alleles defined as “ümumi” in the CWD catalogue, which led to exclusion of some alleles with a frequency <1%. For each population, we first determined the most common alleles (allele frequency >= 5%) and for all the alleles under investigation in a given population, we calculated the average Grantham pairwise divergence to the most common alleles, considering all possible heterozygote genotypes.

    Statistik təhlillər

    Correlation Tests

    The Shapiro–Francia test was performed for all the parameters under investigation (i.e., measures of genetic distance, combined number of bound peptides and average Grantham pairwise amino acid divergence to the most common alleles) to explore samples’ distribution. As parameters were not normally distributed and tied ranks could be detected within our data, the nonparametric Kendall correlation was used to test for associations between parameters. When testing the association between sequence divergence and functional divergence, all P values were adjusted for multiple testing using a sequential Bonferroni correction across the number of alleles tested at each locus as well as across the number of different loci tested. When testing the association between the allele’s average divergence and its population frequency, P values were corrected across the number of populations tested. Correlations were performed in R version 3.4.1 ( R Development Core Team 2017).

    Permutation Tests

    To test for significant differences in the strength of correlation between allele divergence and the binding to pathogen group-specific peptides, we performed permutation tests. For this analysis, the set of 232 representative human pathogen proteins were randomly shuffled among the three groups of pathogens, maintaining the same number of proteins as observed in the original data (extracellular n = 57, intracellular n = 100 and intra-extracellular n = 75). For each group of pathogens, permuted proteins were used to perform binding prediction analyses and compute correlation values between genetic distances and combined number of bound peptides counted for all possible allele pairs for the five HLA genes (analogous to original analysis). Each permutation was run 1,000 times, and the difference between correlation coefficients for intracellular and extracellular proteins for the five HLA genes was recorded. If there was no significant bias for intracellular or extracellular pathogens, on average this difference should be zero. The distribution of permuted differences was then used to infer the significance of our initial observations using a one-tailed test with a 0.05 cut-off.

    Artificial Proteins

    Four sets of artificial proteins were created and analyzed to test for potential differentiation of the amino acid composition (AAC) among the three groups of pathogens. The first set of artificial proteins was created by randomly shuffling amino acids within each pathogen protein by using the Shuffle Protein program ( Stothard 2000), thus maintaining the AAC of each protein intact. Three more sets of artificial proteins were created in R version 3.4.1 ( R Development Core Team 2017) by assembling random amino acids while maintaining several features as they occurred within each of the three pathogen groups used in the initial test (i.e., the number of proteins, the average length of sequences, the SD of the length and the minimum and maximum length). The second set of artificial proteins was created from random amino acids but maintaining the AAC as it occurred within each group of pathogen proteins. The third set of artificial proteins was created from random amino acids, while maintaining amino acid frequencies as they occur in the whole data set of pathogen proteins. Finally, amino acid composition computed from UniProtKB/Swiss-Prot data bank ( Gasteiger et al. 2005 Boutet et al. 2016) was used to create the fourth set of artificial proteins.

    Multivariate Analysis of Variance

    Multidimensional scaling is a multivariate statistical technique that can be used to display and summarize a high-dimensional data set in 2D graphical form. The technique was here applied to explore associations between subsets of pathogen proteins and amino acids. A nonparametric, permutational multivariate analysis of variance (PerMANOVA) was used to test for differences in the amino acid composition between pathogen groups. The PerMANOVA, based on a Bray–Curtis dissimilarity distance matrix, was run with 999 permutations to tests for statistical significance. Both procedures are implemented in the vegan package ( Oksanen et al. 2012) in R version 3.4.1 ( R Development Core Team 2017).

    Comparison of Average Amino Acid Compositions

    Comparison of mean amino acid compositions between the two groups of pathogen proteins (extracellular and intracellular) were performed using one-way analysis of variance all P values were adjusted for multiple testing using Bonferroni correction across the number of amino acids tested.