Riassunto interattivo della tesi

Unveiling Protein Connections through Graph Neural Networks and ProtT5 Embeddings

Un riassunto web-native della mia tesi triennale: predire interazioni proteina-proteina mancanti combinando embedding da protein language model e Graph Neural Networks.

Graph Neural Networks ProtT5 STRING v12 Link prediction Bioinformatica

Dalle sequenze proteiche agli score di interazione

L’idea è semplice: le proteine diventano nodi, le interazioni note diventano archi, ProtT5 fornisce feature basate sulla sequenza e il GNN apprende embedding proteici arricchiti dal contesto di grafo.

1

Sequenze

Stringhe di amminoacidi.

2

ProtT5

Feature dei nodi da 1024 dimensioni.

3

Grafo PPI

Proteine come nodi, PPI come archi.

4

Encoder GNN

Message passing sulla rete.

5

Decoder

Score di interazione tra coppie.

Sequenze proteiche

Il punto di partenza è la sequenza amminoacidica di ogni proteina. Questo dà al modello informazione biologica prima ancora di considerare il grafo.

Dataset: grafo PPI umano da STRING v12

Ho usato la rete di interazioni proteina-proteina umana da STRING v12, mantenendo solo archi ad altissima confidenza. Il filtro a confidenza ≥ 950 riduce il rumore e rende il grafo più affidabile per il training, anche se rimuove molte interazioni a confidenza minore.

  • Fonte: STRING v12, rete PPI umana.
  • Filtro: confidence score ≥ 950.
  • Grafo finale: 10.430 proteine e circa 120 mila interazioni.
  • Training: archi positivi più coppie negative campionate con rapporto 10×.

Architettura: encoder di grafo + pair decoder

Intuizione del message passing

TAGConv aggrega informazione multi-hop. Usa i pulsanti per vedere come una proteina centrale può ricevere informazione dai vicini a 1-hop, 2-hop e 3-hop.

u 1 1 1 1 2 2 2 2 3 3

Layer dell’encoder

  • TAGConv K=3: aggrega informazione di vicinato a 1-hop, 2-hop e 3-hop in un solo layer.
  • TransformerConv: convoluzione con meccanismo attention-style multi-head per modulare l’influenza dei vicini.
  • GINConv: layer finale non lineare per aumentare la capacità rappresentativa.

Pair decoder

Una volta prodotti gli embedding arricchiti dal grafo, il decoder assegna score alle coppie. Questo permette di codificare il grafo una volta e poi ordinare molte coppie candidate.

Attention in TransformerConv

Ogni vicino invia un messaggio, ma l’attention decide quanto quel messaggio deve contare prima che la proteina centrale aggiorni il proprio embedding.

u a b c d
a -> u 0.42
b -> u 0.28
c -> u 0.14

Animazione del pair decoder

Dopo il message passing, il grafo viene codificato una volta. Il decoder riceve solo due embedding, costruisce feature di coppia e le mappa a una probabilità di interazione.

zi embedding proteina i
zj embedding proteina j
zi - zj differenza direzionale
zi × zj segnale condiviso
(zi - zj)2 segnale di distanza
MLP layer 1 mix dell'evidenza
MLP layer 2 score non lineare
p scalare finale

Risultati

Il modello ha ottenuto una forte separabilità globale e un’ottima early precision. Quest’ultima è particolarmente importante perché in un workflow biologico l’obiettivo è spesso produrre una short-list affidabile di candidati da validare.

0.96 AUROC
0.89 AUPRC
1.00 Precision@500
82% precisione a soglia 0.5
  • AUROC 0.96: forte capacità di ranking tra coppie vere e negative.
  • AUPRC 0.89: buona robustezza con sbilanciamento positivo-negativo 1:10.
  • P@500 = 1.00: tutte le prime 500 predizioni nel test setup erano positive vere.
  • Recall: circa 81% con soglia 0.5.

Bias topologico

Il modello è risultato più forte nelle regioni dense del grafo. Ha senso: i GNN sfruttano informazione di vicinato, quindi hub e cluster forniscono più segnale.

  • Archi di test recuperati: coinvolgevano proteine con grado superiore alla media.
  • Regioni dense: più vicini condivisi e più evidenza contestuale.
  • Proteine a basso grado: più difficili da valutare con alta confidenza.

Interpretazione pratica

Il modello non sta imparando solo compatibilità di sequenza. Sta anche imparando come la probabilità di interazione si comporta nella topologia osservata. Questo è utile, ma introduce un punto debole nelle zone sparse.

Case study NOTCH2

L’analisi su NOTCH2 confronta un grafo più denso a minore confidenza con il grafo ad alta confidenza usato per il training. Il punto centrale è che il contesto di grafo cambia drasticamente la confidenza del modello.

Grafo denso LC-250

Nel grafo più denso, gli archi recuperati mostrano una regione ad alta confidenza vicino a p = 0.95. Il modello diventa più deciso perché NOTCH2 ha una topologia locale più ricca.

Densità del contesto di grafo
Predizioni ad alta confidenza
Cautela del modello

Limiti e sviluppi futuri

Limiti

  • Bias topologico: meno affidabile su proteine a basso grado.
  • Singola fonte dati: training solo su STRING@950.
  • Nessun baseline esterno: confronto diretto difficile con altri studi.
  • Scalabilità: grafi molto grandi richiedono batching più ottimizzato.

Sviluppi futuri

  • Generalizzazione: training e valutazione su più sorgenti PPI.
  • Explainability: mostrare quali path, motivi o feature di sequenza guidano le predizioni.
  • Scalabilità: subgraph batching e curriculum schedule per grafi più grandi.