Sequenze
Stringhe di amminoacidi.
Riassunto interattivo della tesi
Un riassunto web-native della mia tesi triennale: predire interazioni proteina-proteina mancanti combinando embedding da protein language model e Graph Neural Networks.
L’idea è semplice: le proteine diventano nodi, le interazioni note diventano archi, ProtT5 fornisce feature basate sulla sequenza e il GNN apprende embedding proteici arricchiti dal contesto di grafo.
Stringhe di amminoacidi.
Feature dei nodi da 1024 dimensioni.
Proteine come nodi, PPI come archi.
Message passing sulla rete.
Score di interazione tra coppie.
Il punto di partenza è la sequenza amminoacidica di ogni proteina. Questo dà al modello informazione biologica prima ancora di considerare il grafo.
Ho usato la rete di interazioni proteina-proteina umana da STRING v12, mantenendo solo archi ad altissima confidenza. Il filtro a confidenza ≥ 950 riduce il rumore e rende il grafo più affidabile per il training, anche se rimuove molte interazioni a confidenza minore.
TAGConv aggrega informazione multi-hop. Usa i pulsanti per vedere come una proteina centrale può ricevere informazione dai vicini a 1-hop, 2-hop e 3-hop.
Una volta prodotti gli embedding arricchiti dal grafo, il decoder assegna score alle coppie. Questo permette di codificare il grafo una volta e poi ordinare molte coppie candidate.
Ogni vicino invia un messaggio, ma l’attention decide quanto quel messaggio deve contare prima che la proteina centrale aggiorni il proprio embedding.
Dopo il message passing, il grafo viene codificato una volta. Il decoder riceve solo due embedding, costruisce feature di coppia e le mappa a una probabilità di interazione.
Il modello ha ottenuto una forte separabilità globale e un’ottima early precision. Quest’ultima è particolarmente importante perché in un workflow biologico l’obiettivo è spesso produrre una short-list affidabile di candidati da validare.
Il modello è risultato più forte nelle regioni dense del grafo. Ha senso: i GNN sfruttano informazione di vicinato, quindi hub e cluster forniscono più segnale.
Il modello non sta imparando solo compatibilità di sequenza. Sta anche imparando come la probabilità di interazione si comporta nella topologia osservata. Questo è utile, ma introduce un punto debole nelle zone sparse.
L’analisi su NOTCH2 confronta un grafo più denso a minore confidenza con il grafo ad alta confidenza usato per il training. Il punto centrale è che il contesto di grafo cambia drasticamente la confidenza del modello.
Nel grafo più denso, gli archi recuperati mostrano una regione ad alta confidenza vicino a p = 0.95. Il modello diventa più deciso perché NOTCH2 ha una topologia locale più ricca.