Genoma Stories

Ma quanti geni ci sono nel DNA umano?

Pubblicato il 18 Dicembre 2018

Da ultimo c’è il gruppo guidato da Steven Salzberg, della Johns Hopkins University, che il 29 maggio ha postato su BioRxiv, un server che pubblica preprint di biologia, un articolo in cui sostiene che dopo attenta analisi è giunto alla conclusione che il DNA umano contiene 43.162 geni, di cui 21.306 codificano per proteine e 21.856 no. L’insieme di questi geni produce 323.824 transcript (prodotti di trascrizione), per una media di 7,5 transcript per gene. La lista proposta da Steven Salzberg e colleghi contiene 4.998 geni finora ignoti, di cui 1.178 codificanti (per proteine) e 3.819 non codificanti.

Un bel colpo, che contribuisce a spalancare la finestra sulle due domande che si è posta la rivista scientifica Nature qualche settimana dopo: ma quanti sono i geni contenuti nel DNA umano? E, soprattutto, cos’è un gene?

Iniziamo dalla prima domanda. Fino a venti anni fa, prima del sequenziamento del genoma umano, i biologi ritenevano che i geni presenti nel nostro DNA fossero almeno 100.000. Ma dopo la grande performance del gruppo pubblico di Francis Collins e del gruppo privato di Craig Venter che nel 2000 annunciarono la conclusione del sequenziamento del DNA umano, la cifra è stata fortemente ridimensionata. Non senza sorpresa si è scoperto che i geni codificanti per proteine presenti nel nostro genoma sono all’incirca 20.000.

Ebbene, ora Salzberg e i suoi ci forniscono un numero preciso: i geni codificanti sono 21.306, ma occorre tener conto di altri 21.856 geni non codificanti.
Va detto che, sebbene Steven Salzberg sia un biologo computazionale molto noto e un Bloomberg Distinguished Professor, l’articolo che ha postato con i suoi colleghi su BioRxiv non ha subito l’operazione canonica della comunicazione della scienza, la peer-review e, dunque, i dati vanno presi con estrema prudenza.

Ma il fatto è che molti si sono cimentati nella conta e i risultati sono sempre stati alquanto diversi. La GENCODE, l’Enciclopedia dei geni e delle loro varianti organizzata dall’European Bioinformatics Institute (EBI) ha individuato 19.901 geni codificanti e 15.779 geni non codificanti, per un totale di 35.680 geni. Ma la GENCODE mette in conto anche 5.769 piccoli geni non codificanti e 14.723 pseudogeni (sequenze di Dna simili a geni ma che non si esprimono, probabilmente si tratta di geni ancestrali che hanno perso la funzionalità), per un totale di 56.172 entità. Mentre il numero totale di transcript è di 203.835.

Mentre la RefSeq, il database del National Center for Biotechnology Information (NCBI) degli Stati Uniti, parla di 20.203 geni codificanti e 17.871 geni non codificanti, per un totale di 38.074 geni umani.

I tre elenchi non sono molto diversi tra loro. Per limitarci ai geni codificanti abbiamo i 21.306 di Steven Salzberg, i 19.901 di GENCODE e i 20.203 della RefSeq. Mentre le differenze sugli altri tipi di geni e sui transcript sono maggiori. Molto dipende da come i dati sono stati raccolti. La RefSeq li ha ottenuti studiando 21 miliardi di corte sequenza del DNA. La GENCODE sulla base dei transcript. Entrambe con procedure, per così dire, “a mano” o, se volete “a occhio”. Insomma sulla base di una conta fatta da persone. Mentre Salzberg e i suoi colleghi hanno puntato tutto su programmi al computer, senza intervento umano.

Ma qual è il problema, allora? Procedure diverse portano a risultati analoghi, all’interno di un errore più che accettabile. Il DNA umano – non ci sono più dubbi – ha effettivamente 20.000 geni, all’incirca.

Già, ma questa cifra riguarda i geni che codificano per proteine. Su tutti gli altri geni c’è confusione. Intanto bisogna dire che l’esistenza stessa di geni non codificanti non era prevista dai padri della genetica molecolare. Il vecchio dogma – un gene, una proteina – non regge. E non solo perché esistono molte più proteine che geni. Non sappiamo esattamente quante. In un lavoro del 2016 pubblicato sull’International Journal of Analytical Chemistry il gruppo di Alexander Archatov, dell’Istituto di Chimica biomedica di Mosca parla di un numero compreso tra 0,6 e 6 milioni di specie proteiche presenti nel corpo umano. D’altra parte i biologi oggi sanno che un singolo gene può codificare anche per un centinaio di diverse specie proteiche. Dunque l’antico dogma deve essere modificato: “un gene, moltissime proteine”.

Ma è anche vero il contrario. Oggi sappiamo che non tutti i geni codificano per una proteina. Contengono sì informazioni per la biosintesi dell’RNA, ma l’RNA così prodotto non codifica per proteine, assolve bensì a una seria (piuttosto vasta) di altre funzioni biochimiche.
Le piccole – ma non piccolissime – differenze nella conta, ma l’esistenza di diverse sequenze funzionale del DNA chiamate in maniera indifferenziata “geni”, ci riporta alla domanda iniziale: cos’è un gene?

La definizione, in passato, era piuttosto semplice: un gene è quel tratto di DNA che codifica per una proteina. Ora qualcuno aggiunge: definiamo gene quel tratto del DNA che ha le informazioni per la sintesi di RNA (la trascrizione), non importa se questo RNA sia coinvolto nella traduzione (la sintesi delle proteine) o no. Il guaio è che di RNA ne esistono di ogni genere e forma. E non tutti pensano che ogni sequenza di DNA trascritto in RNA meriti la definizione di “gene”. Molti sostengono che questa locuzione vada bene solo per le sequenze di DNA che vengono trascritte in RNA importanti. Già, ma quando un RNA può essere definito importante?

Lo avrete capito. Il mondo degli acidi nucleici è molto più complesso di quanto pensassero Watson e Crick quando scoprirono la struttura tridimensionale del DNA. E la natura, anche quella genetica, si sottrae a rigide definizioni. E tuttavia il problema di cosa sia un gene e di quanti siano non è una mera curiosità tassonomica. Per due motivi. Perché a ogni sequenza genica umana “importante” modificata potrebbe essere associata una malattia. E perché solo la comprensione profonda del nostro genoma e del nostro proteoma può aiutarci a capire cos’è l’uomo. È una condizione necessaria, ancorché, sia chiaro, non sufficiente.

Nessun commento

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.