Un jour, c’est presque certain, vous aurez entre les mains une liste de noms de gènes désuets.  Vous vous direz sûrement que les mettre à jour est une tâche facile.  En apparences, peut-être!

Parce qu’il y a le mot « bio » dans bioinformaticien,  je dirais que mettre à jour les symboles de gènes me rappelle le cycle futile.  Selon la définition de  Wikipedia (dont voici ma traduction libre), un cycle futile se produit quand deux voies métaboliques sont actives simultanément mais avec deux actions opposées qui conduisent à un effet global nul n’ayant comme résultat que de dissiper de l’énergie sous forme de chaleur **.    Mettre à jour les symboles de gènes vous donne parfois l’impression que vous dépensez beaucoup d’énergie pour un résultat somme toute réduit.  Mais c’est une tâche utile et nécessaire.

Mettre à jour les noms de gènes n’est pas quelque chose de difficile.  Plusieurs outils sur le web sont d’ailleurs disponibles.  Dans un monde idéal, les symboles seraient uniques en tout temps: les originaux comme les nouveaux.  En pratique, ce n’est pas le cas.  Et le défi associé aux symboles vient du fait que les gens ne travaillent bien souvent qu’avec les symboles et seulement avec les symboles.

Supposons que vous ayez à mettre à jour un ensemble de données où se trouve le gène PKD2.  Comme vos gènes sont humains, le meilleur outil à utiliser est celui de HUGO.   Vous allez sur le site de HUGO qui vous dira que :

Input Match type Approved symbol Approved name HGNC ID Location
PKD2 Approved symbol PKD2 polycystic kidney disease 2 (autosomal dominant) HGNC:9009 4q22.1
PKD2 Synonyms PRKD2 protein kinase D2 HGNC:17293 19q13.2

 

Vous obtiendriez le même résultat en faisant la recherche vous-même en utilisant le fichier de Entrez Gene, gene_info.gz :

>  zcat gene_info.gz | grep 9606 | cut -f1,2,3,5,8,9 |grep -e '

[^a-Z0-9]PKD2[^a-Z0-9]'

tax_id GeneID Symbol Synonyms location description
9606 5311 PKD2 APKD2|PC2|PKD4|Pc-2|TRPP2 4q22.1 polycystic kidney disease 2 (autosomal dominant)
9606 25865 PRKD2 PKD2|nPKC-D2 19q13.3 protein kinase D2

 

PKD2 est un symbole officiel approuvé ET se retrouve parmi les synonymes (alias) d’un autre gène.  Si vous n’avez aucune autre information sur ce gène, comment saurez vous si c’est le « polycystic kidney disease 2 (autosomal dominant) » ou le « protein kinase D2 » dont il est question dans votre ensemble de données?  Pourtant, vous avez besoin de le savoir!

En fait, comme il n’y a aucune convention en place pour attribuer les noms de gènes, la désambiguïsation des symboles de gènes (gene symbol disambiguation) constitue un domaine de recherche en soi. De l’apprentissage supervisé, des méthodes basées sur un thésaurus et des ensembles de règles à appliquer sont des exemples des différentes approches considérées pour s’attaquer au problème.

Malgré tout, c’est toujours mieux de travailler avec des identificateurs uniques en parallèle comme les Entrez Gene ID ou Ensembl ID.   Ces identificateurs devraient servir de clé pour retrouver vos symboles. Vous pourriez aussi utiliser la position chromosomique du gène.

Toutefois, tôt ou tard, même en travaillant avec les identificateurs ou la localisation, vous aurez besoin de faire une mise-à-jour. Vous aurez besoin d’un outil de correspondance parce que ces caractéristiques évoluent aussi dans le temps (correspondance entre les ids ou entre les révisions de génome).  Mais même si les identificateurs peuvent changer ou être retirés et que les positions chromosomiques peuvent être révisées, ces caractéristiques seront toujours moins ambigües que les symboles de gènes!

 

**ReferenceMD offre une définition plus technique. Toujours en traduction libre,  « Un ensemble de réactions opposées, non équilibrées, catalysées par différentes enzymes qui agissent simultanément,  avec au moins une des réactions résultant en une hydrolyse d’ATP. Le cycle résulte en une libération de l’énergie de l’ATP qui entraîne une génération de chaleur sans qu’aucune conversion de substrat en produit ne soit effectuée. «