Etude de cas. Récupération de séquences avec ACNUC

Séquences de la petite sous unité de l'ARNr


Premier pas   Sélection des mots clés   Sélection des taxonx   Extraction des séquences   Exploitation

Séquences recherchées.

Je veux toutes les séquences :

Procédure

Télécharger le client acnuc sur pbil

Premiers pas.

Double clic sur l'icone, affiche l'écran d'accueil suivant


Dans cette première étape il faut choisir la base de données à interroger.
Ici je vais choisir EMBL (2) mais vous pouvez prendre GenBank (1)
La différence en résultats sera minimime, en fonction de la date du dernier release, ici :
En l'occurence ici, GenBank est plus à jour, mais ce qui fait sans doute la différence pour vous ce sera quel format de sortie vous voulez (dans mon cas tous mes scripts sont faits pour parser des entrées EMBL).
Je tape donc 2, puis je valide (retour chariot), ce qui me donne l'écran suivant.



Je tape "H" pour voir l'aide.


Je vois ici que l'affichage s'arrête au bout d'une dizaine de lignes. Il faut alors taper soit <return> pour voir la suite, soit ST pour revenir à la ligne de commandes.
Je vais modifier cela pour que toutes les lignes soient affichées en réponse à une commande.


Il d'agit de la commande "te", et je réponds "n".
La répétion de la commande "H" montre bien que tout s'affiche d'un coup.
top

Sélection des mots clés.

Je ne sais pas exactement quels mots clés utiliser. En effet les séquences recherchées peuvent être décrites comme 18S rRNA, ssu rRNA, small subunit ribosomal rna ...
Je vais demander à ACNUC une liste des mots clés connus, contenant "18S" .
La commande est "ke", suivi d'un mot, d'une suite de mots, d'une troncature


Je vois ici le début de la liste. Les mots clés "18S RRNA GENE" et "18S RIBOSOMAL RNA", semblent convenir à pas mal de séquences. Mais la liste se déroule jusqu'à la fin.


J'ai visiblement beaucoup trop de résultats pour travailler à l'aide de l'écran.
Je vais demander la même chose, mais je veux les résultats dans un fichier.
Je tape "ke/lpt".


Le résultat va être enregistré dans le fichier "query.out" localisé dans le répertoire du client ACNUC.
Attention : cette commande ajoute les résultats dans le fichier. Penser a renommer le fichier à chaque fois.
Ici je renomme le fichier en "tout_18S.txt".
Je l'ouvre avec un traitement de texte et je l'édite pour ne garder que les mots clés qui me semblent pertinents.

Je fais de même avec quelques autres alternatives possibles (ssu rrna, small subunit ribosomal rna genes, 16S rRNA ...). J'édite chaque réponse et je combine le tout dans un fichier kes_ssu.txt.
Je sais cela semble un peu fastidieux, mais vous n'aurez à le faire qu'une seule fois et ainsi vous êtes certain de bien récupérer toutes les séquences, même celles avec des erreurs de frappe dans l'annotation.

Je vais maintenant utiliser les mots clés contenus dans ce fichier pour récupérer toutes les séquences ainsi annotées.
Je tape la série de commandes :
Ce qui me donne le resultat suivant (après quelques minutes d'attente, au pire) :


ACNUC a identifié 365 118 séquences annotées par ces mots clés.
ACNUC utilise des fichiers temporaires (appelées LIST) pour stocker des références vers ces séquences. Nous verrons ci dessous comment transformer ces listes en entrées EMBL.
top

Sélection de taxons.

Je ne veux pas toutes les séquences ainsi annotées. Je ne veux que les séquences dont l'identification (lignes OC) correspond à Alveolata. Je tape les commandes suivantes :

ACNUC répond qu'il a identifié 444 351 séquences pour ce taxon.

Je veux les séquences de ssu rRNA pour les Alveolata. Commençons par visualiser les listes en cours


J'ai donc deux listes, celle qui réfère au taxon et celle qui réfère aux mots clés. Je veux donc leur intersection.
J'ai maintenant en stock 4 342 sequences dont 1 124 sont des sous séquences. Cela veut dire que pour 1 124 entrées EMBL, la séquences du SSU rRNA est contenue dans une séquences plus longue (contenant par example également la région ITS et une partie du LSU rRNA).
N'oublions pas que je ne veux que des séquences d'origine nucléaire. Je tape :

La liste 3 contient des références vers 55 523 621 séquences annotées comme nucléaires.
Je combine list3 et list2 (et j'attends un peu pour la réponse).

N'oublions pas que je ne veux que les séquences de longueur >500 bp

Et voila, la LIST5 contient les séquences voulues, extraites au bornes décrites par les annotations et au format EMBL.
top

Extraction des séquences.

Je vais commencer par extraire ces séquences au format fasta.

Extraits du fichier de résultats :

J'ai bien toutes mes séquences, au format fasta et avec comme identifiant primaire le numéro d'accession.
NOTE : ce format permet l'utilisation directe avec PHYLIP.
Notez également une désignation spéciale de certaines séquences :


.RR1 signifie que cette séquences est en fait une sous séquence (RR1 = première sous séquence extraite de l'entrée EMBL AB112050). Si plusieurs sous-séquences sont extraites de la même entrée XYZ EMBL porteront les noms XYX.RR1, XYZ.RR2,...
Dans notre cas ceci peut arriver si une des entrées correspond par exemple au séquençage du génome et qu'elle contient plusieurs séquences de SSU rRNA...

Je veux maintenant extraire au format EMBL.

ACNUC vous tiend au courant du % de fichier téléchargé.
top
Voici des extraits du résultat :
Tout d'abord pour une entrée qui ne contient que la séquence du SSU rRNA :


Puis pour une sous séquence extraite :

Notez quen dans ce dernier cas, petit inconvénient, seule une partie des informations est présente, il manque la taxonomie, les auteurs, et pas mal d'informations potentiellement intéressantes contenues dans les features.

Nous allons donc récupérer les entrées EMBL "mères", c'est à dire complètes.


J'ai un second fichier ssu_alveolata.embl qui contient toutes les informations...
top

Exploitation des séquences.


étude de cas ACNUC. Richard Christen. Avril 2006