Etude de cas.
Récupération de séquences avec ACNUC
Séquences de la
petite sous unité de l'ARNr
Premier pas Sélection
des mots clés Sélection des
taxonx Extraction
des séquences Exploitation
Séquences recherchées.
Je veux toutes les séquences :
- De la petite sous unité de l'ARNr
- Pour les organismes du groupe "Alveolata"
- Uniquement les séquences de longueur >500
bp
- Uniquement d'origine nucléaire (pas
mitochondrie, ni chloroplaste).
Procédure
Télécharger le client
acnuc sur pbil
Premiers pas.
Double clic sur l'icone, affiche l'écran d'accueil suivant

Dans cette première étape il faut choisir la base
de données à interroger.
Ici je vais choisir EMBL (2) mais vous pouvez prendre GenBank (1)
La différence en résultats sera minimime, en
fonction de la date du dernier release, ici :
- GenBank : Fevrier 2006 (last updated April 13 2006)
- EMBL : Mars 2006
En l'occurence ici, GenBank est plus à jour, mais ce qui fait
sans
doute la différence pour vous ce sera quel format de sortie
vous
voulez (dans mon cas tous mes scripts sont faits pour parser des
entrées EMBL).
Je tape donc 2, puis je valide (retour chariot), ce qui me donne
l'écran suivant.

Je tape "H" pour voir l'aide.

Je vois ici que l'affichage s'arrête au bout d'une dizaine de
lignes. Il faut alors taper soit <return> pour voir la
suite,
soit ST pour revenir à la ligne de commandes.
Je vais modifier cela pour que toutes les lignes soient
affichées en réponse à une commande.

Il d'agit de la commande "te", et je réponds "n".
La répétion de la commande "H" montre bien que
tout s'affiche d'un coup.
top
Sélection
des mots clés.
Je ne sais pas exactement quels mots clés utiliser. En effet
les
séquences recherchées peuvent être
décrites
comme 18S rRNA, ssu rRNA, small subunit ribosomal rna ...
Je vais demander à ACNUC une liste des mots clés
connus, contenant "18S" .
La commande est "ke", suivi d'un mot, d'une suite de mots, d'une
troncature

Je vois ici le début de la liste. Les mots clés
"18S RRNA
GENE" et "18S RIBOSOMAL RNA", semblent convenir à pas mal de
séquences. Mais la liste se déroule jusqu'à la
fin.

J'ai visiblement beaucoup trop de résultats pour travailler
à l'aide de l'écran.
Je vais demander la même chose, mais je veux les
résultats dans un fichier.
Je tape "ke/lpt".

Le résultat va être enregistré dans le
fichier
"query.out" localisé dans le répertoire du client
ACNUC.
Attention : cette commande ajoute les résultats dans le
fichier. Penser a renommer le fichier à chaque fois.
Ici je renomme le fichier en "tout_18S.txt".
Je l'ouvre avec un traitement de texte et je l'édite pour ne
garder que les mots clés qui me semblent pertinents.
Je fais de même avec quelques autres alternatives possibles
(ssu
rrna, small subunit ribosomal rna genes, 16S rRNA ...).
J'édite
chaque réponse et je combine le tout dans un fichier kes_ssu.txt.
Je sais cela semble un peu fastidieux, mais vous n'aurez à
le
faire qu'une seule fois et ainsi vous êtes certain de bien
récupérer toutes les séquences,
même celles
avec des erreurs de frappe dans l'annotation.
Je vais maintenant utiliser les mots clés contenus dans ce
fichier pour récupérer toutes les
séquences ainsi
annotées.
Je tape la série de commandes :
- se /l=mescles
- fk=kes_ssu.txt
- se /l=mescles
- un mescles
Ce qui me donne le resultat suivant (après quelques minutes
d'attente, au pire) :

ACNUC a identifié 365 118 séquences
annotées par ces mots clés.
ACNUC utilise des fichiers temporaires (appelées LIST) pour
stocker des références vers ces
séquences. Nous
verrons ci dessous comment transformer ces listes en entrées
EMBL.
top
Sélection
de taxons.
Je ne veux pas toutes les séquences ainsi
annotées. Je ne
veux que les séquences dont l'identification (lignes OC)
correspond à Alveolata. Je tape les commandes suivantes :

ACNUC répond qu'il a identifié 444 351
séquences pour ce taxon.
Je veux les séquences de ssu rRNA pour les Alveolata.
Commençons par visualiser les listes en cours

J'ai donc deux listes, celle qui réfère au taxon
et
celle qui réfère aux mots clés. Je
veux donc
leur intersection.

J'ai maintenant en stock 4 342 sequences dont 1 124 sont des sous
séquences. Cela veut dire que pour 1 124 entrées
EMBL, la
séquences du SSU rRNA est contenue dans une
séquences
plus longue (contenant par example également la
région
ITS et une partie du LSU rRNA).
N'oublions pas que je ne veux que des séquences d'origine
nucléaire. Je tape :

La liste 3 contient des références vers 55 523
621 séquences annotées comme
nucléaires.
Je combine list3 et list2 (et j'attends un peu pour la
réponse).

N'oublions pas que je ne veux que les séquences de longueur
>500 bp

Et voila, la LIST5 contient les séquences voulues, extraites
au bornes décrites par les annotations et au format EMBL.
top
Extraction
des séquences.
Je vais commencer par extraire ces séquences au format fasta.
- ex
- list5
- 2
- ssu_alveolata.fas
- 1

Extraits du fichier de résultats :
J'ai bien toutes mes séquences, au format fasta et avec
comme identifiant primaire le numéro d'accession.
NOTE : ce format permet l'utilisation directe avec PHYLIP.
Notez également une désignation
spéciale de certaines séquences :

.RR1 signifie que cette séquences est en fait une sous
séquence (RR1 = première sous séquence
extraite de
l'entrée EMBL AB112050). Si plusieurs
sous-séquences sont
extraites de la même entrée XYZ EMBL porteront les
noms
XYX.RR1, XYZ.RR2,...
Dans notre cas ceci peut arriver si une des entrées
correspond
par exemple au séquençage du génome et
qu'elle
contient plusieurs séquences de SSU rRNA...
Je veux maintenant extraire au format EMBL.
- ex
- list5
- y
- 3
- ssu_alveolata.emb
- 1

ACNUC vous tiend au courant du % de fichier
téléchargé.
top
Voici des extraits du résultat :
Tout d'abord pour une entrée qui ne contient que la
séquence du SSU rRNA :

Puis pour une sous séquence extraite :

Notez quen dans ce dernier cas, petit inconvénient, seule
une
partie des informations est présente, il manque la
taxonomie,
les auteurs, et pas mal d'informations potentiellement
intéressantes contenues dans les features.
Nous allons donc récupérer les entrées
EMBL "mères", c'est à dire complètes.
- mo
- list5
- ex
- 4
- n
- ssu_alveolata.embl
- 1

J'ai un second fichier ssu_alveolata.embl qui contient toutes les
informations...
top
Exploitation
des séquences.
- Les séquences au format fasta peuvent
être
exploitées directement pour alignement et post-traitement.
Cependant les annotation associées aux séquences
sont un
peu juste...
- Nous allons créer une base de données
relationnelles (par exemple au format BIOSQL), puis :
- Importer d'abord le fichier .embl, en créant
pour chaque
séquence une entrée dans la base de
données en
prenant comme clé primaire le numéro d'accession
(normal
ou .RRn) fourni par ACNUC.
- Importer ensuite le fichier .emb, en mettant à
jour seulement le champ séquence.
- NOTE : cette procédure extrêmement simple a
cependant
créé quelques doublons (cas d'une
entrée EMBL
contenant une sous séquence, le fichier .embl peut contenir
à la fois la description de la fille et de la
mère).
- Pour remédier à ce
problème on peut soit
à partir de la base de donnée éliminer
assez
facilement le doublon en provenance de la fille, soit utiliser ACNUC de
manière un peu plus fine (je reviendrais la dessus dans un
autre
tutoriel).
étude de
cas ACNUC. Richard Christen. Avril 2006