ACNUC étude de cas 3
Récupération de numéros d'accession d'après une liste de mots clés
Le problème : je veux récupérer les numéros
d'accession EMBL qui correspondent à une liste de mots
clés.
Dans le cas présent, je veux récupérer toutes les
séquences de l'ARN ribosomique 16S pour les bactéries.
Voici la liste des mots clés que j'ai trouvé en explorant les entrées EMBL.
- s16s rna gene
- rrn16s
- 16s rrna
- 16s ribosomal rna
- 16SRDNA
- 16S RDNA
- 16SRRNA
- 16S RRNA
- 16S RIBOSOMAL RRNA
- 16S RIBOSOMAL RNA SMALL SUBUNIT
- 16S RRNA GENE
- 16S RRNA SMALL SUBUNIT
- 16S SMALL SUBUNIT RRNA
- 16S SMALL SUBUNIT RIBOSOMAL RNA
- 16S SUBUNIT OF RIBOSOMAL RNA
- SMALL SUBUNIT RRNA
- SMALL SUBUNIT RIBOSOMAL RNA
- SMALL SUBUNIT RIBOSOMAL RRNA
- SMALL SUBUNIT RIBOSOMAL RNA GENE
- SMALL SUBUNIT RRNA GENE
- SMALL RIBOSOMAL SUBUNIT RNA
- SMALL SUBUNIT RNA
- RIBOSOMAL RNA SMALL SUBUNIT
- SSU RRNA
- SSU RRNA GENE
- SMALL RRNA
Je fais un fichier au format ASCII, avec une description par ligne
(comme dans ma liste) ; je sauve ce fichier sous le nom "16Srrna"
J'ouvre le client ACNUC,
Requetes A
- je choisi la base de séquences EMBL (option 2), puis j'entre les commandes suivantes
- se /l=cles
- fk=16Srrna
- se/l=cles
- un cles
- se
- sp=bacteria
- se
- list0 et cles
- mo (je ne veux pas de sequences trop courtes)
- sa/acc
- 16s_bacteria.acc
Voila le fichier contient la liste des numeros d'accessions correspondant aux séquences SSU rRNA de bacteria.
Comme j'ai en local une base de données de ces séquences,
je veux savoir parmi ces numeros d'accessions, lesquels je ne
possède pas.
Dans mon cas, je fais appel à un menu de ma base
(XSM:MAJ:Tools:Verifier Liste Accession) qui prend en entrée le
fichier ci-dessus et crée un fichier des numeros manquants (par
exemple "acc_missing" à raison d'un numéro d'accession
par ligne)
Je veux donc recupérer tout cela
Requêtes B
- se /l=mesacc
- fa=acc_missing
ACNUC répond que la liste mesacc contient nnn sequences.
Or ce que je veux c'est que ACNUC m'extrait automatiquement les sequences d'apres leurs annotations.
Je vais donc combiner avec la liste que m'a fourni la requete A5 (list3)
- se
- list3 et mesacc
- ex
- format embl
- 1 (extraction simple)
- sauver dans le fichier new.emb
Je veux maintenant récupérer les fichiers embl entiers (cf études de cas 1)
- mo
- list4
- 4 (remplace les filles par les meres)
- ex
- 1
- sauver dans le fichier new.embl
Voila, c'est fini, il ne reste plus qu'à importer dans ma db.
NOTE : j'aurais pu modifier la list3 par la date de mise à jour,
si je ne fais jamais de mise à jour de ma db sauf par un tel
processus.