塩基配列データベースってごちゃごちゃしてよく分かりません.どう見れば良いんですか?
本記事は,このような「なぜ?どうして?」にお答えします.
こんにちは.
博士号を取得後,派遣社員として基礎研究に従事しているフールです.
生物の遺伝情報は,国際塩基配列データベース(International nucleotide sequence databases [INSD])に登録されています.
INSDは,世界三大データベース(以下参照)で構成されており,各データベース間で情報共有しています.
世界三大データベース・米国立生物工学情報センター(NCBI/Genbank)
・欧州生物情報研究所(EBI/ENA)
・国立遺伝学研究所(NIG/DDBJ)
皆さんは,どこのデータベースを使ってますか?
私は,よくNCBIのGenbankを使っているので,人に教えるときもそこの使い方を教えるのですが…
ごちゃごちゃしてるね.どこ見れば良いの?
そりゃ,何を知りたいかによるでしょ!
というやりとりが絶えません(笑).
確かに,データベースの見方を解説した本などはあまり無いので気持ちは分かりますが…
「分子生物学の実験に関わるなら,遺伝子データベースの見方くらいは知っておいてよ」と思うのです.
そこで今回は,NCBI/GenbankのNucleotide databaseの見方をまとめてみました.
目的の遺伝子情報の検索
今回は,アンギオテンシン返還酵素2(ACE 2)の塩基配列を調べることにしました.
ちなみに,ACE 2はSARS-CoV-2の受容体です.
① NCBIのNucleotideデータベースにアクセスします.
② 検索窓に “angiotensin I converting enzyme 2” と入れ検索しました.
③ 結果はこんな感じです↓
左の “Species” や “Molecular type” をクリックすると,それに該当するものに絞りこめます.
右の “Results by taxon” をクリックすると,該当する生物に絞りこめます.
④ どれを見ても良いのですが,今回は,左の “Molecular type” で “genomic DNA/RNA” を選び,右の “Results by taxon” で “Homo sapiens” を選びました.
表示されたものの内,”Accession: AY217547.1″ を選びました.
※データベースは,常に更新されています.ココに示した図の表示のされ方や並び順は,あくまでも参考程度とお考えください.
塩基配列情報の詳細内容
先ず基本情報を確認しましょう!
LOCUS
遺伝子座(古い場合)または Accession number(新しい場合)・塩基数・分子種・分子形態・起源分類・登録日または更新日が書かれています.
今回の場合は,以下の通りです.
- Accession number:AY217547
- 塩基数:41572 bp
- 分子種:DNA
- 分子形態:linear
- 起源分類:PRI
- 登録日(更新日):29-JAN-2003
起源分類
起源分類で使われる3文字は,基本は生物種を表します.
例えば,”PRI” は “Primate” の略なので霊長類を意味しますね.
その他の表記の代表例は,以下の通りです.
- VRT(Vertebrate)
- MAM(Mammalian)
- HUM(Human)
- ROD(Rodent)
- INV(Invertebrate)
- PLN(Plant)
- BCT(Bacteria)
- VRL(Virus)
- PHG(Phage)
ACCESSION
配列に固有の名称です.
基本的には,INSD で共通なので,どのデータベースでも使えますが…
NCBI/GenBank では,例外もあります.
例えば,”NC_” のような3文字目にアンダーバーは入ったものです.
3文字目にアンダーバーは入ったものは,DNA・RNA・タンパク質にそれぞれ存在します.
以下にまとめました.
DNAのアクセッション番号・【AC_】:複数個体のデータから集められた完全なゲノム配列
・【NC_】:1 個体のデータから集められた完全なゲノム配列
・【NG_】:不完全なゲノム
・【NW_】:コンティグ,スキャフォールドなど
・【NZ_】:不完全なショットガン配列
・【NS_】:直接分子から単離したサンプルに由来する配列
RNAのアクセッション番号・【NR_】:RNA
・【XR_】:予測されたRNA
・【NM_】:mRNA
・【XM_】:予測されたmRNA
タンパク質のアクセッション番号・【YP_】:タンパク質
・【AP_】:”AC_” で始まるデータを元に注釈付けられるデータ
・【NP_】:”NM_” または “NC_” に関連したデータ
・【XP_】:”XM_” に関連した予測データ
・【NZ_】:”NZ_” に関連した予測データ
このタイプの世界共通のACCESSIONは,下方にある “COMMENT” または “PRIMARY” の項に記述されます.
VERSION
“AY217547.1” の “.1” の部分です.
更新されると,この数字が大きくなります.
SOURCE (ORGANISM)
起源となった生物種がかかれています.
今回は,Homo sapiens (human) なのでヒトですね.
REFERENCES
参考文献が載っています.
遺伝子によって,10個近く載っているものもありますよ~
塩基配列情報の詳細内容2
ココで説明する “FEATURES” が多くの閲覧者にとって最も重要な情報でしょう!
source
- /organism:SOURCE (ORGANISM)と同じです.
- /mol_type:分子種の詳細版です.今回は,genomic DNAですね.
gene
今回の場合,875番目~39900番目までの塩基配列が,ACE2 遺伝子配列であることを意味してます.
“<” は配列中に開始コドンが無いことを意味し,”>”は配列中に終始コドンがないことを意味します.
mRNA
“join” で指示された部分がエクソン部分で,これを繋げるとmRNAになることを意味します.
CDS
タンパク質のコード領域を示しています.
mRNAの項と同じく,”join” で指示された部分を繋げるとCDSになることを意味します.
※mRNA ≠ CDSですが,mRNA = CDS となっているものも多数あります.
その他
“repeat_region” や “variation” は,繰り返し配列や一塩基多型の情報を意味します.
塩基配列情報の便利な使い方
“FEATURES” の情報を基に,あなたの欲しい塩基配列の位置が分かれば,右上にある “Change region shown” で,表示を変えることができます.
表示させたい部分を変えたい
“Selected region” を選択して,表示させたい部分の塩基番号をいれるだけです.
FASTA形式でデータを入手したい
FASTA形式でデータを入手したい場合,タイトルの下の “FASTA” をクリックすれば,OKです.
以上,NCBI/GenbankのNucleotide databaseの見方でした.
最後までお付き合いいただきありがとうございました.
次回もよろしくお願いいたします.
2020年5月8日 フール