マルチプルアラインメントのアルゴリズムってたくさんあるんですね.
どれを使えば良いんですか?
本記事は,このような疑問にお答えします.
本記事の内容・4つのアルゴリズム(MUSCLE,Clustal Omega,MAFFT,ClustalW)の特徴と使い分け
こんにちは.
博士号を取得後,派遣社員として基礎研究に従事しているフールです.
皆さんは,マルチプルアライメントを取ることはありますか?
その場合,どのアルゴリズムを採用していますか?
実は,このアルゴリズムの選び方も「研究室の慣わし」感は否めません(笑).
なぜなら,ラボで教わった方法をずっと採用している人が多いと思うからです.
私の主観と言われればそれまでですが…
私もバイオインフォマティクスが専門ではないので,正直,アルゴリズムの原理までは理解していません.
高校数学をちゃんと理解していない私は,色々な数式を見ると嫌になります(笑).
だから私は,使い分けの部分だけを勉強しました.
この記事では,マルチプルアライメントの4つのアルゴリズム(MUSCLE,Clustal Omega,MAFFT,ClustalW)の特徴と使い分けをまとめました.
本記事を読み終えると,マルチプルアライメントのアルゴリズムを自分で選べるようになりますよ!
サマリー・マルチプルアライメントのアルゴリズムは,配列の長さ・配列の数・配列の特徴で使い分けましょう.
マルチプルアライメントのアルゴリズム
アライメントは,複数ある塩基またはアミノ酸配列の類似する部分を縦に揃えて並べ合わせる解析手法です.
配列数が2本の場合をペアワイズアライメント,3本以上の場合をマルチプルアライメントと呼びます.
進化系統樹の作成,モチーフの検索,構造・機能の推測などアライメント解析から得られる情報はたくさんあります.
ただし,それはアライメントで使うアルゴリズムを適切に選択した場合に限定されます.
アライメント結果から得られる情報が少ない場合は,アルゴリズムが適切ではなかった可能性を検討する必要があると思います.
これから,私が良く使う4つのアラメントアルゴリズム(MUSCLE,Clustal Omega,MAFFT,ClustalW)の特徴と使い分けをまとめていきますね.
MUSCLE
MUSCLEは,k-mer(k塩基の文字列)カウンティングを用いた高速な配列距離推定・プロファイル関数:log-expectation (LE) score を用いたアライメント,ツリー依存の制限付き配列分割を用いたリファインメントが特徴です.
正直,私もこの意味を理解しているわけではありません.
私が “MUSCLE” を使うとき
私は,アライメント対象が以下の場合に “MUSCLE” を使用しています.
- 配列数が1000配列くらいまで
- 配列のN末およびC末の相同性が高い
Clustal Omega
Clustal Omegaは,配列の長さに関係なく使用できるアルゴリズムで,高速かつ正確なアルゴリズムです.
詳細は,論文でご確認ください.
やっぱり,原理は理解できていません.
私が “Clustal Omega” を使うとき
私は,アライメント対象が以下の場合に “Clustal Omega” を使用しています.
- 配列の数が2000以上
- 配列のN末およびC末の相同性が低い
- 塩基の挿入または欠損による遺伝的変異(インデル)が少ない/インデルの規模が小さい
MAFFT
MAFFTは,ガイドツリーの再推定を行うことでより正確な距離測定を行う漸進的反復のアルゴリズムです.
もうお分かりかと思いますが,原理は理解できていません(笑).
詳細は,コチラをご覧ください.
私が “MAFFT” を使うとき
私は,アライメント対象が以下の場合に “MAFFT” を使用しています.
- 配列の数が膨大(最大30000まで)
- 配列のN末およびC末の相同性が低い
- 配列の中に大きなギャップが出現する
ClustalW
ClustalWは,1対1の整列を総当たりで行って配列一致度の行列を作成するペアワイズアライナーです.
配列一致度から近隣結合法を用いた階層型クラスタリングを行います.
詳細はコチラからご確認ください.
これまで同様に,私は原理を理解できていません.
私が “ClustalW” を使うとき
私は,アライメント対象が以下の場合に “ClustalW” を使用しています.
- 配列の数が50以下
- 配列の長さが1000塩基(1000アミノ酸)未満
以上,マルチプルアライメントのアルゴリズムの特徴と使い分けでした.
最後までお付き合いいただきありがとうございました.
次回もよろしくお願いいたします.
2021年11月30日 フール