Users of CLCs bioinformatics software for DNA, RNA, and protein sequence analyses enjoy the user-friendliness, the advanced bioinformatics functionalities, and the top-quality user support that we provide.

SNP 検出

CLC bio: SNP detection 多数の一塩基多型を発見するために、コンティグのすべてのコンフリクトを手作業で確認する代わりに、CLC Genomics Workbench では自動 SNP 検出機能を提供します。

CLC Genomics Workbench の SNP 検出は [Altshuler et al., 2000] の Neighborhood Quality Standard(NQS)アルゴリズム(詳細は [Brockman et al., 2008] をご参照ください)に基づいています。

スクリーンショット1

Neighborhood base のクオリティ評価

各ポジションにおいて SNP があるかどうかを見つけるため、SNP 検出アルゴリズムは各ポジションを調べていきます。質の高い評価のために SNP 検出は近傍の塩基のクオリティも考慮します。そこでどの程度遠くのポジションまでクオリティの評価を行う必要があるかを決めるため、ウィンドウサイズを決定します。

スクリーンショット2: ヌクレオチド11個の ウィンドウサイズの例

各リードと指定したウィンドウサイズで次の2つのパラメータが利用されます:

  • Minimum average quality of surrounding bases: あるポジションで SNP を含んでいる塩基を計算する際、指定されたウィンドウサイズの長さにある塩基のクオリティスコアの平均がここで指定する閾値を超えている必要があります
  • Max. number of gaps and mismatches: リードのウィンドウサイズ内で許容できるギャップとミスマッチの数、もしギャップやミスマッチがここで指定する数よりも多い場合、そのリードはそのポジションの SNP の計算では使用されません、いくつかの塩基がマッチしていたとしても、マッピングされていない箇所(赤で影がついている箇所)はミスマッチとカウントされます

垂直方向の SNP の計算のために以下が利用されます:

  • Minimum coverage: もし低いカバレッジで SNP とされてしまうと、高い擬陽性の SNP を得ることになります、そこで SNP とするための最小のカバレッジを設定できます、カバレッジについては、そのポジションでの有効なリードが計算に含まれることに注意してください(つまりクオリティの評価で評価の悪かったものは振り落とされ、良かったものだけがカバレッジの計算に含まれているということです)
  • Minimum variant frequency (%): 1つのリードだけが多型を持っていると、これを SNP としてカウントしたくない場合があります、この閾値は多型が SNP とされる最低頻度を決定するために用いられます、初期値は60%に設定されています、これはつまり SNP とされるためには、 有効なリードの中で塩基 の最低60%に多型の塩基 が含まれている必要があるという意味になります、例えば30%の頻度では SNP とされません、もし2倍体のゲノムをシーケンスした場合、すべての SNP を検出するためにこの値を低くする必要があるかもしれません

Copyright © CLC bio Japan, Inc.