SNP 検出
CLC Genomics Workbench の SNP 検出は [Altshuler et al., 2000] の Neighborhood Quality Standard(NQS)アルゴリズム(詳細は [Brockman et al., 2008] をご参照ください)に基づいています。

Neighborhood base のクオリティ評価

各リードと指定したウィンドウサイズで次の2つのパラメータが利用されます:
- Minimum average quality of surrounding bases: あるポジションで SNP を含んでいる塩基を計算する際、指定されたウィンドウサイズの長さにある塩基のクオリティスコアの平均がここで指定する閾値を超えている必要があります
- Max. number of gaps and mismatches: リードのウィンドウサイズ内で許容できるギャップとミスマッチの数、もしギャップやミスマッチがここで指定する数よりも多い場合、そのリードはそのポジションの SNP の計算では使用されません、いくつかの塩基がマッチしていたとしても、マッピングされていない箇所(赤で影がついている箇所)はミスマッチとカウントされます
垂直方向の SNP の計算のために以下が利用されます:
- Minimum coverage: もし低いカバレッジで SNP とされてしまうと、高い擬陽性の SNP を得ることになります、そこで SNP とするための最小のカバレッジを設定できます、カバレッジについては、そのポジションでの有効なリードが計算に含まれることに注意してください(つまりクオリティの評価で評価の悪かったものは振り落とされ、良かったものだけがカバレッジの計算に含まれているということです)
- Minimum variant frequency (%): 1つのリードだけが多型を持っていると、これを SNP としてカウントしたくない場合があります、この閾値は多型が SNP とされる最低頻度を決定するために用いられます、初期値は60%に設定されています、これはつまり SNP とされるためには、 有効なリードの中で塩基 の最低60%に多型の塩基 が含まれている必要があるという意味になります、例えば30%の頻度では SNP とされません、もし2倍体のゲノムをシーケンスした場合、すべての SNP を検出するためにこの値を低くする必要があるかもしれません




