de novo アセンブリ
CLC Genomics Workbench の de novo アセンブリはショートリード、ロングリードに対応し、ペアエンドリードにも対応しています。さらに、Sanger、454、Illumina Genome Analyzer、SOLiD のシーケンシングデータのサポートもしています。
De novo アセンブリは2つのステージによって構成されています。初めに、コンティグ配列はすべてのリードを1つに並べることによって作成されます。その後、コンティグ配列をリファレンスとして使用し、すべてのリードを使ってアセンブルを行います。
アセンブリアルゴリズムのためのパラメータ:
- Gap cost: ギャップを作るコスト、ギャップコストをより高く設定するとよりギャップが少なくなり、アセンブルされないリードが増えます
- Mismatch cost: ミスマッチのコスト、この値を増やすとミスマッチをもつリードが減り、アセンブルされないリードが増えます
- Identity: リードとコンセンサス配列の間の完全一致の最小の割合を設定します、例えば最終的なコンティグ内で、リードに最低90%の一致率とコンセンサス配列を含ませるには、値を0.9に設定します
- Length: コンセンサス配列と一致しなければいけないリードの最小の長さを設定します、値を0.5に設定した場合、リードの半分がコンセンサス配列と一致することが最終的なコンティグ配列に含まれるために必要となります

アセンブリパラメータについての詳細は Bioinformatics explained をご覧ください。
非特異的なマッチにどのように対処するか、指定することができます。非特異的なマッチとは、リードが複数のポジションにマッチすることを指します。この場合2つの選択肢があります:
- Random: マッチしたポジションの中からランダムに1つを選びリードを配置します
- Ignore: リードを最終的なコンティグに含めないようにします

リード間で相違(コンフリクト)がある場合(つまりどの塩基が正しいのかについて相違がある場合)、コンティグ配列が相違をどのように反映させるか指定できます:
- Vote (A, C, G, T): 相違については、各ヌクレオチドごとに相違を数え、もっとも多くのリードに支持されたヌクレオチドをコンティグのヌクレオチドとします
- Unknown nucleotide (N): 相違があるすべてのポジションにおいて'N'と表示します
- Ambiguity nucleotides (R, Y, etc.): コンティグはリードで見つかった異なるヌクレオチドを反映して Ambiguity nucleotide code で表示します
ペアエンドリードについては、ペアで挟まれた間の距離を指定します。これはアセンブリの処理の際、どこまで遠くのリードをペアとして想定するかを決めるために使われます。




