SNP callingはゲノムの変異を調べる解析です。

本コースでは仮の状況を想定して、解析手法を説明して行きます。今回は状況設定と解析の全体像を説明します。
目的の設定

がん細胞由来のゲノムと、非がん組織由来のゲノムを比べましょう!
2つのゲノム配列を比べることで、がん細胞特異的なSNPを同定しましょう💡
サンプルの設定

サンプルは次のような状況であるとしましょう!
大腸がん(Colon Cancer)を患っている患者さんS (Sick)、健常な方H (Healthy)の2人がいるとします。このお二方より以下4サンプルを頂いたとしましょう。
- Sさんの大腸からから回収した細胞 S_colon
- Sさんの非がん組織Xから回収した細胞 S_nonColon
- Hさんのがん組織から回収した細胞 H_colon
- Hさんの非がん組織Xから回収した細胞 H_nonColon
さらに、再現実験のため、上記4サンプルは各々2つあるとしましょう。つまり、
- S_colon_1、S_colon_2
- S_nonColon_1、S_nonColon_2
- H_colon_1、H_colon_2
- H_nonColon_1、H_nonColon_2
の計8サンプルあるとしましょう。
8サンプルはどうやって比べるの?
まずは再現実験のことは考えず、
- S_colon_1、S_nonColon_1、H_colon_1、H_nonColon_1
の4サンプルを考えましょう。
これらについて、下記のような4つのベン図を考えます。
S_colon特異的なSNP、つまり上図の「赤字で示された??件」に含まれるSNPを同定すれば良いわけですね。
次に、再現実験も同様に考えると、結局下図のように共通部分を絞れば良いわけです💡
4つ比べる理由

なんでこんな複雑なの…?
大腸がんの細胞のゲノムに変異が見つかったとしましょう。
しかし、その変異は他の組織でも散見される特に意味のない変異かもしれません。従って、非がん組織と比べる必要があるのです。
更に、健常な方でも生じる変異を考慮から外すため、結局4サンプルとなるわけです。
データの設定

このコースは解析手法の説明です!データは既にあるとして、以下のように設定しましょう。
上記の8つのサンプルについて、ゲノム抽出を行い、イルミナHiSeqによりペアエンドモードでゲノム配列を読みました。
そして、
- S_colon_1_R1.fastq、S_colon_1_R2.fastq
- S_colon_2_R1.fastq、S_colon_2_R2.fastq
- S_nonColon_1_R1.fastq、S_nonColon_1_R2.fastq
- S_nonColon_2_R1.fastq、S_nonColon_2_R2.fastq
- H_colon_1_R1.fastq、H_colon_1_R2.fastq
- H_colon_2_R1.fastq、H_colon_2_R2.fastq
- H_nonColon_1_R1.fastq、H_nonColon_1_R2.fastq
- H_nonColon_2_R1.fastq、H_nonColon_2_R2.fastq
の16のファイルが得られたとします💡
解析の全体像

簡単そうに見えて長いんです…。

最後の Intersection*.vcfがゴールですね💡
次回から上記手順を実際に解説します。