SNPcalling例1バイオインフォ

#1【SNPcalling例1】目的とデータの準備

SNP callingはゲノムの変異を調べる解析です。

ねこ研究員
ねこ研究員

本コースでは仮の状況を想定して、解析手法を説明して行きます。今回は状況設定と解析の全体像を説明します。

目的の設定

ねこ研究員
ねこ研究員

がん細胞由来のゲノムと、非がん組織由来のゲノムを比べましょう!

2つのゲノム配列を比べることで、がん細胞特異的なSNPを同定しましょう💡

サンプルの設定

ねこ研究員
ねこ研究員

サンプルは次のような状況であるとしましょう!

大腸がん(Colon Cancer)を患っている患者さんS (Sick)、健常な方H (Healthy)の2人がいるとします。このお二方より以下4サンプルを頂いたとしましょう。

  • Sさんの大腸からから回収した細胞 S_colon
  • Sさんの非がん組織Xから回収した細胞 S_nonColon
  • Hさんのがん組織から回収した細胞 H_colon
  • Hさんの非がん組織Xから回収した細胞 H_nonColon

さらに、再現実験のため、上記4サンプルは各々2つあるとしましょう。つまり、

  • S_colon_1S_colon_2
  • S_nonColon_1S_nonColon_2
  • H_colon_1H_colon_2
  • H_nonColon_1H_nonColon_2

の計8サンプルあるとしましょう。

8サンプルはどうやって比べるの?

まずは再現実験のことは考えず、

  • S_colon_1S_nonColon_1H_colon_1H_nonColon_1

の4サンプルを考えましょう。

これらについて、下記のような4つのベン図を考えます。

 

S_colon特異的なSNP、つまり上図の「赤字で示された??件」に含まれるSNPを同定すれば良いわけですね。

次に、再現実験も同様に考えると、結局下図のように共通部分を絞れば良いわけです💡

4つ比べる理由

なんでこんな複雑なの…?

大腸がんの細胞のゲノムに変異が見つかったとしましょう。

しかし、その変異は他の組織でも散見される特に意味のない変異かもしれません。従って、非がん組織と比べる必要があるのです。

更に、健常な方でも生じる変異を考慮から外すため、結局4サンプルとなるわけです。

データの設定

ねこ研究員
ねこ研究員

このコースは解析手法の説明です!データは既にあるとして、以下のように設定しましょう。

上記の8つのサンプルについて、ゲノム抽出を行い、イルミナHiSeqによりペアエンドモードでゲノム配列を読みました。

そして、

  • S_colon_1_R1.fastq、S_colon_1_R2.fastq
  • S_colon_2_R1.fastq、S_colon_2_R2.fastq
  • S_nonColon_1_R1.fastq、S_nonColon_1_R2.fastq
  • S_nonColon_2_R1.fastq、S_nonColon_2_R2.fastq
  • H_colon_1_R1.fastq、H_colon_1_R2.fastq
  • H_colon_2_R1.fastq、H_colon_2_R2.fastq
  • H_nonColon_1_R1.fastq、H_nonColon_1_R2.fastq
  • H_nonColon_2_R1.fastq、H_nonColon_2_R2.fastq

の16のファイルが得られたとします💡

解析の全体像

ねこ研究員
ねこ研究員

簡単そうに見えて長いんです…。

ねこ研究員
ねこ研究員

最後の Intersection*.vcfがゴールですね💡

次回から上記手順を実際に解説します。