September 28, 2013

若骨にむち打ち(6)マッピングとまとめー雑談抜きの最終回

遠藤さん、前エントリーへのコメントありがとうございました。やはり餅は餅屋。痒い所に手が届くアドバイスとても有り難いです。これからもよろしくお願いします。

さてさて、一応これで準備が全てできたことになったので、いよいよbismarkを走らせます。
$cd /usr/local/bismark_v0.9.0
$./bismark /usr/local/ref/Bisulfite_Genome /usr/local/fastq/CAGATC.fastq
Wikiマニュアルだといろいろパラメータを指定しているみたいですが、とりあえずC>T, A>G変換されたゲノムのファイルが入ったフォルダ(前回のコマンドを走らせるとゲノムが入っていたディレクトリの下位にBisulfite_Genomeというディレクトリが自動生成されるのでそれを指定)を前に、後ろに次世代シークエンスの生データのファイルを直接指定すれば、とりあえず走ってくれるみたいです。パスを指定するのはなにかと面倒くさいので、
$./bismark
だけ打ち込んで、MacOSのファインダーで/usr以下のファイルを表示させておき、あとは該当ディレクトリとfastqファイルをターミナルのウインドウにドラッグアンドドロップすれば完了。

おおっ!待つ事2−3時間で、待望のマップファイル、XXXX.samが生成されているではないか!

あとはこれをビューアで見るのみ。IGVというのが便利らしい。事前にメールアドレスを登録するとダウンロードページから最新版を手に入れる事が出来ます。Launchボタンを押しても良いのでしょうが、せっかくなので本体をダウンロード。Downloadとある欄のzipファイルを普通にダウンロードして、普通に解凍。IGVぐらいになると、だいぶユーザーフレンドリーというか、普段使っているMacのソフトウェアと同じような感覚で使えます。最終的にIGVのブラウザ上で見るためには、まずスペースの節約をするためにsamファイルをbamファイルに変換
$samtools view -bS XXX.sam > XXX.bam
このままではIGVで見る事が出来ないので、bamのインデックスファイルを作成
$samtools index XXX.bam
あとは、IGVのメニューバーのFileからLoad from file...を選んで、XXX.bamを選べば、晴れてマッピングデータをブラウザ上で見る事が出来ます。あ、その前にゲノムを読み込んでおく必要があります。IGVはこのあたりもだいぶMac風なので、適当にメニューバーを見まくっていけば何とかなるのですが、ツールバーのGenomesからLoad Genome from Server...から選べばオーケー。かくして、当面の目的であったbisulfite処理したサンプルの次世代シークエンサーのリードをゲノムにマップしてそれを見る、とういところまで、なんとか、たどり着く事が出来ました。証拠は(2)を参照!

当面は、IGV上で自分の見たいところを見ていけばある程度の情報が得られますし、ゲノムワイドで何らかの解析をしたい!という時でも、まずはIGV上でひたすら眺めながら、なんとなくの傾向をつかんで、それから改めて統計的な解析に進むという事になるのだと思います。統計的な解析を行うためには今度はまた別の壁がある訳ですが、ここまでたどり着いてからバイオインフォマティックスが得意な人に相談すれば、だいぶ会話が通じるのではないか、と思った次第です。

で、今回の教訓ですが、

1)実験屋がつまづいているのは次世代シークエンサーの解析ではなくてUnix/Linuxの使い方。
2)とりあえずググらずに使えるようにならなければいけないUnixコマンドはcdとls。
3)MacのファインダーとUnix/Linuxを動かすターミナルとの相性は抜群。
4)困ったらググる。ネットの向こうの誰かが手を差し伸べてくれている。
5)練習ではモティベーションは高まらない。とりあえずデータを出してもらえばムクムクやる気がわいてくる。
6)本当に難しいところはやはり難しい。ある程度までたどり着いたところで専門家に相談すれば話が通じやすい(はず)。

といったところでしょうか。

次世代シークエンサーの解析は一部のマニアがすることだったのが、今や普通の実験屋が使う技術になりつつあるのだと思います。それだけに、だんだん道のりが整備されてきていてちょっとググればかなり親切なマニュアルが転がっていますし、そのうちボタンを一つ押せば望む解析が出来る、という時代が来るかもしれません。今でもGalaxyなるウェブサーバにfastqファイルを投げれば、適当にいろいろなプログラムにデータを食わせて望みの形のファイルをはきださせる事も出来るみたいです。そういえば、かつてはmultiple alignmentももうすこし面倒くさかったし、プログラムをダウンロードしてきて、自分で作ったfastaファイルを解析し、出てきたファイルを手作業で系統樹に書き直していたような時代もありました。定跡が整備されれば、ある程度の局面まではだれでもたどり着く事が出来るようになります。本当にバイオインフォマティックスで勝負しようと思えば自分でプログラムを書いたり、独自の解析法をうみだしたりしなければいけないのは当然でしょうが、道具として使いこなすという事で割り切ってしまえば、定跡をなぞって問題の局面までたどり着けばそれでよし。

近年は専門分野の細分化が進んできて、どれもこれも自分のところで処理するというわけにはいかなくなってきました。そういう時代だからこそ大事なのは、全てを丸投げするのではなく、幅広い専門分野の基礎の基礎のところについてはきちんと理解する、あるいは理解しようとする姿勢を見せる事なのかもしれません。

よし。今回は雑談なしで終わりました。Riboclub帰りの時差ぼけのおかげでしょうか。うーむ。ちょっと物足りない、、、

RIboclubの感想等は、またおいおい、泊研、影山研、鈴木研、などから出てくる、かな?乞うご期待。酒井さんが「出張ダイエット失敗リターンズ」を執筆してくれる事を期待して、このシリーズ、終了させていただきます。

中川

--
追記
次世代シークエンサー解析を手元のMacでちょっとやってみようという方に、とても良いサイトがあります。最近NGS現場の会のメーリングリストに流れていましたが、大変親切で、しかもすぐに役に立つ情報満載です。
日本バイオデータの緒方法親さんが作られたすぐれもの電子書籍のサイトはこちら
http://www.ipad-zine.com/b/1520/

また、同メーリングリストに慶応の荒川さんからバイオインフォ解析セットの情報も寄せられていました。その名もBioLinux
http://nebc.nerc.ac.uk/nebc/tools/bio-linux
イメージファイルをダウンロードしてMacに放り込めばオーケーということらしいです。こちらのブログ記事が参考になります。

最近ではCLCやAvadisなど、特にUnixの知識が無くても使えるソフトもあるようですので、ますます自分で悩む必要は無くなってきているような気もします。自分のコンピュータで次世代の解析環境を作る、という作業は、まさに分子生物学でいえばミニプレップ、もしくはセシウムを使ったDNA精製だと思います。キットに頼ったり外部委託する前に、最初は自分でやってみないと足腰が鍛えられない。基礎体力がついたら、あとはどんどん便利なツールを使えば良い、ということかなと。

No comments:

Post a Comment