September 21, 2013

若骨にむち打ち(5)ゲノムを入れてBismark始動!

中村さん。レポートありがとうございました。皆様もどんどん、今日のカレーは辛かったでも良いので、エッペン10個だそうと思って袋をふって出したらちょうど10個出てうれしかったでもよいので、情報発信よろしくお願いします!!

さてさて。これで一応、マイマック、次世代シークエンサー、もとい、今世代ジークエンサーの「なんちゃって解析」をする環境が整いました。本当に整っているのかどうか分かりませんが、いけいけGo!Go!です。実験屋をナメではいけません。見通しがつかなくてもとりあえず走り出すことにかけては誰にも負けないっっ!うまく行くかは神のみぞ知るべし。突撃ー!!

とりあえずはbisulfite sequenceのリードをマップするにあたり、0.31秒の検索結果でGoogle先生が指示した次のアクションは、「ゲノムをダウンロードせよ」でした。マウスゲノムは何処にあるのだろう。mouse genome downloadでググれば、どうやらUCSCのサイトから取ってくるらしい。ゲノムの情報以外にも、ESTの情報、遺伝子の上流2kの情報、、、いろいろあります。たとえば既知の転写産物だけにマッピングするのであれば、ESTを使えば良いですし、遺伝子の上流の情報だけ解析したければ、適当なファイルをダウンロードする、ということなんでしょう。便利だ。最新版はmm10のようですが、ちょっといちびって、やっぱりビールはラガーだよと、mm9をダウンロードしてみました。そう。注文はいつでもsecond cheapest。贅沢する時もsecond expensive。とりあえず入れたばかりのwgetで取ってくる事にします。まずは/usr/localの下にrefというディレクトリを作って(当然ここはMacOSのファインダーが便利!)、ターミナルからそこに移動します。$cd /usr/loca/refでいい訳ですが、実は$cd とうったところでファインダーからrefのフォルダーをターミナルの画面にドラッグ&ドロップすると、なんと自動的にそのフォルダへのパスがペーストされるではありませんか!この裏技。すごい。逆転写からPCRまで一本のチューブで出来るぐらいすごい。これもY本師匠がパソコンをいじっているところを眺めながら知ったのですが、そう。技は盗め。先輩の華麗な手つきを背中越しにみながら実験の腕を磨いていった学部生の頃が思い出されます。ともあれゲノムを

$wget http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
で取得して、
$tar xvzf chromFa.tar.gz.1
で展開。なんかいろいろファイルが生成されています。いちいち分割したものにリードを貼付けても面倒なので一つのファイルに統一する、というコマンドをマニュアル通り打ち込みます。果てしなくー♪コマンド、コマンド。

$for i in `seq 1 22` X Y;
$do cat chr$i.fa >> hg19.fa
$done

かつて一世風靡したBasicやFortranだったらFor i=1 to X…nextの構文ですね。はい。なんとなく分かります。分からなくても、分かった事にして、多分これは、いろいろファイルを一つにまとめるという事なんでしょう。実際、このコマンドを入力していくと、mm9.faという、Fastaフォームのファイルが生成されました。ディスクのスペースがもったいないので、元の分割ファイルは全削除!

次はいよいよBismarkの実行です。

まずやらなければならないのは、bisulfuteシークエンスの場合、全てのCがTに変換された(メチル化されていないCは全てTに変換される)ゲノムを別途、用意する事のようです。Wikiに従って、コマンドを入力します。
$ ./bismark_v0.5.4/bismark_genome_preparation ./ref/
うんうん愛しのMacbookair(OS10.7.5, 1.8GHz core i7, memory 4GB)がうなっているので、なんかすごそうな事をしているんだろうと。Wikiに記事を書いておられる方のハイスペックなマシンでも3時間ぐらいかかったと書いてあるので、僕のMBAではもっとかかるんだろうと。もう寝よっと、おやすみ、、、、と、ここまでが9月6日の時点でした。

ところが、週末のあいだずっとんうんいっているのです。これが。さすがにこれはおかしい。

うーん。僕のMacbookairではちょっと能力不足なのかな?ということで、月曜日になって、ラボの共通機器のiMacで同じ事をやらせてみたら、一次抗体をかけている間にあっさり終了していました。うーむ。メモリはやはり16GBぐらい必要なんでしょうか。たぶん4GBだとだめなんでしょう。ああ、苦労していろいろ入れた&入れてもらった僕のMac Book Airは何だったのだろう、、、

とりあえず、これで、bisulfite sequenceのマップをする準備が、本格的に、整いました(なかなか終わりません、、、Riboblubに行ってくるのでしばらくおやすみ、するか、時差ぼけで寝られなくて連投するかは分かりませんが、ひとまず休憩です)。

中川

6 comments:

  1. This comment has been removed by the author.

    ReplyDelete
  2. いつもお世話になっています.
    一つ前のポストは名前が表示されなかったので削除しました.横浜IMSの遠藤です.

    bismark_genome_preparationが終わらないとのことですが,私の想像ですとゲノムをひとまとめにしたファイルを作成したとき,各ファイルの終端に改行コードが挿入されていなかったのではないでしょうか.
    この場合中川さんのコマンドでは1本の長い染色体としてファイルを作成しようとします.
    bismark_genome_preparationのソースコードを読むと1つの染色体は一度全部読み込んでから塩基置換をして出力するようにしているので,2GBのメモリでは足りずに一向に処理が終わらないということになります.
    今回各染色体のファイルをひとまとめにされていますが,bismark_genome_preparationは指定されたディレクトリにあるfastaファイルは自動的に全て取得してくれるので,分割されたままのファイルが存在しているディレクトリを指定すれば恐らく問題なくデータベースの作成ができると思います.

    ReplyDelete
  3. 遠藤さんコメントありがとうございます。
    なるほど。ゲノムのサイズを小さくしてしまえば良いのですね。自分の興味のある遺伝子がのっている染色体だけ解析すればかなりお手軽そうです。

    中川

    ReplyDelete
  4. ちょっと言葉足らずだったかもしれません。
    自分の興味のある遺伝子が乗っているところだけ、というのはちょっと危険で、
    1) バックグラウンドが正確に分からないのでDNAメチル化の変化が有意かどうか評価しづらい
    2) 他の染色体に類似配列がある場合全染色体を含めた解析と結果が変わる
    といった問題があります。
    特に2)はbisulfiteでは普通のゲノム以上に類似配列が多くなりますので時間がかかっても全ゲノムを使うべきだと思います。

    実はbismarkはいろいろと使いづらい部分と非効率な部分があるので、ちょうど今なんとかしようと思っているところです。こういう改良は科研費通りそうないのでそのコストと時間をどう確保するかが問題ですが。

    ReplyDelete
  5. 素人考えはいろいろ危険ですね。手抜きプロトコール発覚。

    >実はbismarkはいろいろと使いづらい部分と非効率な部分があるので、ちょうど今なんとかしようと思っているところです
    素晴らしい。我々実験屋はプログラムを変えところまでは出来ないので、改良版で使いやすいものが出てくればどんどんそちらに流れると思います。科研費、、、どんな内容であっても、基礎研究の進展に貢献できるものであれば、採用されてほしいですね。

    ReplyDelete
  6. 和光の芳本です。
    "C->T変換、G->A変換後のゲノムに、変換後リードをマッピングし、結果を統合します。"
    とwikiにある通り変換作業とマッピングにおいてCT、GAの2セット同時に行うのがメモリ大食いの原因ではないでしょうか。いずれにしてもbismarkパラメーターがなさすぎですので改良版期待したいです。

    ReplyDelete