それではここから、おじさんでも出来るMacを使った次世代シークエンサー解析の初歩の初歩のメモです。Molecular Cloningで言えばミニプレップ。次世代の本格的なデータ解析に達するにはまだまだ道のり長しですが、千里の道も一歩から。
次世代シークエンサーを解析するためには、まずリードをゲノムにマップし、そのあと例えばクロマチン免疫沈降であればピークを探して統計的に解析したり、RNAseqであれば遺伝子ごとに(あるいはエクソンやイントロンごとに)リードの数を解析したりするわけですが、こういった一連の作業をするためのプログラムはフリーで配布されています。ですので、原理的には、それぞれのプログラムをダウンロードしてきて、自分のコンピュータにインストールして、データをプログラムに「食わせ」れば、少なくともプログムラムが存在するものに関して言えば、ありとあらゆる解析は自前でできる、という事になります。ところが、おじさんにはまず最初の大きな壁があります。それが、
コマンドライン と Unix (Linux)
です。MacやウインドウズのOSの登場は体感的なユーザーインターフェースでコンピュータを圧倒的に身近にしてくれましたが、次世代シークエンサー解析ツールの多くは、まだまだ普段使っているようなアプリケーションのように、適当にプルダウンメニューを表示させたりアイコンをクリックしていれば何となく使える、というようには出来ていません。そもそもアルゴリズムなどのプログラム本体自体日々改良されているので、そんなところまで構っていられませんよ、ということなのでしょう。となると、命令は全て、コマンドラインで入れる事になります。Macならばターミナルのアプリケーションを立ち上げて、そこからいろいろ命令文を入れていく訳ですが、、、
学生時代、情報科学実習というのがあったのですが、うちの奥さんなどは、そもそもコンピュータの起動の仕方が分からなくて(起動ボタンを押すという事も知らなければボタンが何処にあるかも知らない)、いきなり泣きそうになって、早々に挫折してしまったようです。文系人間恐るべし。いや、文系理系等という画一的な区分を持ち出すまでもなく、誰だって知らなければ、分からないのは当然です。多くの実験屋は、バイオインフォの解析は難しいですよねー、とか口にしていますが、解析が難しいとかいう以前の、スイッチを押すところで躓いている。僕自身、そこで躓いている事をいうのはあまりにも恥ずかしいので、うちにはバイオインフォが出来る人がいないから、、、とか、データはとれても解析できる人がいないから、、、と、お茶を濁していたのが、本当のところです。
まずは目的地のフォルダ(ディレクトリ)を開くところから。ここからして大変です。とりあえず、
$ls
$cd
という二つのコマンドを使って、普段フォルダをクリックして中身を表示させているのと同じ事が出来る、ということを理解するのに一苦労。でも、ターミナルを立ち上げて、コマンドラインで、適当にコンピュータに入っているファイルのリストを表示しているだけで、なんか仕事をしている気分になってきます。少なくとも、うちの奥さんなどには効果覿面です。見た事もない文字だらけの画面が出ているというだけで、このごろはなかなか見せてくれない尊敬のまなざしを向けてくれます。コマンドライン、偉大なり。明日の夕飯のおかずは一品増える事でしょう。
あと、いちいちファイルの名前やディレクトリを入力するのが面倒くさいなあと思っていたのですが、cdの後で何文字か入力してTabキーを押すと、おおっ!!!自動入力される!!うん。この機能を始めて使った時の感動は、そうですね、solution IIIを入れるとネバネバだった液がさらさらになってタンパク質やらSDSの沈殿が出てくるのを見た時の感動に近いものがあります。
一つ上の階層のフォルダに移るのも結構難儀していて、最初はホームディレクトリまで戻って、そこからcd+一文字押してはタブ、cd+一文字押してはタブで、戻っていたのですが、なんとこれがcd ..で戻れるではないか!これもGoogleでその記事を見つけた時の喜びは、そう、100本ミニプレップを手でやっていたのが、この世の中にはミニプレップマシーンというものが存在する事を知った時の喜びに、まさに近いものがあります。
ともあれ、必要なツールであるとかプログラムは、とりあえず cd usr/localのディレクトリに入れていくということらしい。ファイルのダウンロードに関しては、wgetというコマンドが便利、ということらしく、wgetのあとにダウンロードしたいファイルのURLを入れれば良い、って書いてあるからそうすると、以前書きました通り、
-bash: wget: command not found
という非常なエラーメッセージが帰ってきます。どうやら、Macにはこのコマンドは入っていないという事みたいです(僕がいつのまにか消した?)。とまれ、気を取り直して、まずはファイルをダウンロードするためのwgetツールのインストールです。ググるといろいろな情報が出てきますが、とりあえずSafariのURLに
ftp://ftp.gnu.org/pub/gnu/wget/
と入力するとwgetのいろいろなバージョンの圧縮ファイルが入ったフォルダが出てくるので、最新バージョンをデスクトップにコピー。それをコマンドラインでusr/localまで移す、、、のは面倒くさそうなので、Macのファインダーの移動メニューから「フォルダーに移動」を選び(もしくはshift+command+G)、/usrと入力すると、隠しフォルダの/usr/以下のファイルを見る事が出来るので、localフォルダ(ディレクトリ)にドラッグアンドドロップ。こういうやり方は邪道だと師匠のY本君は言いますが、、、いいんです。おじさんだから。ファイルの移動とか複製、削除などは、やはりMac OSのファインダー上でやるのが便利ですね。
全部Max OSからやれば良いのかもしれませんが、明日のおかずを一品増やすためにまたターミナルに戻って、コマンドラインを入力していきます。
$cd /usr/local(圧縮ファイルを入れたディレクトリに移動)
$tar zxvf wget-X.X.X.tar.gz(こうすると圧縮ファイルが解凍されるらしい。xzvfって何?ま、知らなくてもいいか。)
$cd wget wget-X.X.X
$./configure
$make
$make install
これでwgetが使えるようになりました。いつまでたっても次世代シークエンサーの解析にたどり着きそうにもありませんが、寄り道をし過ぎなのですね。はい。次回からは雑談をもう少し減らしていきます。。。
中川
No comments:
Post a Comment