February 20, 2013

Y本氏からのメール #1

N川研H川とY田研Y本氏との間で半年に渡り不定期にやり取りされたメールと
本人たちの試行錯誤を公開するという(かなり恥さらしな)企画です。

エレキギターを手にしたバイオリニストの卵の苦悩はY本さんにおおいに語ってもらうとして
こちらでは超初心者による未経験者向けのエレキの弾き方、
もとい次世代シーケンサーのデータの触り方について綴りたいと思います。
自己流ですので、詳しい方が居りましたら適宜ダメ出しを強くお願い致します。

初回は「UCSC Genome BrowserでBEDファイルを見る」について書きます。
なお、すでにpublishされた論文のsupplement dataとして公開されているデータを覗いてみたい、
というような状況を想定しているので、大事な未公開データに適用するのは微妙かもしれません。

ある日、NCBIのGEO datasetsにH川が研究対象にしているRNA結合タンパク質の
CLIPデータが登録されているのをY本さんが見つけてくれたことから話が始まります。

話題に挙がっていたのは以下の論文のデータです。
著者の方に深く感謝しつつ引用させていただきます。

Xiao et al. Mol Cell. 2012 Mar 9;45(5):656-68.
http://www.ncbi.nlm.nih.gov/pubmed/22325991

下画像がGEO Datasetsの実際のページです。



Downloadの欄にBEDファイルとSRAファイルがあります。
それぞれのファイル形式の説明は外部ブログ等の説明を引用させていただきます。

■ BEDファイルとは
http://genome.ucsc.edu/FAQ/FAQformat.html#format1
http://blog.amelieff.jp/?day=20121129
■ SRAファイルとは
http://g86.dbcls.jp/~yag/wordpress/archives/959

BEDファイルをUCSCゲノムブラウザのカスタムトラックにアップロードすれば
中身を見ることが出来ると聞いていたので、さっそく覗いて見てみようと思い、
こちらの手順を参照してアップロードすることにしました。
(「1.トラックの追加方法」を参照 (本件で使用したのは1.3.1))

しかし、情報共有フォーラムが提供してくれているファイルはアップロードできるのに、
自分でNCBI GEOからとってきたファイルはアップロードできないトラブルに陥りました。

うまくアップロードできた練習用ファイル。黒いバーがアップロードしたデータです。

うまくアップロードできなかった結果として表示された白い画面。
拒絶感が伝わってきます。

ファイルのダウンロードが上手くいかなかったのかと思い、
Y本さんが既にブラウザで中身を見ることができていたファイルを送ってもらいました。

**********************************************************************************
差出人: Y   
日時: 2012年8月1日 14:11:59

https://briefcase.riken.jp/XXXXXXXXXXX です。
**********************************************************************************

**********************************************************************************
差出人: H
日時: 2012年8月1日 17:40:34JST

どうもありがとうございます、試してみます。
にっちもさっちもいかなかったら、また泣きつきます。
**********************************************************************************


数日後。
 
**********************************************************************************
差出人: H
日時: 2012年8月3日 12:05:38JST

無事に私物Macからでもアップロードできるようになりました。
何が悪かったんでしょう。。
**********************************************************************************



ちゃんとアップロードできました

自分でダウンロードしたファイルと送ってもらったファイルに違いはありませんでした。
うまくいかなかった本当の原因はおそらく2つありました。

#1 Assemblyの指定が間違っていた
GEO Datasetsのページに「リファレンスゲノムはhg18ですよ」と
書いてあるのにも関わらず、hg19を指定していました。



#2 ファイルサイズが大きかった
アップロードできたファイルのサイズが92.3MBに対して
できなかったファイルは573.3MBとサイズに違いがありました。
Y本さんから「圧縮すれば良いじゃないですか」とアドバイスを受けたので試してみました。

ファイル圧縮方法 #1 Zip形式 (Mac右クリック)
結果: アップロードできず(Error Can't read fileと表示)

ファイル圧縮方法 #2 gzip形式 (Macターミナルからgzipコマンド使用)
結果: アップロードできた

gzipで圧縮するとうまくいきました。
今になって振り返ると、UCSC本家の説明書きにちゃんと書いてあります。

The custom track data may be compressed by any of the following programs: gzip (.gz), compress (.Z), or bzip2 (.bz2). 
Files containing compressed data must include the appropriate suffix in their names.

さて、UCSCカスタムトラックにアップロードする方法は上記の他に
ファイルのリンク(URL)を作成しておいて(つまりweb上にファイルを置いておいて)
それを指定するやり方もあります。

こちらのが簡単なのですが、ここらへんで#2に続きたいと思います。


中川研 長谷川

2 comments:

  1. 長谷川先生、wigファイルは利用されていますでしょうか?

    かわおかのしんぺい

    ReplyDelete
  2. 未だに利用しておりません。
    便利情報がありましたら「チャーリーからのアドバイス」として
    ぜひ投稿お願いします!

    長谷川

    ReplyDelete