February 24, 2013

Y本氏からのメール #2

UCSC Genome BrowserでBEDファイルを見る(続)

さて、UCSCカスタムトラックにBEDファイルをアップロードする方法の後編を書きます。
前回触れた通り、ファイルのリンクを作成して、それを指定する方法です。

本家の説明ページはこちら

ファイルのリンクをどうするかですが、
何通りか試したうちのうまくいったもの2つを以下に載せます。

1.    GEO Datasetsにあるファイルへのリンクを指定する

ファイルのリンクを右クリックして、「リンクのURLをコピー」を選択します。


 コピーしたURLを”Add Custom Tracks”の
"Past URLs or Data"下のbox内に貼付けてsubmitすれば完了です。

この場合、ペーストしたリンク先は
http://www.ncbi.nlm.nih.gov/geosuppl/?acc=GSM850170&file=GSM850170%5FHela%5FhnRNPU%5FCLIP%5Frep1%2Ebed%2Egz
と表示されますが、これは
http://www.ncbi.nlm.nih.gov/geosuppl/?acc=GSM850170&file=GSM850170_Hela_hnRNPU_CLIP_rep1.bed.gz
と同じことです。

2. Dropboxのパブリックフォルダを利用する

真ん中のやつです。

ちなみに現在、新規のDropboxアカウントでは
publicフォルダはデフォルトで作成されないそうなのですが。。


Publicフォルダ内にBEDファイルを放り込んで
右クリックで「パブリックリンクのコピー」を選択します。


リンクをペーストしてsubmitします。

できました。 

また、Galaxyにファイルをアップロードすると、そのままUCSCに表示することができます。
Galaxyへのファイルの転送ですが
大きいファイル(2GB以上)の場合はFTP経由が推奨されています。
 
 
非常に便利なサイトなので、興味のある方は一度のぞいてみると良いと思います。

ただ、この方法ファイルのサイズが大きい場合
うまく表示される時とされない時があって不安定な気がしています。

このようにBEDファイルをアップロードするために、一通りやり散らかしたあと、
衝撃的なものを目にしました。
Huelga et al. Cell Rep. 2012 Feb 23;1(2):167-78.
http://www.ncbi.nlm.nih.gov/pubmed/22574288 
のデータです。(これまた著者の方に感謝して引用させていただきます

BEDファイルがない。BOWTIEって?
 
Googleいわく、bowtieとはシーケンサーのデータをmappingするソフトで
xxx.bowtieはその結果が入っているファイルらしいですが
その手のものにはBAMだのSAMだの、
他にも色々な形式があるらしいことが分かってきました。
どうやらSAMからBAMに変換して、BAMからBEDに変換する手順があるらしい。
とりあえずBEDファイルが欲しいんですが、
Y本さん、なんとか見られるようになるんでしょうか、これ

**********************************************************************************
差出人: Y
日時: 2012年8月10日 08:53:02JST

おはようございます。
前に話していた、CLIPのデータ、
どうやらファイルの情報が足りないせいか、
SAMファイルに変換してもだめみたいです。
**********************************************************************************

**********************************************************************************
差出人: H
日時: 2012年8月11日 13:29:30JST
 
そうでしたかー。
いっそSRAファイルのほうをFASTQ変換して
自力でbowtieに投げてやろうかと思ってたのですが。。
情報ありがとうございます。
**********************************************************************************

 

める素人2名。しかしこのメールでY本さんはピンと来たらしいです。

#3に続きます。



中川研 長谷川

February 20, 2013

Y本氏からのメール #1

N川研H川とY田研Y本氏との間で半年に渡り不定期にやり取りされたメールと
本人たちの試行錯誤を公開するという(かなり恥さらしな)企画です。

エレキギターを手にしたバイオリニストの卵の苦悩はY本さんにおおいに語ってもらうとして
こちらでは超初心者による未経験者向けのエレキの弾き方、
もとい次世代シーケンサーのデータの触り方について綴りたいと思います。
自己流ですので、詳しい方が居りましたら適宜ダメ出しを強くお願い致します。

初回は「UCSC Genome BrowserでBEDファイルを見る」について書きます。
なお、すでにpublishされた論文のsupplement dataとして公開されているデータを覗いてみたい、
というような状況を想定しているので、大事な未公開データに適用するのは微妙かもしれません。

ある日、NCBIのGEO datasetsにH川が研究対象にしているRNA結合タンパク質の
CLIPデータが登録されているのをY本さんが見つけてくれたことから話が始まります。

話題に挙がっていたのは以下の論文のデータです。
著者の方に深く感謝しつつ引用させていただきます。

Xiao et al. Mol Cell. 2012 Mar 9;45(5):656-68.
http://www.ncbi.nlm.nih.gov/pubmed/22325991

下画像がGEO Datasetsの実際のページです。



Downloadの欄にBEDファイルとSRAファイルがあります。
それぞれのファイル形式の説明は外部ブログ等の説明を引用させていただきます。

■ BEDファイルとは
http://genome.ucsc.edu/FAQ/FAQformat.html#format1
http://blog.amelieff.jp/?day=20121129
■ SRAファイルとは
http://g86.dbcls.jp/~yag/wordpress/archives/959

BEDファイルをUCSCゲノムブラウザのカスタムトラックにアップロードすれば
中身を見ることが出来ると聞いていたので、さっそく覗いて見てみようと思い、
こちらの手順を参照してアップロードすることにしました。
(「1.トラックの追加方法」を参照 (本件で使用したのは1.3.1))

しかし、情報共有フォーラムが提供してくれているファイルはアップロードできるのに、
自分でNCBI GEOからとってきたファイルはアップロードできないトラブルに陥りました。

うまくアップロードできた練習用ファイル。黒いバーがアップロードしたデータです。

うまくアップロードできなかった結果として表示された白い画面。
拒絶感が伝わってきます。

ファイルのダウンロードが上手くいかなかったのかと思い、
Y本さんが既にブラウザで中身を見ることができていたファイルを送ってもらいました。

**********************************************************************************
差出人: Y   
日時: 2012年8月1日 14:11:59

https://briefcase.riken.jp/XXXXXXXXXXX です。
**********************************************************************************

**********************************************************************************
差出人: H
日時: 2012年8月1日 17:40:34JST

どうもありがとうございます、試してみます。
にっちもさっちもいかなかったら、また泣きつきます。
**********************************************************************************


数日後。
 
**********************************************************************************
差出人: H
日時: 2012年8月3日 12:05:38JST

無事に私物Macからでもアップロードできるようになりました。
何が悪かったんでしょう。。
**********************************************************************************



ちゃんとアップロードできました

自分でダウンロードしたファイルと送ってもらったファイルに違いはありませんでした。
うまくいかなかった本当の原因はおそらく2つありました。

#1 Assemblyの指定が間違っていた
GEO Datasetsのページに「リファレンスゲノムはhg18ですよ」と
書いてあるのにも関わらず、hg19を指定していました。



#2 ファイルサイズが大きかった
アップロードできたファイルのサイズが92.3MBに対して
できなかったファイルは573.3MBとサイズに違いがありました。
Y本さんから「圧縮すれば良いじゃないですか」とアドバイスを受けたので試してみました。

ファイル圧縮方法 #1 Zip形式 (Mac右クリック)
結果: アップロードできず(Error Can't read fileと表示)

ファイル圧縮方法 #2 gzip形式 (Macターミナルからgzipコマンド使用)
結果: アップロードできた

gzipで圧縮するとうまくいきました。
今になって振り返ると、UCSC本家の説明書きにちゃんと書いてあります。

The custom track data may be compressed by any of the following programs: gzip (.gz), compress (.Z), or bzip2 (.bz2). 
Files containing compressed data must include the appropriate suffix in their names.

さて、UCSCカスタムトラックにアップロードする方法は上記の他に
ファイルのリンク(URL)を作成しておいて(つまりweb上にファイルを置いておいて)
それを指定するやり方もあります。

こちらのが簡単なのですが、ここらへんで#2に続きたいと思います。


中川研 長谷川

February 16, 2013

大河ドラマ(には程遠いですが)


皆様こんにちは、中川研にちょくちょく出入りしている芳本@理研です。
ここ半年ほどNGSのデータに触れる機会があります。
まずはじめにNGSの大波について個人的な印象を書かせていただきたいと思います。

一言で言うと

「これまでバイオリンの演奏を極めるべく腕を磨いていた演奏家がいきなりエレクトリック・ギターを手にした」

ような状況じゃないかと感じます。

バイオリンの演奏は難しく、センスと地道なトレーニングを必要とし、誰にでもできるわけではありません(生まれ変わっても私にはムリです)。
しかし演奏の限られた時間の中から真実を的確に切り出す姿には高い芸術を感じます。
例えば生化学的な実験にはこういう要素があると思います。

それに対し、NGSは誰にでも簡単に演奏出来て、大爆音でものすごい威力で人々を圧倒する(した)エレクトリック・ギターのようなものだと思います。
とても魅力的です。

ただし、洗練度はまだまだこれからといったところがあります。
その原因はノイズにまみれた大爆音の中に自分の音が埋もれているからではないでしょうか。
これは結構深刻なことで、例えば強引に正規化されたデータの一覧と、生のゲノムブラウザのデータの間にある本質的な差は、
中川さんが指摘されている通りだとおもいます。

というわけで大切なのは適切なフィルターないしエフェクターをうまく使って自分の欲しいデータを拾い出すことではないでしょうか。
先のENCODE論文もそういうところに結構重きをおいているような気がします。

もしよろしかったらもう少し書いてみたいとおもいます。
駄文ですみません。きっと中川さんやHGWのYさんが適切なツッコミを入れてくれると思います◆

February 12, 2013

RNAフロンティアミーティング2013のお知らせ

昨年10月に東大・分生研に移りました三嶋です。
おかげさまで引越しも無事に終わり、ゼブラフィッシュ共々新しい新しい環境にもだいぶ慣れてきました。みなさま今後ともよろしくお願いいたします。

さて、そんな状況を見越したかのように(?)次回のRNAフロンティアミーティングの世話人を仰せつかりました。今年は東大・鈴木研の長尾翌手可さんと私の二人でお世話させていただきます。すでにTRCなどで一部の方にはお知らせしましたが、会期と場所が決まりました。この場を借りて再度お知らせさせていただきます。RiboClubと近い時期になってしまいましたが、ぜひ温泉で羽を伸ばしがてらお越し下さい。

会期:2013年9月3日(火)〜5日(木)
場所:ラフォーレ修善寺 (http://www.laforet.co.jp/lfhotels/szj/index.html)

実は私自身、前身の「RNA若手の会」時代にちょろっと参加して以来この手のミーティングにはご無沙汰でして、最近の様子がよく分かっておりません。そろそろマンネリ化してるんじゃないかなー、という勝手な想像のもといくつか新しい試みを考えてはいますが、アドバイスやリクエストがありましたらmishima@iam.u-tokyo.ac.jpまで気軽にメールいただけるとありがたいです。詳細やHPなどが決まりましたら随時このブログでも紹介して行きたいと思います。

と、これだけではただの宣伝になってしまいますので、中川さんのお話を受けてちょっと
一言。中川さんが紹介された「The illustrated guide to a Ph.D」のサイト (http://matt.might.net/articles/phd-school-in-pictures/)、実は壮大なサイドストーリーがあるのを皆さんお気づきになられたでしょうか。ずずっと下まで進んで行くと、イラストの追加説明とリンク (http://matt.might.net/articles/my-sons-killer/) があります。生命科学に関わる人間として大きく心を動かされる、また日々の研究活動のありかたを深く考えさせられるストーリーがそこにはありました。アカデミック、企業を問わず、生命科学を志す若手のみなさんにはぜひ一読をお勧めします。もちろん、PIの方にも。

三嶋

February 8, 2013

大河ドラマ(予告編)

ヒッグス粒子!!

これからの人生でこの言葉を理解する瞬間が訪れるのかどうかきわめて怪しい、というか訪れるわけないと諦めてるところもありますが、セントラルドグマ、がドグマでない世界があるのは間違いなく、shhやらwntやらprp19やらお前らよくそんな訳の分からん略語で話が盛り上がるよな、というのは、構造式で話が盛り上がる(僕らからすると亀の子だわしとその親戚がなんかくっついている方が分からなかったりする訳ですが)有機化学合成の友達が漏らしていた言葉です。異分野交流で実質的に明日の飯の糧になるものをすぐ見つけるのは不可能ですが、世の中分からない事だらけで自分の常識は他人の非常識、という事を知るのは、すごく大切な事だと思います。
たとえばこのサイト。博士を取るという事はどういう事か、研究とはなんぞや、学問とはなんぞや、が見事に視覚化されています。オリジナルはこちら
日本語)http://www.tyzoh.jp/community/kkato/2010/08/16_123030.html
オリジナル)http://matt.might.net/articles/phd-school-in-pictures/
さて。世の中は安倍のみクスっ、ならぬ何やら効果で、景気が良くなっているようですし、三寒四温でこのごろ妙に春めいた日も多いせいか、この、領域newsletterもようやく長い冬の時代を超えてon goingの研究現場を垣間見ることのできる場となりそうです。大河ドラマの始まりです!

かつて、モザイクって何?Blastってどうやるの?という質問がそれほどアホあつかいされていなかったころ、今から振り返ってみたら冗談みたいなアホ^nな質問がデスク間を飛び回っていたものです。その状況を現在にそのまま持ってくると、、、。そうです。次世代シークエンサー、もとい。今世代シークエンサーが吐き出したデータ処理です。皆さん苦労されていたり、俺が苦労するところはこんなところじゃないという、まるで俺の肺は壊しているけれども地球を壊している訳でないという喫煙者が喫煙を肯定するとうてい無理な理屈を持ち出して背を向けていたり、いろいろあると思うのですが、やはりあと5年で引退!!というのでなければ、つきあわなければいけない相手です。つきあったらすごく素敵な相手かも知れません。

この、得体の知れない転校生、a new kid in town、との奮闘の日々。大河ドラマ。不定期でこれからこの場でご紹介してくださるTMTのY君とHGWのYさん。よろしくお願いしまーす!

中川

February 5, 2013

ちゃーりーの「どっからでもかかってきなさい」

あと、下のコメント欄で(めずらしく)ひっそりと宣伝されていた河岡君の海外留学ブログを、大々的に宣伝しておきます。

http://charlie-kawashin.hatenablog.com/

東大・分生研  泊

日仏先端科学シンポジウム

中川さんと同じく、最近日本語の総説執筆と戦っていた泊です。1ヶ月以上遅れですが、皆さま新年あけましておめでとうございます。それから、私事ですが2/1付けで教授に昇任いたしました。研究室の体制等を含めて特に変化はありませんが、今後ともどうぞよろしくお願いいたします。

さて先日、日仏先端科学シンポジウムという会合に参加してきました。
http://www.jsps.go.jp/j-bilat/fos_jf/jishi_07.html
これは、日本とフランスの幅広い専門分野の科学者が一緒に泊まり込んで、いくつかの決められたトピックについてああでもないこうでもないと議論しましょう、と言う趣旨のものです。日仏の他に日米、日独のバージョンもあるらしいのですが、私にとってこの様な会合は初めての参加でした。

今回の生物学のトピックは、すばりそのまま「small RNA」だったのですが、普段の学会とは違い、聞いている人々が、それこそヒッグス粒子を観測した人とか、隕石の年代を測定している人とか、サイエンスにおけるジェンダーを専門にしている人とか、科学者といえどもありとあらゆるバックグラウンドの人がいたために、「伝える」ということに大変苦心しました。

私はChairという立場で、そもそもsmall RNAとは何かということを会場の人に分かってもらい、その後の専門的な話(阪大の河原さん: 神経変性疾患におけるmiRNAの生合成の異常、CNRSのPfefferさん: small RNAを介したウィルスとホストのせめぎあい)につなげる、という役割でした。実際に参加するまでは「さすがにみんな科学者なのだからセントラルドグマぐらいは大丈夫だろう」と思って、自分自身の研究成果も少し含めたイントロダクションのスライドを用意してたのですが、前日に他分野の方に聞いてみると、実はそうでも無いということが分かり(逆に、ヒッグス粒子を理解するために必要な「標準理論」のバックグラウンドが私たち生物学者には全く無いということも分かり)、自分の研究に関する内容はすべて削除して、スライドを大幅に作り直すことになりました。

色々悩んだ結果、YouTubeのこのビデオ
http://www.youtube.com/watch?v=gZZyxVP02UU
を大々的に使って説明してみたところ、これが大正解。複数回参加している方からも「いつも生物学のセッションは、意味不明な省略語(遺伝子名や現象名のことだと思われる)が次々出てきて、気づいたら終わってることが多いけど、今回のはとてもよく分かった」と言われました。

さすが映像の力は偉大だな、と思っていたのもつかの間、「で、さっきのビデオは実際の何倍速ぐらいなのか?」とか「これは体の中で1秒間に何回ぐらい起こっているのか?」とかいう予期しない質問が出てきました。映像の伝える力があまりにも強いために、あたかも自分の体の中の実際をそのまま拡大したものであるかの様な錯覚(というか実感)で捉えられてしまったのです。結局、思考回路を整理できないまま「いや、このビデオはコンセプトを伝えるものであって、実際に起こっている物理的な現象とは少し違って・・・その辺りを定量的に測定するのは結構難しくて・・・」と、ごにょごにょお茶を濁してしまいました。科学者相手であってさえ(あるいは科学者相手だったからこそ?)、「分かりやすさ」と「正確さ」の両立がいかに難しいかということを、改めて実感させられました。

私自身は、結局最後まで「ヒッグス粒子」についてはあまり理解できませんでしたが、それでも、子どもの頃に科学雑誌などを読んで感じた「何かよく分からないけどすごいな」という感覚を新鮮に思い出させてくれましたし、他分野の科学者と同じ目線・同じ言葉でじっくりと議論できた、ということ自体とても良い経験でした。

新学術領域研究では「国民との科学・技術対話」というものが重要視され、いわゆるアウトリーチ活動が強く推奨されています。そろそろ最終年度を迎える本領域も、研究成果、いや、「非コードRNA研究の面白さ」をどうやって伝えていくかを本気で考えないといけないな、と感じる今日この頃です。

東大・分生研  泊

February 3, 2013

日本語のレビュー

 このところ某実験医学の特集号の原稿にかかりっきりでなかなかまとまった時間が取れず、久しぶりに当ブログを見に来て、もしかしたら領域代表ほか班員の皆様の新年のご挨拶とかあったりして、という淡い期待は、、、いや。いいんです。やはり皆さんお忙しいですし。ブログ書いてる暇あったら実験せいー実験!!というのが一般論だと思いますし、実験屋はやはりベンチで手を動かしてなんぼの職業ですから。

 そういう意味では、かつてもここでちょっと触れましたが、いわゆる日本語のレビューも、同じような扱いを受けているような気がします。正直言いますと、大学院生の頃、この手の原稿を書いている研究者をネガティブな印象で見ていたところがあったような気がします。サイエンスの舞台は世界じゃろうが。日本人しか読めない、しかも査読も無い原稿書いて何が嬉しいんだろ。そもそも、業界トップの人ってこういうの書かないし。時間の無駄無駄、実験しよ!!!、と。そのくせ、友人やら後輩やらが書いた原稿が載っている号がピカピカ店頭に並んでいるのを見ると、なんだか面白くないような気持ちになって、ますます先鋭化して、ひたすら世の中との関わりを立って実験に没頭しようとしている自分に酔っている状態、へと突き進む、、、とここまでいくと、立派な危険領域です。

 日本語のレビューは、というか英語であろうがエスペラントであろうが、ピアレビューを経ない論文は「業績」欄にカウントされないと思うのですが、また当然そうあるべきだと思うのですが、科学者がいわゆる「業績」とは無関係の活動を全くしてはいけないのか、というと、それはそうでもないのかな、という気もします。このごろは大学とは縁遠くなってしまったので大学生協の本屋の平積みの現況がどうなっているのか知らないのですが、ちょっと背伸びをしたい新入生の学生さん向けの『自由からの逃走』や『夜と霧』が並んでいる教養書の隣の生命科学のコーナーではきまって日高さん著の『ソロモンの指輪』、岡田先生著の『細胞の社会』、新しどころでは某Y御大、柳田さん著の『DNA学のすすめ』みたいな本が並んでいたような気がします。日高先生のサイエンティフィックなお仕事は恥ずかしながら知らないのですが、訳本のほうが有名、という気がしますが、よしんばそうであったとしても、当時の僕にとってはヒーローであったですし、それは今でも変わりません。

 僕自身が中学生や高校生、学部時代に心引かれた著者物を書かれていた先生は、執筆当時引退間際の大先生だった訳ではなく、40代から50代、バキバキに脂ののった現役の先生だったはずです。今の学生さんが心躍らせるような書物はあるのでしょうか?もし無いのだとしたら、相変わらず古典しか無いとしたら、それは間違いなく僕らの世代が語りたくて仕方が無い事をアカデミック以外の場で語ることをサボったからにほかならないかと。そう思ったりもします。

話が散漫になってしまいましたが、ちょっと後ろめたい気持ちで日本語のレビューを読む事は無いし、ちょっと後ろめたい気持ちで日本語のレビューを書くこともなかろうかと。せっかく先人の驚異的な努力で母国語を使ってサイエンスを語れる幸せな環境を作ってもらったのだから、それを素直に享受しても罰は当たらないと。でもそろそろベンチに戻らないと、、、

中川