次世代シークエンサー(NGS: next generation sequencer)の 活躍によって,さまざまな生命科学の謎が解き明かされてい る.マ イ ク ロ ア レ イ 同 様,NGSか ら 得 ら れ る デ ー タ も 公 共 データベースに収めることが論文投稿の条件となってきてお り,そのデータ量は約3.2ペタバイトにもなっている(ペタ は10の15乗).これまでよく用いられてきたBLASTなどの 配列類似性による検索手段ではもはや歯がたたず,それぞれ のデータの付帯情報であるメタデータをたよりに必要な情報 を 探 し 出 す こ と に な る.膨 大 なNGSの デ ー タ ベ ー ス か ら 効 率よくデータを取り出し,自らの研究に活用する方策を紹介 する.
はじめに
Plant & Animal Genome(PAG)はアグリゲノム分 野で世界でも最大級の学会大会で,今年も1月9日から 13日までアメリカ合衆国サンディエゴにて第24回目が 開催された.PAGは元々植物ゲノムの会議として毎年 開催されていたのが,近年家畜ゲノムもカバーするよう
になり,現在では最新の次世代シークエンサー(NGS:
next generation sequencer)による塩基配列解読技術 が公表される場ともなっている.昨年はイルミナ社より HiSeq 3000, 4000がこの学会に合わせて発表され,今年 は同社よりMiniSeqが発表された.近年,NGSがいわ ゆる古典的なモデル生物だけでなく,植物や家畜,菌類 といった農芸化学分野でよく用いられるような生物種に 対しても盛んに用いられるようになってきた.
図1に示すようにさまざまな種類のNGSから得られ る配列データはFASTQ形式という読まれた塩基配列と そのクオリティの組がときに数十億収められたような ファイルとなっている.NGSデータ解析の最初のス テップは既知のリファレンスゲノム配列に対して写像
(マッピング)するか,それぞれの配列をつなぎ合わせ る(アッセンブル)か,することになる.図示していな いが,ゲノム配列解読やRNA-seqといった目的に応じ たデータ解析は,このさらに下流になる.
NGSデータは,クローニングした塩基配列やマイク ロアレイなどの遺伝子発現のデータがそうであったよう に,公共データベースに収められている.その配列を アーカイブしたデータベース(DB)にはおもにこの
日本農芸化学会
● 化学 と 生物
【解説】
How to Make Full Use of Database for Next-Gen Sequences Takeru NAKAZATO, Hidemasa BONO, 大学共同利用機関法人情 報・システム研究機構データサイエンス共同利用基盤施設ライフ サイエンス統合データベースセンター
次世代シークエンスデータベースの活用法最前線
仲里猛留,坊農秀雅
FASTQ形式のデータ(もしくは,これを圧縮した形式 のデータ)が収められている.NGSのDBに関して以下 に詳しく述べる.
NGSの デ ー タ ベ ー ス:Sequence Read Archive
(SRA)
NGSにより解読された塩基配列情報は,どのような 実験を行ったかというデータ(メタデータ)と合わせて 米国NCBI,欧州EBIとともに日本の国立遺伝学研究所 のDDBJにより収集されており,Sequence Read Ar- chive(SRA)と呼ばれる公共データベースに登録され ている(1).なお,DDBJではDDBJ Sequence Read Ar- chive(DRA)と呼称しているが,NCBIやEBIとデー タ交換を行っており,内容は同じものである.SRAへ の登録は2007年から始まり,2016年4月現在,総塩基 数で約5.2ペタ塩基(ペタは10の15乗),データ量は約 3.2ペタバイト(2)と,想像を絶する大きさになっている.
研究分野による内訳では,ゲノムが1/2近くを占め,そ の残りの半分がトランスクリプトーム,次いでメタゲノ ムとなっている(3).
NGSはヒトサンプルを用いた研究にも盛んに用いら れている.これらのデータはプライバシーの観点から誰 でも利用可能なopen accessではなく,controlled ac- cessなデータとして収集されており,塩基数で言うと収 集されたものの4割にあたる2.2ペタ塩基を占めるまで になっている.日本ではDDBJがDRAと同じ枠組みで JGA(Japanese Genotype-phenotype Archive)として 収載しており,利用時には倫理審査などの手続きを踏ん だうえで科学技術振興機構バイオサイエンスデータベー スセンター(NBDC: National Bioscience Database Cen- ter)によるNBDCヒトデータベース(4)から申請可能で ある.
DBCLS SRA
NGSはゲノム解読,発現解析,メタゲノム解析など 多様な目的に用いられている.SRAの検索においては,
キーワードで検索するのが主であることは想像に難くな いが,すると,たとえばメタゲノムのデータがほしいの に,ヒトSNP解析のデータが検索結果にいわばノイズ として混じってくることが起こりうる.また,シークエ ンサーの種類によって解析の方法が変わってくるので機 器で検索結果を絞り込みたいというニーズも大きい.そ こでわれわれはメタデータとして付与された実験目的,
使用した機器や試薬,サンプルの情報などの実験手法や 実験条件によってSRA登録データを整理し,これらで 容易にSRA登録データを検索できるDBCLS SRAを開
発した(5, 6).週1回の定期的なデータ更新を行い,ウェ
ブサービスとして公開している(図2).なお,このDB- CLS SRAの使い方の流れは,生命科学分野の有用な データベースやウェブツールの活用法を動画で紹介する ウェブサイトの統合TVに紹介されている(7).
NGSは最近,さまざまな生物種に対して用いられる ようになってきているが,DBCLS DRAでは生物種に よる検索機能にも工夫をしている.従来のデータベース 検索では,イネ( )といわゆるインディカ 米( ),ジャポニカ米(
)は別のtaxonomy ID(生物種ID)が振られ,一度 に検索することが困難な場合があった.また, 属 のほかの種と比較したいなどという場合,すべての種で いちいち検索せねばならない,というケースもあった.
そこで,DBCLS SRAでは,種→亜種,品種,交配種,株 というような下位構造も含めた検索や,種→属→科→…
というような上位構造へと範囲を広げる検索がワンク リックで簡便に行えるようにしている.
図1■次世代シークエンサーとそのデータ 解析の流れ
日本農芸化学会
● 化学 と 生物
ウェブインターフェースから利用可能なNGSデー タの活用事例
FASTQ形式の配列データを自ら解析する際,あるプ ログラムにかければワンストップで可能,という状況に はなっていないのが現状である(8).表1にまとめたよう に,目的によってやるべき配列解析は異なる.コン ピュータリソースが必要であるうえに,なによりそれを 操作するための人手がかかる.
SRAに収められたNGSデータを再利用して,となる とその手間はなおさらである.そこで,すでにSRAに ある配列データに関して,あらかじめ配列解析済みの データをウェブインターフェイスから利用する方法が一 般 的 に は 便 利 で あ る.実 用 的 な 利 用 方 法 と し て,
DBCLSでサービスしているRefExとChIP-Atlasを以下 に紹介する.
RefEx
RefExは公共遺伝子発現データから作成されたリファ レンス遺伝子発現データセット(Reference Expression Dataset)である(9).RefExには,かつてのESTのみな ら ず,Affymetrix社 の マ イ ク ロ ア レ イ(GeneChip), CAGE, RNA-seqの合計4種類の遺伝子発現測定手法に
よる,40種類のヒト,マウス,ラット臓器での遺伝子 発現プロファイルが統合され,誰でも簡単に再利用でき るようになっている(図3).
RefExには,上述のとおりSRAから取得した発現定 量がなされたRNA-seqのデータも含まれているが,そ れに加えてFANTOM5プロジェクトによって得られた CAGEデータによる遺伝子発現データも統合されてい る.500種類を超えるヒトおよびマウスそれぞれの細胞 株,初代培養細胞,さまざまな成体および胎児組織にお ける遺伝子発現プロファイルが閲覧可能となってい る(10).RefExの使い方に関しても統合TVから動画で利 用可能である(11).
ChIP Atlas
ChIP Atlasは,SRAに収められた公共ChIP-seqデー タを再解析,転写因子などのDNA結合タンパク質の結 合していたゲノム領域をウェブブラウザから閲覧できる ツールである(12).たとえば,Peak Browserでは,使われ た抗体の種類(Antigen Class),サンプルの細胞種(Cell type Class)と閾値を選ぶことで,該当する公共ChIP- seqデータのゲノムへのマッピング結果をIGV(Integra- tive Genomics Viewer)上で閲覧することができる.
図2■DBCLS SRAによるデータ統計の可 視化
表1■目的によって利用法がさまざまなNGS(FASTQ)データ ゲノム未解読 :アッセンブルして配列をつなぎ合わせて利用 ゲノム解読 ゲノムアッセンブルしてFASTA形式の配列データ
遺伝子発現 トランスクリプトームアッセンブリ→転写単位ごとに発現定量したデータ(Spreadsheet形式:縦に転写単位,横に サンプル)
ゲノム解読済み:基本はリファレンスゲノムに対してマッピング.マップ済みの配列や数値をゲノムブラウザで閲覧 遺伝子多型 BAM形式のファイルからデータ解析したVCF形式のファイル
遺伝子発現 転写単位ごとに発現定量したデータ(Spreadsheet形式:縦に転写単位,横にサンプル)
日本農芸化学会
● 化学 と 生物
これを実現するためには,SRAから必要なChIP-seq データを探し出し,該当するFASTQ形式のファイルを 取得し,さらにリファレンスゲノムへのマッピングを自 ら実行する必要があり,たいへん手間がかかる.しかし ながら,このChIP Atlasを使うと,その手間なく注目 している遺伝子のゲノム上でのコード領域へのマッピン グ結果を瞬時にチェックすることができる(図4).な お,このゲノムマッピングを閲覧するために必要なゲノ ムブラウザIGVのインストール方法も,上述の統合TV に紹介されている(13).
おわりに
データに対して何らかの情報を付与することをアノ テーション(annotation)と呼ぶ.塩基配列決定が高速
かつ大量になるにつれ,このアノテーションが重要に なってきている.DBCLS SRAでは各データにアノテー ションされたメタデータを検索する手段を,RefExは各 遺伝子にアノテーションされた定量済みの発現データ を,ChIP-Atlasでは各遺伝子コード領域にアノテーショ ンされたDNA断片のマッピング情報を,提供してい る.逆に,メタデータがきっちりアノテーションされて いないとそのデータは検索されず,「ないのと同じ」で ある.現在ではこの種のデータは誰かが論文を読んで親 切にアノテーションしてくれるものではなく,そのデー タを出した研究者自身がSRAに登録するときにすべき ものとなっている.自分のデータが再利用されること は,ひいてはその研究の価値を高めることになる.後か らでもアップデート可能なので,ぜひしっかりと自身の NGSデータをアノテーションしていただきたい.
図4■ChIP-AtlasのPeak Browserを用いたID4という遺伝子のゲノムコード領域付近でのChIP-seqデータのゲノムマッピング 結果
図3■ ヒ ト のAQP1に 対 す るRefEx検 索
日本農芸化学会
● 化学 と 生物 結果
文献
1) Y. Kodama, M. Shumway & R. Leinonen; International Nucleotide Sequence Database Collaboration:
, 40(D1), D54 (2012).
2) NCBI: Sequence Read Archive: Overview: http://www.
ncbi.nlm.nih.gov/Traces/sra/, 2016.
3) 坊農秀雅:領域融合レビュー,4, e008(2015).
4) NBDCヒ ト デ ー タ ベ ー ス:http://humandbs.biosci- encedbc.jp/, 2016.
5) T. Nakazato, T. Ohta & H. Bono: , 8, e77910 (2013).
6) DBCLS SRA: http://sra.dbcls.jp/, 2016.
7) 統合TV: DBCLS SRAを使ってNGSデータを検索する,
http://doi.org/10.7875/togotv.2014.097, 2016.
8) 清水厚志,坊農秀雅: 次世代シークエンサー DRY解析
教本 ,学研メディカル秀潤社,2015.
9) RefEx: Reference Expression Dataset, http://refex.dbcls.
jp/, 2016.
10) M. Lizio, J. Harshbarger, H. Shimoji, J. Severin, T. Kasu- kawa, S. Sahin, I. Abugessaisa, S. Fukuda, F. Hori, S.
Ishikawa-Kato ; FANTOM consortium:
, 16, 22 (2015).
11) RefExの 使 い 方:http://doi.org/10.7875/togotv.2014.009, 2016.
12) ChIP-Atlas: http://chip-atlas.org/, 2016.
13) 統合TV: Integrative Genomics Viewer IGVを使い倒す〜
基本編〜,http://doi.org/10.7875/togotv.2014.027, 2016.
プロフィール
仲里 猛留(Takeru NAKAZATO)
<略歴>2000年東京工業大学生命理工学 部生体機構学科卒業/2002年同大学大学 院生命理工学研究科生体システム専攻修士 課程修了/同年NECバイオIT事業推進セ ンター入社/2007年情報・システム研究 機構ライフサイエンス統合データベースセ ンター特任技術専門員/2008年大阪大学 大学院情報科学研究科バイオ情報工学専攻 博士後期課程修了,博士(情報科学)/2009 年ライフサイエンス統合データベースセン ター特任研究員/2011年同センター特任 助教,現在に至る<研究テーマと抱負>
NGSデータの再利用促進.遺伝子の機能 や実験条件,生命現象などとつなげられる のが理想<趣味>昆虫採集,鉄道写真,大 相撲観戦
坊農 秀雅(Hidemasa BONO)
<略歴>1995年東京大学教養学部基礎科 学科卒業/2000年京都大学大学院理学研 究科生物科学専攻博士後期課程単位取得退 学/同年理化学研究所基礎科学特別研究 員/2003年埼玉医科大学ゲノム医学研究 センター助手/2007年情報・システム研 究機構ライフサイエンス統合データベース センター特任准教授,現在に至る.博士
(理学)<研究テーマと抱負>データベース を活用した生物学研究.コンピュータ上で のデータ解析も「実験」と呼ばれるように したい<趣味>温泉,スキー,赤ワイン
<個 人 ホ ー ム ペ ー ジ>http://dbcls.rois.
ac.jp/~bono/
Copyright © 2016 公益社団法人日本農芸化学会 DOI: 10.1271/kagakutoseibutsu.54.873
日本農芸化学会