私たちの体、私たちのデータ|生き物

20 年前、ヒトゲノムの配列決定は、これまで試みられた中で最も野心的な科学プロジェクトの 1 つでした。今日、私たちの体、海、土壌などに生息する微生物のゲノムのコレクションと比較して、DVDに簡単に収まる個々のヒトゲノムは比較的単純です.その 30 億の DNA 塩基対と約 20,000 の遺伝子は、人体に見られる微生物を構成する約 1,000 億の塩基と数百万の遺伝子に比べれば微々たるものに見えます。

また、微生物 DNA には、微生物宿主の年齢や健康状態、いつどこでサンプルが収集されたか、どのように収集および処理されたかなど、さまざまな変数が付随します。口の中には数百種の微生物が生息しており、それぞれの歯には数万もの微生物が生息しています。これらすべてを分析するという課題を超えて、科学者は、データを収集する環境を確実かつ再現可能に特徴付ける方法を理解する必要があります。

「歯周病専門医が歯肉ポケットを説明するために使用する臨床測定、化学的測定、ポケット内の液体の組成、免疫学的測定があります」と、スタンフォード大学の医師で微生物学者であり、人間のマイクロバイオームを研究している David Relman は述べています。「非常に速く複雑になります。」

ヒトのマイクロバイオームのような複雑なシステムを研究する野心的な試みは、生物学がビッグデータの世界に到達したことを示しています。生命科学は長い間、記述科学と見なされてきました。10 年前、この分野は比較的データが乏しく、科学者は自分たちが生成したデータについていくのは簡単でした。しかし、ゲノミクス、イメージング、その他の技術の進歩により、生物学者は現在、圧倒的な速度でデータを生成しています.

その原因の 1 つは DNA シーケンシングで、そのコストは約 5 年前に急落し始め、コンピュータチップのコストよりもさらに急速に低下しました。それ以来、植物、動物、微生物を含む他の何千もの生物のゲノムとともに、何千ものヒトゲノムが解読されてきました.国立バイオテクノロジー情報センター (NCBI) が管理している公開ゲノムレポジトリには、すでにペタバイト (数百万ギガバイト) のデータが格納されており、世界中の生物学者は 15 ペタベース (塩基は DNA の文字) を大量に生成しています。年間シーケンスの。これらを通常の DVD に保存した場合、スタックの高さは 2.2 マイルになります。

「生命科学はビッグデータ企業になりつつあります」と、メリーランド州ベセスダにある国立ヒトゲノム研究所所長の Eric Green 氏は述べています。大量のデータが利用可能になります。

このボトルネックを解決することは、人間の健康と環境に大きな影響を与えます。私たちの体に生息する微生物群と、それらの個体群が病気によってどのように変化するかをより深く理解することで、クローン病、アレルギー、肥満、その他の障害に対する新しい洞察が得られ、治療の新しい道が提案される可能性があります。土壌微生物は、抗生物質などの天然産物の豊富な供給源であり、より丈夫で効率的な作物の開発に役割を果たすことができます.

生命科学者は、多くの癌のゲノムを分析し、人間の脳をマッピングし、より優れたバイオ燃料や他の作物を開発する取り組みなど、数え切れないほどのビッグデータプロジェクトに着手しています。 (コムギのゲノムはヒトのゲノムの 5 倍以上の大きさで、私たちの 2 つの染色体に対してすべての染色体のコピーが 6 つあります。)

しかし、これらの取り組みは、ヒトゲノム計画を取り囲んだのと同じ批判に直面しています。少額の個々の助成金から必然的にいくらかの資金を奪う大規模なプロジェクトが、トレードオフの価値があるかどうかを疑問視する人もいます.ビッグデータへの取り組みは、ほとんどの場合、科学者が予想していたよりも複雑なデータを生成しており、既存のデータが適切に理解される前に、より多くのデータを作成するプロジェクトに資金を提供することの賢明さに疑問を呈する人もいます.ペンシルベニア州立大学の生物学者であるケネス・ワイス氏は、「批判的に考えてより深い質問をしようとするよりも、私たちがしていることをますます大規模に続ける方が簡単です」と述べています.

何十年にもわたって大規模なデータセットの課題に取り組んできた物理学、天文学、コンピューターサイエンスなどの分野と比較して、生物学におけるビッグデータ革命も迅速であり、適応する時間がほとんどありません。

「次世代シーケンスとバイオテクノロジーで起こった革命は前例のないものです」と、計算生物学を専門とするニュージャージー州のラトガース大学のコンピューターエンジニアである Jaroslaw Zola 氏は述べています。

生物学者は、データの保存と移動から、データの統合と分析まで、多くのハードルを克服しなければなりません。これには、大幅な文化的変化が必要です。「この分野を知っているほとんどの人は、必ずしもビッグデータの扱い方を知っているわけではありません」と Green 氏は言います。雪崩のようなデータを効率的に利用するには、状況を変える必要があります。

大きな複雑さ

科学者が最初にヒトゲノムの配列決定に着手したとき、作業の大部分は一握りの大規模な配列決定センターによって行われました。しかし、ゲノム配列決定のコストが急落したことで、この分野は民主化されました。現在、多くのラボではゲノムシーケンサーを購入する余裕があり、分析に利用できるゲノム情報の山が増えています。ゲノムデータの分散性は、集計と分析が困難なデータのパッチワークなど、独自の課題を生み出しています。ニューヨークにあるコールドスプリングハーバー研究所の計算生物学者、マイケルシャッツ (Michael Schatz) は、次のように述べています。「生物学では、世界中に 1,000 ほどの配列決定センターがあります。楽器が 1 つある人もいれば、何百もある人もいます。」

問題の範囲の一例として、世界中の科学者が現在、何千ものヒトゲノムを配列決定しています。しかし、それらすべてを分析したい人は、まずデータを収集して整理する必要があります。「全体を計算するための一貫した方法で組織化されておらず、それを研究するためのツールが利用できません」と Green 氏は述べています。

研究者は、より多くの計算能力と、データを移動するためのより効率的な方法を必要としています。多くの場合郵便で送られるハードドライブは、データを転送するための最も簡単なソリューションであることが多く、生物学的サンプルを保存する方が、配列を決定して結果のデータを保存するよりも安価であると主張する人もいます.シーケンス技術のコストは、個々のラボが独自のマシンを所有できるほど急速に低下しましたが、処理能力とストレージの付随する価格はそれに追随していません.アルゴンヌ国立研究所 (イリノイ州) の計算生物学者である Folker Meyer は、「コンピューティングのコストは、生物学研究の制限要因になる恐れがあります」と述べています。「それは以前とは完全に逆転しています。」

生物学者は、生物学的データの複雑さは、物理学や他の分野のビッグデータとは一線を画していると述べています。「高エネルギー物理学では、データは適切に構造化され、注釈が付けられており、インフラストラクチャは、適切に設計され、資金提供されたコラボレーションを通じて何年にもわたって完成されてきました」と Zola 氏は述べています。生物学的データは技術的には小さいですが、整理するのははるかに難しいと彼は言いました。単純なゲノム配列決定を超えて、生物学者は他の多くの細胞および分子構成要素を追跡できますが、それらの多くは十分に理解されていません。同様の技術を利用して、遺伝子の状態を測定することができます。遺伝子がオンになっているかオフになっているか、どのような RNA やタンパク質を生成しているかを測定できます。臨床症状、化学物質またはその他の曝露、および人口統計に関するデータを追加すると、非常に複雑な分析問題が発生します。

「これらの研究のいくつかで真の力を発揮できるのは、さまざまな種類のデータを統合することです」と Green 氏は述べています。しかし、分野を横断できるソフトウェアツールは改善する必要があります。たとえば、電子医療記録の台頭は、分析に利用できる患者情報がますます増えていることを意味しますが、科学者はそれをゲノムデータと結びつける効率的な方法をまだ持っていません.

さらに悪いことに、科学者は、これらのさまざまな変数がどれだけ相互作用するかをよく理解していません。対照的に、ソーシャルメディアネットワークを研究している研究者は、収集しているデータが何を意味するかを正確に知っています。ネットワーク内の各ノードは、Facebook アカウントを表しており、たとえば、友達を示すリンクが含まれています。さまざまな遺伝子が他の遺伝子の発現を制御する方法をマッピングしようとする遺伝子調節ネットワークは、数百万ではなく数千のノードを持つソーシャルネットワークよりも小規模です。しかし、データの定義はより困難です。「ネットワークを構築するためのデータはノイズが多く、不正確です」と Zola 氏は述べています。「生物学的データを見るとき、何を見ているのかまだ正確にはわかりません。」

新しい分析ツールの必要性にもかかわらず、多くの生物学者は、計算インフラストラクチャは引き続き資金不足であると述べています。「生物学では、多くの場合、データの生成には多額の資金が費やされますが、データの分析にははるかに少ない額が費やされます」と、シアトルのシステム生物学研究所の副所長である Nathan Price 氏は述べています。物理学者は大学が後援するスーパーコンピューターに無料でアクセスできますが、ほとんどの生物学者はそれらを使用するための適切なトレーニングを受けていません。仮にそうしたとしても、既存のコンピューターは生物学的問題に対して最適化されていません。「非常に頻繁に、国家規模のスーパーコンピューター、特に物理ワークフロー用にセットアップされたものは、ライフサイエンスには役に立ちません」と、コロラド大学ボルダー校とハワードヒューズ医学研究所の微生物学者であり、地球マイクロバイオームプロジェクトの両方に関与しているロブナイトは述べています。とヒューマンマイクロバイオームプロジェクト。「インフラストラクチャーへの資金提供の増加は、この分野にとって大きな利益となるでしょう。」

これらの課題のいくつかに対処するため、国立衛生研究所は 2012 年に Big Data to Knowledge Initiative (BD2K) を立ち上げました。このイニシアチブは、データ共有標準を作成し、簡単に配布できるデータ分析ツールを開発することを目的としています。 .プログラムの詳細についてはまだ議論中ですが、目的の 1 つはデータサイエンスの生物学者を訓練することです。

「誰もが博士号を取得しています。アメリカの企業は、現在よりも多くのデータの能力を必要としています」と Green 氏は述べています。バイオインフォマティクスの専門家は現在、がんゲノムプロジェクトやその他のビッグデータの取り組みで主要な役割を果たしていますが、グリーン氏らはプロセスを民主化したいと考えています。「今日、超専門家が尋ねたり答えたりするような質問は、10 年後には通常の調査員に尋ねてもらいたいと考えています」と Green 氏は述べています。「これは一時的な問題ではありません。それが新しい現実です。」

これが生物学がたどるべき道であることに誰もが同意するわけではありません。一部の科学者は、従来の仮説主導のアプローチを犠牲にしてビッグデータプロジェクトに多額の資金を集中させることは、科学にとって有害である可能性があると述べています。「大量のデータ収集には多くの弱点があります」と Weiss 氏は言います。「因果関係を理解する上で強力ではないかもしれません。」 Weiss 氏は、ゲノムワイド関連研究の例を挙げています。これは、科学者が糖尿病などのさまざまな疾患の原因となる遺伝子を見つけようとする一般的な遺伝的アプローチで、疾患のある人とない人の中で比較的一般的な遺伝子変異の頻度を測定することによって行われます。これらの研究で特定されたバリアントは、これまでのところ病気のリスクをわずかにしか上昇させませんが、これらの研究のより大規模でより高価なバージョンが依然として提案され、資金提供されています.

「ほとんどの場合、病気を説明できない些細な影響が見出されます」と Weiss 氏は述べています。「私たちが発見したことを利用して、それがどのように機能するかを理解し、それについて何かをするためにリソースを転用すべきではありませんか?」科学者たちは、糖尿病に確実に関連する多くの遺伝子をすでに特定しています。そのため、限られた資金を使ってより暗い役割を持つ追加の遺伝子を明らかにするよりも、糖尿病におけるそれらの役割をよりよく理解しようと試みてみませんか?

多くの科学者は、生命科学研究の複雑さには、大規模および小規模の科学プロジェクトが必要であり、大規模なデータの取り組みが従来の実験に新たな飼料を提供すると考えています。「ビッグデータプロジェクトの役割は、マップのアウトラインをスケッチすることです。これにより、小規模プロジェクトの研究者が必要な場所に移動できるようになります」と Knight 氏は述べています。

小さくて多様

私たちの体や他の生息地に生息する微生物を特徴付ける取り組みは、ビッグデータの可能性と課題を象徴しています。微生物の大部分は実験室で培養することができないため、2 つの主要なマイクロバイオームプロジェクト (地球のマイクロバイオームとヒトのマイクロバイオーム) は、DNA 配列決定によって大きく可能になりました。科学者は、主に遺伝子を通じてこれらの微生物を研究し、土壌、皮膚、またはその他の環境に生息する微生物のコレクションの DNA を分析し、存在する微生物の種類や変化にどのように反応するかなどの基本的な質問に答え始めることができます。

ヒト微生物をマッピングする数多くのプロジェクトの 1 つであるヒューマンマイクロバイオームプロジェクトの目標は、300 人の健康な人から採取したサンプルを使用して、体のさまざまな部分のマイクロバイオームを特徴付けることです。 Relman はそれを、忘れ去られた器官系を理解することになぞらえています。「それは人間の生物学から非常に離れているため、やや異質な器官です」と彼は言いました.科学者は数千種の微生物から DNA 配列を生成しますが、その多くは骨の折れる再構築が必要です。個々の文章よりも短い断片から本のコレクションを再作成するようなものです.

「私たちは今、このビッグデータすべての観点からシステムを理解しようとするという困難な課題に直面していますが、それを解釈するための生物学はほとんどありません」とレルマンは言いました. 「私たちは、心臓や腎臓を理解するのと同じような生理学を持っていません。」

これまでのプロジェクトで最もエキサイティングな発見の 1 つは、人間のマイクロバイオームの高度に個別化された性質です。実際、約 200 人を対象としたある研究では、個人の指先がキーボードに残した微生物の残留物を配列決定するだけで、科学者はその個人と正しいキーボードを 95% の精度で照合できることが示されました。「最近まで、マイクロバイオームがどれほど多様で、人の体内でどれほど安定しているかはわかりませんでした」と Knight は言いました。

研究者は現在、食事、旅行、民族性などのさまざまな環境要因が個人のマイクロバイオームにどのように影響するかを理解したいと考えています.最近の研究では、腸内微生物をある動物から別の動物に移すだけで、感染症の改善や体重減少など、健康に劇的な影響を与える可能性があることが明らかになりました.彼らは、マイクロバイオームに関するより多くのデータを基に、どの微生物が変化の原因であるかを発見し、おそらくそれらに関連する治療法を設計したいと考えています.

Relman 氏によると、主要な課題のいくつかは、関連するほぼ管理不可能な数の変数のどれが重要であるかを判断し、マイクロバイオームの最も重要な機能のいくつかを定義する方法を理解することである.たとえば、科学者は、私たちの微生物が免疫システムの形成に不可欠な役割を果たしており、一部の人々の微生物群集は他の人よりも回復力があることを知っています.同じ抗生物質のコースは、ある個人の微生物プロファイルに長期的な影響を与えず、別の微生物プロファイルに影響を与える可能性があります.完全に的外れ。「私たちは、これらのサービスを測定する方法について大きな感覚を持っていません」と、免疫システムやその他の機能を形作る微生物の役割に言及しながら、Relman 氏は述べています。

Earth Microbiome Project は、さらに大きなデータ分析の課題を提示します。科学者たちは、私たちの腸に生息する微生物種の約 50% を配列決定しました。これにより、新しいデータの解釈がはるかに容易になります。しかし、土壌マイクロバイオームの約 1% しか配列決定されていないため、研究者はゲノム断片を完全なゲノムに組み立てることができないことがよくあります。

脳内データ

ゲノミクスが生命科学におけるビッグデータ分析の早期導入者だったとすれば、神経科学は急速に勢いを増しています。多くのニューロンの活動と構造を記録するための新しいイメージング方法と技術により、科学者は大量のデータを取得できます。

ハーバード大学の神経科学者である Jeff Lichtman は、脳の薄いスライスのスナップショットを次々と取得し、それらをコンピューターでつなぎ合わせることによって、前例のない量のデータから神経配線マップを作成するプロジェクトに協力しています。 Lichtman 氏によると、走査型電子顕微鏡と呼ばれる技術を使用する彼のチームは、現在、1 つのサンプルから 1 日あたり約 1 テラバイトの画像データを生成しています。「1 年ほどで、1 時間あたり数テラバイトの処理ができるようになることを期待しています」と彼は言いました。「これは、コンピュータアルゴリズムによって処理されなければならない、まだ生のデータの多くです。」立方ミリメートルの脳組織は、約 2,000 テラバイトのデータを生成します。ライフサイエンスの他の分野と同様に、データの保存と管理が問題であることがわかっています。クラウドコンピューティングはゲノミクスの一部の側面では機能しますが、神経科学ではあまり役に立たない可能性があります。実際、Lichtman 氏は、クラウドに保存するにはデータが多すぎ、ハードドライブで転送するには多すぎると述べています。

Lichtman は、神経科学者が直面する課題はゲノミクスの課題よりもさらに大きいと考えています。「神経系はゲノムよりもはるかに複雑な存在です」と彼は言いました。「全ゲノムは CD に収まりますが、脳は世界のデジタルコンテンツに匹敵します。」

Lichtman の研究は、脳をグラフ化するためのますます多くの取り組みの 1 つにすぎません。 1 月、欧州連合は人間の脳全体をモデル化する取り組みを開始しました。そして、米国は現在、独自の大規模なプロジェクトに取り組んでいます。詳細はまだ議論中ですが、神経配線自体よりも脳活動のマッピングに焦点が当てられる可能性があります.

リヒトマン氏によると、ゲノミクスと同様に、神経科学者はデータを共有するという概念に慣れる必要があります。「このデータは誰でも自由に簡単にアクセスできるようにすることが不可欠であり、それはそれ自体の課題です。このような問題の答えはまだわかりません。」

ハードウェア、ソフトウェア、分析方法の資金調達と必要な進歩については、疑問が残ります。「このようなアイデアには、ほぼ確実に多額の費用がかかりますが、基本的な発見はまだ得られていません」と Lichtman 氏は述べています。「無意味な接続データの塊になってしまうのでしょうか？これは常にビッグデータの課題です。」

それでも、Lichtman は主要な調査結果が時間とともにもたらされると確信しています。「どのような質問をするべきかを事前に知る必要はないと確信しています」と彼は言いました。「データがあれば、アイデアを持っている人なら誰でも、答えを得るためにそれをマイニングするために使用できるデータセットを手に入れることができます。

「ビッグデータは神経科学の未来ですが、現在の神経科学ではありません。」