>> 自然の科学 >  >> 生き物

求む:より多くのデータ、汚れたほど良い


手に負えないゲノミクス データの山から明確なメッセージを抽出するために、研究者はしばしばメタ分析に目を向けます。これは、複数の研究からのデータを組み合わせるための実証済みの統計手順です。しかし、メタアナリシスが答えを導き出す可能性のある研究は、際限なく分岐する可能性があります。男性だけを登録する人もいれば、子供だけを登録する人もいます。ある国で行われるものもあれば、ヨーロッパなどの地域全体で行われるものもあります。軽度の病気に焦点を当てているものもあれば、より進行したケースに焦点を当てているものもあります。統計的手法がこの種の変動を補正できるとしても、研究で同じプロトコルや機器を使用してデータを収集したり、同じソフトウェアを使用してデータを分析したりすることはめったにありません。メタ分析を行う研究者は、データの寄せ集めを整理してこれらの交絡因子を制御しようと、計り知れない努力をします。

スタンフォード大学の計算免疫学者であるパー​​ベシュ・カトリは、彼らの考えはすべて間違っていると考えています。ゲノム発見への彼のアプローチは、さまざまな方法でさまざまな集団のさまざまな病院で収集されたデータの公開リポジトリを精査することを必要とします.データが乱雑であればあるほど良い. 「私たちは汚いデータから始めます」と彼は言います。 「サンプルの不均一性にもかかわらず信号が残っている場合は、実際に何かを見つけたに違いありません。」

この戦略は簡単すぎるように思えますが、Khatri の手にあればうまくいきます。公開データの山を分析して、Khatri と同僚は、臨床医が敗血症を引き起こす生命を脅かす感染を検出し、感染を細菌またはウイルスとして分類し、誰かが結核、デング熱、またはマラリアなどの特定の病気にかかっているかどうかを判断できるようにする特徴的な遺伝子を明らかにしました。昨年、Khatri と他の 2 人の科学者は、患者のベッドサイドでこれらの遺伝子シグネチャを測定するための装置を開発する会社を立ち上げました。要するに、彼らは宿主の免疫応答を解読し、重要な遺伝子を診断に変えています.

過去 1 年間、Khatri は Quanta Magazine と彼のアイデアについて話し合った 電話、電子メール、そしてホワイトボードが並ぶスタンフォードのオフィスから。会話の編集および要約版が続きます。

生物学に興味を持ったきっかけは何ですか?

私はインドを離れ、コンピュータ サイエンスの修士号を取得してソフトウェア エンジニアになる計画を立てて、「Y2K バグを修正する」ラッシュで米国に来ました。デトロイトのウェイン州立大学に入学してから数か月後、ソフトウェアを書くのは一生退屈なものになるだろうと気づきました。ニューラル ネットワークを研究しているラボに参加しました。

しかし、その後、私のアドバイザーはバイオインフォマティクスに切り替え、私が彼に切り替えた場合、彼は私の授業料を支払うと言いました.私は貧しいインドの大学院生でした。私は「あなたは私の給料を払うつもりですか?あなたがしていることは何でもします。」それが私が生物学に移った方法です。

あなたはすぐに水しぶきを上げました。

私のアドバイザーが 2000 年から 2001 年にかけてサバティカル休暇を取っている間、私はラボで共同研究者のラボのポスドク (男性の生殖能力に関与する遺伝子を研究している婦人科医) と一緒にバイオインフォマティクス分析を行っていました。一度に多数の遺伝子に対してアッセイを実行するためのマイクロアレイは、まったく新しいものでした。最近の実験から、彼は関心のある約 3,000 の遺伝子のリストを取得し、それらが何をしているのかを理解しようとしていました.

ある日、私は彼がある Web サイトから別の Web サイトに移動し、テキストをコピーして Excel スプレッドシートに貼り付けているのを見ました。私は彼に言いました。何をしているのかだけ教えてください。」そこで、私は彼のためにスクリプトを書きました — 3 日かかりました — その結果を基に、Lancet を書きました。

私たちはソフトウェアをウェブ上に置きました。大きな関心がありました。彼らはある会議でそれを発表し、ファイザーはそれを買いたがっていました。うわー、これはとてもぶら下がっている果物だと思いました。私はすぐに億万長者になることができます.

ソフトウェアは何をしますか?

指定した一連の遺伝子を取得し、注釈データベースを検索して、それらの遺伝子が関与している生物学的プロセスと分子経路を教えてくれます。100 個の遺伝子のリストがある場合、15 個が免疫応答に関与していることがわかります。は血管新生に関与し、50 はグルコース代謝に関与しています。あなたが 1 型糖尿病について研究しているとしましょう。これらの結果を見て、「私は正しい道を進んでいる」と言うことができます。

これは 15 年前、私が修士号を取得していたときのことです。より多くのツールを開発し、研究を博士号にまで拡大しました。現在は、Onto-Tools と呼ばれるオープン アクセスの Web ベースのツール スイートです。数年前に最後に確認したところ、多くの国から 15,000 人のユーザーがいて、1 日平均 100 のデータ セットを分析していました。

ツールは非常に人気がありましたが、結果がどのように使用されるか、人々をどのように助けるかについては教えてくれませんでした。バイオインフォマティクス分析から研究室での実験、そして最終的には患者を助ける何かに至るまで、研究がどのように進んでいるかを見たかったのです.

どのように切り替えましたか?

2008 年にポスドクとしてスタンフォード大学に来たとき、私の条件の 1 つは、ウェット ラボを持っている人、つまりインシリコでデータを分析するだけでなく、マウスや実際の患者のサンプルを使って実験を行っている人が私の給料の半分を支払うことでした。ゲーム内のスキン。ある研究室で開発した方法を使用して予測を行い、別の研究室と協力してそれらの予測を検証し、臨床的に重要なことを教えてもらいたいと思っていました.それが、バイオインフォマティシャンの Atul Butte と腎移植医の Minnie Sarwal と一緒に仕事をすることになった経緯です。 [編集者注:ビュートとサーワルはその後、スタンフォード大学からカリフォルニア大学サンフランシスコ校に転校しました。]



免疫学に関心を向けたきっかけは何ですか?

臓器移植拒絶の基礎生物学を学ぶために論文を読んで、「あはは!」がありました。一瞬。心臓移植外科医、腎臓移植外科医、肺移植外科医はお互いにあまり話していないことに気付きました!

どの臓器について読んでいても、共通のテーマを目にしました。それは、移植レシピエントの免疫系の B 細胞と T 細胞が移植を攻撃していたということです。しかし、拒絶反応の診断基準は異なっていました。腎臓の人は腎移植片拒絶のバンフ基準に従い、心肺の人はISHLT [国際心肺移植学会]の基準に従います。生物学的メカニズムが共通している場合、なぜ異なる診断基準があるのでしょうか?それはコンピューター科学者である私には理解できませんでした。

私は、共通のメカニズムがあるに違いないという仮説を立て始めていました。それは、受信者の免疫細胞に何かが「自己ではない」ことを伝える共通のトリガーです。そんなことを考えていると、「拒絶反応の免疫定数」という素晴らしい論文に出くわしました。著者は基本的に私の仮説を提示しました。彼らは、臓器拒絶反応の引き金は異なるかもしれないが、共通の経路を共有していると提案した.そして彼らは、誰かがこれをテストすべきだと言っていた.

その時点で何をしましたか?

私は同僚に、「さまざまな臓器移植コホートからサンプルを収集し、分析を行って、どの共通遺伝子が関与しているかを調べてみませんか?」と尋ね始めました。彼らは、さまざまな臓器、さまざまなマイクロアレイ技術、さまざまな治療プロトコルなど、すべての不均一性を説明する必要があるため、それを行うことはできないと述べました.そのすべてを制御するにはコストがかかります。

さらに、全員がこれらすべてのサンプルを提供するようになるには、何年もかかるでしょう。私は急いでいた。そこで Atul は、代わりに既存の公開データを入手することを提案しました。しかし、これらのデータは多くの生物学的および技術的要因によって混乱しているため、「汚い」ものです。

本当に異質性を制御する必要があるのだろうかと思いました。この「汚れた」データがすべて存在する場合、何らかの方法でそれらを組み合わせることができるかもしれません。そして、不均一性にもかかわらず、信号を見つけたら、ああ、それは私が見るべきものだと言いませんか?

取り組み始めました。

最初の試みで何が起こったのですか?

Gene Expression Omnibus の Web サイトにアクセスし、心臓、腎臓、肺、肝臓などの臓器移植研究からデータをダウンロードしました。データは 5 つの病院から得られ、少なくとも 2 つの異なる診断基準を使用しました。 「互換性のない」データを捨てていなかったので、[許容される]誤検出率を通常よりも高く設定しました (通常の 5% ではなく 20%)。固形臓器移植のすべての拒絶反応に共通するメカニズムを見つけることができれば、より多くの偽陽性が得られても構わないと思っていました。 1 つのデータセットがすべての結果を導き出していないことを確認するなど、他のいくつかのことを確認し、一連の遺伝子が変化しているだけではないことを確認するためにいくつかの追加手順を実行しました。

「働いた」とはどういう意味ですか?

多くの不均一なデータを使用して、移植を拒否した患者で過剰発現している 11 の遺伝子のセットを発見し、さまざまな国のさまざまな病院の他のコホートでその遺伝子シグネチャーを検証できることを示しました。さらに、この遺伝子セットを使用して、移植手術の 6 か月後の生検から、18 か月後に重大な潜在性移植片損傷 (急性拒絶反応よりも検出が困難な状態) を経験する患者を予測できました。したがって、それは予後マーカーでもありました.

これらの結果をマウスで確認しました。私たちは一匹のマウスから心臓を採取し、それを別の動物に移植して尋ねました:移植拒絶反応が見られると、これらの遺伝子は変化しますか?答えはイエスでした。

次に、発見した遺伝子の生物学的プロセスを調節することをメカニズムが示唆する薬物を見つけるために Google 検索を行いました。私たちはマウスで試すために、2 つの FDA 承認薬を選びました。見よ、彼らは働いた。どちらの薬剤も、移植片浸潤免疫細胞 [拒絶のマーカー] を減少させました。それらは、私たちが現在移植患者に投与している薬と同じくらい優れているように見えました.

これら 2 つの薬のうちの 1 つは、心臓病を予防するために広く処方されている薬であるスタチンです。私は、現在ベルギーで働いていて、1989 年にさかのぼる電子カルテにアクセスできる元同僚に助けを求めました。私は彼に、腎移植を受けた患者のデータベースを検索し、移植が失敗したときにどのような薬を服用したかを確認するように依頼しました。その。彼は分析を実行し、1 週間後に私にこう言いました。患者がスタチンを投与された場合、移植失敗率は 30% 減少しました。」

診断、予後、治療、および電子医療記録に対する調査結果の検証 — すべてが 1 つの論文にまとめられています。



あなたのアプローチが従来のメタ分析とどのように違うのかよくわかりません.根本的な違いは何ですか?

最大の違いは、従来のメタ分析では異質性を減らすように教えられているのに対し、私たちのグループはデータ セット全体の異質性を無視していることです。

たとえば、「この患者は別の薬物治療を受けていたので、このサンプルは使用しません。あるいは、これらの患者は移植後早期だったのかもしれませんが、この他のデータセットは移植後 5 年と遅いため、そのデータを使用するつもりはありません。」バイオインフォマティクスでは、データ セットを取得し、ノイズや交絡因子がないことを確認してサンプルを選択することを学びました。

しかし、これを行うと、病気の異質性を捉えることができません。私達はことを知っています。そのため、他のコホートで調査結果を再現する必要があります。

私が言いたいのは、異質性について心配する必要はないということです。ダーティ データを使用すると、臨床的異質性を説明できます。

しかし、異質性が私の結果を台無しにしないことを確認するために、遺伝子と病状の間に発見した統計的関連性がまぐれではないことを検証するための厳しい基準を設定しました.検証は、発見セットの一部ではない独立したコホートで行う必要がありました。言い換えれば、ラボに複数のデータセットが公開されている場合、各データセットを先験的に発見または検証コホートのいずれかにしました. [編集者注: 伝統的に、研究者は参加者のグループを 2 つのサブグループに分けることがよくあります。特定の状態に関連する遺伝子を抽出する「発見」グループと、特定の状態に関連する遺伝子を検証するために個別に分析する「検証」グループです。発見グループ。]

このアプローチはうまくいきました。私たちが見つけたすべての生物学的および技術的不均一性を取り込んだ、多くの汚いデータを使用して特定した遺伝子は、さまざまな国のさまざまな病院のさまざまなグループから来たコホートで検証することができました.

昨年の秋に、誰でもできるように一連のガイドラインを公開しました。いくつかの方法を比較し、非常に技術的ですが、オチは次のとおりです。合計 200 ~ 250 のサンプルで 3 ~ 5 個のデータ セットを使用する場合、再現性は良好です (85% 以上)。どのメタ分析方法を選択するかは重要ではありません。本当に重要なのは、大規模で同種のデータ セットではなく、複数の異種データ セットを持つことです。

私たちの方法である MetaIntegrator は、R で書かれたプログラムのオープン アクセス リポジトリである CRAN で利用できます。

最近、文献の研究バイアスのために、ダーティデータを使用することは良いだけでなく、必要であることを示す分析を行いました. biorxiv.org でプレプリントをリリースしました。要点は、公開されたものに基づいて仮説を立てることは、ランダムな街灯の下で鍵を探すことに似ているということです.

あなたのアプローチは、移植拒絶以外のシナリオでも機能しますか?

このフレームワークを癌、感染症と自己免疫疾患の両方に適用しました。たとえば、私の友人は、KRAS という遺伝子の突然変異によって引き起こされる癌に取り組んでいます .彼は私のところに来て、「興味のあるこれらの 5 つの遺伝子を持っています。分析を実行して、どの遺伝子に注目すべきか教えてもらえますか?」と尋ねました。

この方法を 13 のデータセットで実行しました。6 つは膵臓がん、7 つは肺がんです。私が何をしたとしても、1つの遺伝子が常に最も変化しているように見えました.彼はその結果を実行し、メカニズムを見つけ出し、Nature になりました。

それは 2014 年のことで、地元の 10 年生が夏の研究プロジェクトを行うために到着する直前でした。彼に何を提案しましたか?

臓器移植の研究で使われた 11 の遺伝子についてさらに考えてみると、その遺伝子セットはどの程度特異的なものなのだろうか?感染すると、同じ11個の遺伝子が増加しますか?癌はどうですか?自己免疫疾患?

私と一緒に夏を過ごしていた学生に、これらすべてのさまざまな病気のデータを収集し始めましょう.データをダウンロードし、パイプラインを実行して、遺伝子シグネチャ (条件ごとに発現が変化する遺伝子のリスト) を見せてください。彼は 173 のマイクロアレイ データ セットを使用し、42 の疾患から得られた 8,000 を超えるヒト サンプルを使用しました。細菌感染、ウイルス感染、自己免疫疾患および神経変性疾患、精神疾患、癌。

彼は夏の間、データをダウンロードし、私たちのデータベースに入れ、注釈を付けました — それが症例か対照か、どの疾患で、どの組織であるか。それぞれの病気について、彼は遺伝子のサインを特定しました。それらの署名に基づいて、彼はすべての病気を他のすべての病気と関連付けました。単純な相関関係:1 つの遺伝子がこの疾患で上昇している場合、この他の疾患でも上昇しているか?次に、階層的クラスタリングを行いました。想像できる最も単純なこと。

彼は図 (これらすべての結果を要約したマトリックス) を持ってきてくれました。私はそれを新しい質問のソースとして使用しています。高校生の夏のプロジェクトが、私の研究室のコア研究の方向性を設定しました!

最近の調査結果は?

私の研究室で生物医学情報学の修士号を取得しているスタンフォード外科のレジデントであるティム・スウィーニーは、数年前にこのアプローチを使用して、フローチャートのように、免疫反応の原因を体系的に解明しました。彼は最初にそれを使用して、敗血症と非感染性炎症を区別する遺伝子シグネチャを見つけ、次にそれが細菌感染かウイルス感染かを区別しました。ウイルスだとしたらインフルエンザか何か?細菌性なら結核ですか?また、細菌やウイルスに加えて、感染症は寄生虫によっても引き起こされる可能性があります。最近、マラリアに対する人の反応の遺伝子シグネチャーを特定しました。宿主の免疫応答における遺伝子発現を測定することで、これらすべての疑問に答えることができるようになりました.

昨年 5 月、Tim と私は Inflammatix という会社の設立を支援し、「ダーティ データ」ベースの診断を商品化しました。同社はスタンフォードからこれらの署名のライセンスを取得しており、ダーティ データを真の可能性に活用する方法を開発します。利用可能なデータでできることの表面をなでただけだと思います.

もう一つ。 2014 年の がん研究 論文では、酵素PTK7が肺癌で重要な役割を果たしていることを示しました。そのレベルを下げると、腫瘍は縮小し始めます。当時、PTK7 は「オーファン受容体チロシンキナーゼ」と呼ばれるものでした。体内のどこに結合するかは不明でした。しかし、今年初めにファイザーは、非小細胞肺癌の PTK7 を標的とする薬剤に関するレポートを発表しました。

これらすべては、他の研究者があなたのアプローチを採用するよう説得するように思われます.ありますか?

私が心配していたのは、これを公開した瞬間に、あまりにも多くの人が私たちと競合するのではないかということでした.しかし今ではパブリック ドメインになっており、ほとんど誰も使用していません!

このアプローチについてプレゼンテーションを行うと、改宗者が増えます。しかし、それまでは、先日 Twitter に投稿した次のような助成金に関するレビューを受け取ります。

それが私の挑戦です。どうすれば彼らを納得させることができるでしょうか?



  1. 誘拐と内転の違いは何ですか
  2. アオカケスのメスからオスを見分ける方法
  3. 顔に斑点があるのはなぜですか?
  4. 漫画を見すぎると目が痛くなるのはなぜですか?
  5. ミツバチの絶滅が人類の終わりを意味するのはなぜですか?
  6. フィードバックメカニズム:正および負のフィードバックメカニズムとは?