ゲノムの真実の統計的検索|生き物

「生物学には多くのグラウンドトゥルースがありません。」プリンストン大学のコンピューター科学者である Barbara Engelhardt 氏によると、これは、ゲノムデータを分析するために従来の機械学習手法を準備しようとする際に、研究者が直面する多くの課題の 1 つにすぎません。人工知能と機械学習の技術は、生物学研究の状況を劇的に変えていますが、エンゲルハルトは、これらの「ブラックボックス」アプローチだけでは、病気の理解、診断、治療に必要な洞察を提供するには不十分だと考えています。代わりに、彼女は予想される生物学的パターンを検索して、ゲノムの本当の、しかしとらえどころのない「グラウンドトゥルース」をマッピングする新しい統計ツールを開発しています。

Engelhardt はこの努力を探偵の仕事になぞらえています。それは、隠れた宝石を見つけるために、遺伝的変異のコンステレーションや破棄されたデータさえも調べなければならないからです。たとえば、昨年 10 月に発表された研究では、彼女は自分のモデルの 1 つを使用して、44 のヒト組織の他の染色体上の遺伝子 (遠位遺伝子と呼ばれる) の調節に変異がどのように関係しているかを判断しました。他の発見の中で、結果は甲状腺癌治療のための潜在的な遺伝子標的を示しました。彼女の研究は同様に、突然変異と遺伝子発現を病理画像に見られる特定の特徴に関連付けました。

Engelhardt の研究の応用は、ゲノム研究にとどまりません。たとえば、彼女は別の種類の機械学習モデルを構築しました。これは、患者を人工呼吸器から外して自力で呼吸できるようにする時期について医師に推奨するものです。

彼女は、彼女の統計的アプローチが、臨床医が特定の状態を早期に発見し、その根底にあるメカニズムを解き明かし、症状ではなく原因を治療するのに役立つことを願っています. 「私たちは病気の解決について話しているのです」と彼女は言いました。

この目的のために、彼女は、遺伝子の調節、発現、および変異が健康な表現型と疾患の両方にどのように寄与するかを研究する国際共同研究である遺伝子型組織発現 (GTEx) コンソーシアムの主任研究員として働いています。現在、診断と治療が困難な精神神経疾患および神経変性疾患の研究に特に関心を持っています。

クォンタマガジン は最近、生物学的データに適用した場合のブラックボックス機械学習の欠点、それらの欠点に対処するために彼女が開発した方法、および興味深い情報を明らかにするためにデータ内の「ノイズ」をふるいにかける必要性について、Engelhardt と話しました。インタビューは、わかりやすくするために要約および編集されています。

生物学の問題に機械学習の研究を集中させた理由は何ですか?

私は常に統計と機械学習に興奮していました。大学院で、私のアドバイザーである [カリフォルニア大学バークレー校] のマイケルジョーダンは、次のようなことを言いました。やる気を起こさせるアプリケーションについて考える必要があります。」私はすぐに生物学に目を向けました。それ以来、私の研究を駆り立てる問題のほとんどは統計学ではなく生物学的なものです。病気の遺伝学と根底にあるメカニズムを理解し、より良い診断と治療につながることを願っています.しかし、自分がいる分野 (読んだ論文、出席した会議、教えているクラス、指導している学生) について考えるとき、私の学問的焦点は機械学習と応用統計学です。

ゲノムマーカーと疾患リスクとの間には多くの関連性があることがわかっていますが、いくつかのケースを除いて、これらの関連性は予測的ではなく、疾患の診断、標的化、および治療の方法を理解することはできませんでした。病気のリスクに関連する遺伝子マーカーは、多くの場合、病気の真の原因マーカーではありません.1つの病気には多くの遺伝的原因が考えられます.複雑な病気は、環境と相互作用する可能性のある非常に多くの遺伝子マーカーによって引き起こされる可能性があります.これらはすべて、統計遺伝学と機械学習のバックグラウンドを持つ人が、ウェットラボの科学者や医師と協力して取り組み、解決できる課題です。つまり、症状だけでなく、原因でもある遺伝病を実際に治療できるということです。

あなたは以前、ゲノミクスやヘルスケアへの応用には従来の統計的アプローチでは十分でないことについて話しました。なぜですか?

第一に、解釈可能性の欠如のためです。機械学習では、「ブラックボックス」手法、つまり [分類アルゴリズムと呼ばれる] ランダムフォレスト、またはより深い学習アプローチをよく使用します。しかし、それらは、特定の細胞タイプでどの遺伝子が異なって調節されているか、またはどの突然変異が病気のリスクを高めるかを理解するために、ボックスを「開く」ことを実際に許可するものではありません.生物学的に何が起こっているのかを理解することに興味があります。理由を説明せずに答えを与えるものをただ持つことはできません。

これらの方法の目的はしばしば予測ですが、人の遺伝子型が与えられた場合、2 型糖尿病になる確率を推定することは特に有用ではありません。彼らがどのようにして 2 型糖尿病になるのか知りたいです。どの突然変異がどの遺伝子の調節不全を引き起こし、状態の発症につながるのか.私が尋ねている質問には、予測だけでは不十分です。

2 つ目の理由は、サンプルサイズに関係しています。統計の駆動アプリケーションのほとんどは、興味深い構造を持つ限られた数の機能や観察を使用して、膨大な数のデータサンプル (たとえば、受信トレイに届く Netflix ユーザーや電子メールの数など) を処理していることを前提としています。しかし、生物医学データに関して言えば、それはまったくありません。代わりに、病院にいる患者の数は限られており、配列決定できる遺伝子型の数も限られています。その結果、統計からの多くの理論的および応用的アプローチは、ゲノムデータには使用できません。

ゲノムデータの分析が難しい理由は何ですか?

生物医学データの最も重要な信号は、多くの場合、信じられないほど小さく、技術的なノイズに完全に圧倒されます。それは、実際の生物学的信号 (データについて尋ねようとしている質問) をどのようにモデル化するかだけでなく、気にしないものによって駆動されるこの信じられないほど手に負えないノイズの存在下でそれをどのようにモデル化するかも重要です。個人がどの集団から来たか、またはどの技術者がラボでサンプルを実行したかなどについて。そのノイズを注意深く取り除く必要があります。また、データを使用して答えを出したい質問がたくさんあることがよくあります。答えを見つけるには、非常に多くの統計テスト (文字通り数兆回) を実行する必要があります。たとえば、ゲノムの変異と対象の形質との関連を特定する場合、その形質は組織内の特定の遺伝子の発現レベルである可能性があります。では、信号が非常に小さく、時にはノイズとの区別が非常に難しい場合に、厳密で堅牢なテストメカニズムを開発するにはどうすればよいでしょうか?存在するとわかっているこのすべての構造とノイズをどのように修正すればよいでしょうか?

では、代わりにどのようなアプローチを取る必要があるでしょうか?

私のグループは、疎潜在因子モデルと呼ばれるものに大きく依存していますが、これは数学的に非常に複雑に聞こえる可能性があります。基本的な考え方は、これらのモデルは、サンプルで観察されたすべての変動を、非常に少数の特徴のみに関して分割するということです。これらのパーティションの 1 つには、たとえば 10 個の遺伝子、または 20 個の突然変異が含まれる場合があります。そして、科学者として、これらの 10 個の遺伝子を調べて、それらに共通するものを見つけ出し、サンプル分散に影響を与える生物学的シグナルに関して、この特定の区分が何を表しているかを判断できます.

したがって、私はこれを 2 段階のプロセスと考えています。まず、変動のすべての原因を可能な限り慎重に分離するモデルを構築します。次に、科学者として、これらすべてのパーティションが生物学的シグナルの観点から何を表しているかを理解します。この後、他のデータセットでこれらの結論を検証し、これらのサンプルについて他にわかっていることを検討できます (たとえば、同じ年齢の全員がこれらのパーティションのいずれかに含まれているかどうかなど)。

「科学者として参加する」とはどういう意味ですか?

私は特定の生物学的パターンを見つけようとしているので、多くの構造を持つこれらのモデルを構築し、予想されるシグナルの種類について多くのことを含めます。足場、つまりデータが何を示しているか、どのパターンが存在するかどうかを教えてくれるパラメーターのセットを確立します。モデル自体にある程度の表現力しかないので、特定の種類のパターンしか見つけることができません。私が見た限りでは、既存の一般モデルは、生物学的に解釈できる信号を見つけるのにうまく機能していません。多くの場合、生物学的に最も影響力のある分散の原因とは対照的に、データ内の分散の最大の影響要因を決定するだけです。代わりに、私が構築する足場は、データを記述するために可能なパターンの非常に構造化された非常に複雑なファミリーを表しています。次に、データがその足場を埋めて、その構造のどの部分が表され、どの部分が表されていないかを教えてくれます。

したがって、一般的なモデルを使用する代わりに、私のグループと私はデータを注意深く見て、生物学的観点から何が起こっているかを理解しようとし、どのようなパターンが見られるかに基づいてモデルを調整します.

潜在因子モデルは実際にどのように機能しますか?

これらの潜在因子モデルの 1 つを、がんの診断によく使用される病理画像 [顕微鏡下での組織切片の写真] に適用しました。すべての画像について、それらの組織で発現する一連の遺伝子に関するデータも取得しました。画像と対応する遺伝子発現レベルがどのように調整されているかを確認したかった.

深層学習手法を使用して、ピクセルレベルの値だけでなく、画像内のパターンも特定することで、各画像を説明する一連の特徴を開発しました。各画像から 1000 を超える特徴を引き出し、ギブオアテイクし、潜在因子モデルを適用して、非常に興味深いものを見つけました。

たとえば、脳内の免疫細胞の存在を説明するこれらのパーティションの 1 つで、一連の遺伝子と機能を発見しました。必ずしもこれらの細胞が病理画像に表示されるとは限りませんが、私たちのモデルを見ると、脳細胞ではなく、免疫細胞に関連する遺伝子と機能のみを表すコンポーネントがそこにあることがわかりました。私の知る限り、この種の信号はこれまで誰も見たことがありません。しかし、これらの潜在因子コンポーネントを見ると、非常に明確になります。

あなたは、特定の遺伝的変異が複雑な形質の形成にどのように役立つかを解明するために、数十種類のヒト組織を研究してきました。あなたの方法はどのような洞察をもたらしましたか?

449 人の死体から提供された 44 の組織とその遺伝子型 (全ゲノムの配列) がありました。これらの遺伝子型がそれらすべての組織で遺伝子を発現する方法の違いについてもっと理解したいと思ったので、ゲノムのすべての変異と各組織で発現するすべての遺伝子を1つずつ比較して、3兆以上のテストを行いました. (現在使用しているコンピューティングクラスターで多くのテストを実行するには、約 2 週間かかります。この GTEx のイテレーションを計画どおりにクラウドに移行すると、約 2 時間かかると予想されます。) [mutant] 遺伝子型が遠位の遺伝子発現を促進していた。言い換えれば、私たちは、それらが調節している遺伝子と同じ染色体上に位置していない突然変異を探していました.あまり多くは見つかりませんでした。これらの遠位関連は 600 以上ありました。彼らの信号は非常に低かった.

しかし、シグナルの 1 つが強力でした。刺激的な甲状腺関連で、変異が 2 つの異なる遺伝子を遠位で調節しているように見えました。私たちは自分自身に問いかけました:この突然変異は、ゲノムの完全に異なる部分の発現レベルにどのように影響しますか?ジョンズ・ホプキンス大学の Alexis Battle の研究室と協力して、ゲノム上の突然変異を調べたところ、FOXE1 と呼ばれる遺伝子が見つかりました。、ゲノム全体の遺伝子の転写を調節する転写因子。 FOXE1 遺伝子は甲状腺組織でのみ発現しており、これは興味深いものでした。しかし、変異体の遺伝子型と FOXE1 の発現レベルとの間に関連性は見られませんでした .そのため、FOXE1 タンパク質がゲノムに及ぼす影響を広く検出できるかどうかを確認するために、以前に削除した元の信号の構成要素 (技術的な人工物と思われるものすべて) を調べなければなりませんでした。

削除した技術的アーティファクトに、FOXE1 の大きな影響が見られました。 FOXE1 は、甲状腺でのみ多数の遺伝子を調節しているようです。その変化は、我々が見つけた変異遺伝子型によって引き起こされます。また、その遺伝子型は甲状腺がんのリスクとも関連しています。甲状腺がんのサンプルに戻り、がんゲノムアトラスから約 500 のサンプルを取得し、遠位関連シグナルを複製しました。これらのことは説得力のあるストーリーを語っていますが、削除したシグナルを理解しようとしない限り、それを学ぶことはできなかったでしょう.

そのような関連付けにはどのような意味がありますか?

現在、甲状腺がんの発生と甲状腺細胞の調節不全の特定のメカニズムがあります. FOXE1 が創薬可能な標的である場合 — 戻って FOXE1 の発現を増強または抑制する薬の設計について考えることができれば — その後、甲状腺がんのリスクが高い人が甲状腺がんにかかるのを予防したり、甲状腺がんの人をより効果的に治療したりすることが期待できます.

FOXE1 のような広範な効果の転写因子からのシグナルは、実際には、ノイズの一部として通常除去する効果、つまり集団構造、サンプルが実行されたバッチ、または年齢や性別の効果によく似ています。これらの技術的影響の多くは、ほぼ同数の遺伝子 (約 10%) に同様の方法で影響を与えます。そのため、通常、そのパターンを持つシグナルを削除します。ただし、この場合、作業しているドメインを理解する必要がありました。科学者として、取り除いたすべてのシグナルを調べた結果、FOXE1 の影響を見つけることができました。そこに強く現れます。手作業と生物学的背景からの洞察が必要でしたが、より自動化された方法でそれを行う方法を開発する方法を考えています.

つまり、従来のモデリング手法では、実際の生物学的効果の多くがノイズに似ているために失われているのでしょうか?

はい。興味深いパターンとノイズが似ているケースは山ほどあります。これらの遠方への影響を考えてみましょう:それらが広範な影響である場合、それらのほとんどすべては、私たちが体系的に取り除くノイズ信号のように見えます。方法論的に難しいです。シグナルが生物学的に関連するものなのか、単なるノイズなのかをどのように特徴付け、その 2 つをどのように区別するかについて、慎重に検討する必要があります。私のグループは、それを解明するためにかなり積極的に取り組んでいます.

これらの関係をマッピングするのが非常に難しいのはなぜですか?また、それらを探す理由は何ですか?

やらなければならないテストはたくさんあります。発見の統計的有意性のしきい値は、非常に高くなければなりません。これは、多くの場合非常に小さいこれらの信号を見つけるのに問題を引き起こします。私たちのしきい値がそれほど高い場合、それらの多くを見逃すことになります.そして生物学的には、これらの実際に広範囲に影響を与える遠位信号の多くが存在することは明らかではありません.自然淘汰によって、遺伝子の 10% に影響を与える種類の突然変異が排除されることは想像に難くありません。これほど多くの遺伝子の個体群にそのような変動性が生じることは望ましくありません。

しかし、これらの遠位関連が病気に大きな役割を果たしていること、そしてそれらが薬にできる標的と見なされる可能性があることは疑いの余地がないと思います.それらの役割を広く理解することは、人間の健康にとって非常に重要です。

この記事は Wired.com に転載されました。