彼の人工知能は生きている細胞の中を見る|生き物

あなたの高校の生物の教科書は、細胞について間違っていました。原型となる人間の細胞、たとえば多能性幹細胞は、筋肉から神経、皮膚まで、あらゆるものに分化することができますが、きちんとした半透明の球体ではありません。また、ゼラチンにぶら下がったパイナップルの塊のように、内部のパーツが静止していて都合よく離れているわけでもありません。実際には、細胞は、小さすぎるサンドイッチバッグに詰められた半分溶けたゼリービーンズのように見えます.そしてそのコンテンツはすべて、コンピュータチップよりも正確で複雑な振り付けに従って、常に動いています。

要するに、細胞が内部でどのように見えるかを理解することは、ましてやそれらの部分間の無数の相互作用を理解することは、21 世紀の現在でも困難です。「セルを車のような洗練された機械と考えてください。ただし、24 時間ごとに 2 台の車が私道に停車し、その後 4 台の車が私道に停車します」と、Greg Johnson 氏は述べています。アレン細胞科学研究所。「世界で最も賢いエンジニアを見つけて、『それができるマシンを作ってくれ』と言ったら、彼らは完全に困惑するでしょう。細胞がどのように機能するかについて私たちが知っていることがどれだけ少ないかを考えるとき、それが私が考えるものです。」

生きた細胞の内部構造を観察するために、生物学者は現在、遺伝子工学と高度な光学顕微鏡法を組み合わせて使用しています。（電子顕微鏡は細胞内部を非常に詳細に画像化できますが、生きたサンプルではできません。）通常、細胞は、ミトコンドリアや微小管などの特定の細胞内構造に付着する蛍光タンパク質を生成するように遺伝子組み換えされます。蛍光タンパク質は、細胞が特定の波長の光で照らされると光り、関連する構造を視覚的に標識します。ただし、この手法は費用と時間がかかり、一度に観察できる細胞の構造的特徴はごくわずかです。

しかし、ソフトウェアエンジニアリングのバックグラウンドを持つジョンソン氏は、次のように考えました。研究者が人工知能に細胞の内部の特徴を認識して自動的にラベルを付けるように教えることができたらどうでしょうか? 2018 年、彼とアレン研究所の共同研究者たちはまさにそれを行いました。蛍光イメージングサンプルを使用して、ディープラーニングシステムをトレーニングし、12 種類以上の細胞内構造を認識できるようにし、ソフトウェアがこれまで見たことのない細胞内構造を検出できるようにしました。さらに良いことに、一度訓練すると、Johnson のシステムは細胞の「明視野画像」でも機能しました。画像は、通常の光学顕微鏡で「懐中電灯で細胞を照らすような」プロセスで簡単に取得できます、と彼は言いました。

高価な蛍光イメージング実験を行う代わりに、科学者はこの「ラベルフリー測定」を使用して、生きた細胞の内部の忠実度の高い 3 次元動画を効率的に組み立てることができます。

このデータは、理想化された細胞の生物学的に正確なモデルを構築するためにも使用できます。これは、高校の教科書にあるきれいにラベル付けされた図のようなものですが、より科学的に正確です。それが研究所のプロジェクトの目標です。

「これが平均的な細胞であり、それを見て、解剖して、それで遊んでいると言えるようにしたいのです」と Johnson 氏は語った。「しかし、データに基づいているため、予想されるすべてのバリエーションも含まれます。『異常値であるこの[バージョンの]細胞を見てみましょう』と言って、それがどのように構成されているかを尋ねることができます。」

Johnson 氏が細胞内部を可視化するために機械学習を使用したのは、カーネギーメロン大学で 2010 年に始まりました。その直前に、深層学習技術の一連のブレークスルーが人工知能の分野を変革し始めました。ほぼ 10 年後、Johnson は、生細胞イメージングへの AI 拡張アプローチが、非常に正確なソフトウェアモデルにつながり、特定の実験の必要性を減らしたり、完全になくしたりする可能性があると考えています。「可能な限り最も安価な細胞の画像を取得し、その画像からその細胞について可能な限り多くのことを予測できるようにしたいと考えています」と彼は言いました。「どのように組織されていますか？遺伝子発現とは何ですか？その隣人は何をしていますか？私にとって、[ラベルフリーの決意] は、これからのはるかに洗練されたもののプロトタイプにすぎません。」

量子基本的な細胞生物学の課題と顕微鏡における AI の将来について Johnson に話しました。インタビューは、わかりやすくするために要約および編集されています。

生きている細胞の中を見るのが難しい理由は何ですか?

生きている細胞を見たい場合、基本的に 2 つの制限があります。レーザー光で細胞を爆破して、これらの [蛍光タンパク質] ラベルを照らすことができます。しかし、そのレーザー光は光毒性があります — 細胞は基本的に、砂漠の太陽の下で焼かれています.

もう 1 つの制限は、これらのラベルが細胞内の元のタンパク質に付着していて、どこかに行って何かをする必要があることです。しかし、このタンパク質には、この大きなばかげた蛍光分子がくっついています。ラベルが多すぎると、セルの動作が変わる可能性があります。これらの蛍光標識を導入しようとしても、実験がうまくいかないことがあります。ラベルが細胞にとって致命的な場合もあります。

しかし、それが機能する場合、それで十分ではないでしょうか?ここまで来ました。

車としてのセルの比喩に戻ると、完全にガラスでできた車を持っているようなものです。車内にあるものは見えますが、何を見ているのか、どこにあるのかはわかりません。次に、この蛍光分子をラベルとして使用して、車内の 1 つまたは 2 つのパーツを強調します。ドアハンドルが見えたり、車に装着されているタイヤの数が見えたりします。しかし、自分の「車」には車輪が 2 つしかなく、ドアハンドルがないことに気付くことがあります。あなたは、「これが何なのかわからない」と言います。それはオートバイであることが判明しました。いわば、4 つの車輪とドアハンドルを備えたセルしか見たことがなかったため、オートバイが何であるかさえ知りませんでした。

すべてを同時に見ることができる生細胞イメージングを行うことができれば、生物学的宇宙は非常に異なる場所になるでしょう.車を分解し、X 線ビジョンで車を見て、車が走り回るのを見ることができました。ひょっとしたら、自分でエンジンを作ることができるかもしれません。少なくとも、一体何が起こっているのかについて、より良いアイデアが得られるはずです.

深層学習を使用して細胞内にあるものにラベルを付けるようになったきっかけは何ですか?

ディープラーニングを使用してリアルな顔を生成する人々のデモンストレーションを見たとき (2014 年に敵対的生成ネットワークで初めて達成されました)、「ああ、代わりにセルを生成するためにそれを使用できる」と言いました。それが私の仕事です。細胞をモデル化することです。私は、「特定の標識実験から得られた細胞の画像を生成でき、生物学者がそれらの画像が本物かどうかわからなかったらどうなるでしょうか?」と言いました。それができれば、ある意味で、その実験が何をしているかを理解するモデルを構築できたはずです.

それは、実際には存在しないものを見る危険を冒しませんか?

私たちが実際にやろうとしているのは、実験の結果を予測することです。これにより、科学者は興味深いと思う実験に優先順位を付けることができます。

細胞の画像があり、[ソフトウェアが] 細胞内の物体の局在パターンを予測しているとします。たとえば、ミトコンドリアです。ラベルフリーモデルでミトコンドリアを観察すると、ミトコンドリアの局在化の予想される結果が示されます。ミトコンドリアがあると私たちが考える平均的な場所のようなものです.

別の考え方として、これらの細胞を蛍光タンパク質で標識する実際の実験を行いたいとします。しかし、その実験を実行する代わりに、私が持っているのはこれらの非常に安価な明視野顕微鏡画像だけです.そこで、このラベル付け実験の結果を予測するよう機械に依頼します。その後、生成された画像に興味深いものを見つけたら、その実際の実験を実行できます。

それでは、AI を使用して実験に焦点を当てていますか、それとも置き換えていますか?

どちらの答えも正しいと思います。ある科学者は、「実験のポイントは、モデルが間違っていることを証明することです」と言います。私たちの [ディープラーニング] モデルは、蛍光イメージングを使った実験からのデータに完全に基づいてトレーニングされているため、そのモデルがどのように間違っているかを示す新しい実験データを収集するたびに、そのデータをモデルに追加して、

モデルが実験の結果を正しく予測しているか、モデルが次回より良い予測を提供できる新しいデータを取得しているため、これは双方にとって好都合な状況です。

このプロセスを極端に進めると、実行したい実験のパラメーターを入力できる機械学習モデルが完成します。次に、測定しようとしているものを吐き出します。実際にその実験を行って、実際のデータとモデルのデータが同じである場合、生物学とは何かを基本的な意味で理解するモデルができたことになります。

このアプローチは議論の余地がありますか?

2、3 年前までは、人々はそれを見て「信じられない」と言っていました。私は会議に参加して自分の作品を発表し、「このゴミをここから出してください」という趣旨の何かを聞いたことがあります。今では、人々はこの考えにずっと慣れています。細胞生物学イメージングの世界全体で、非常に急速に採用されています。

何が変わったの?

私の博士号この種のことを行うために、主に古典的な統計モデリングを使用していました。これは非常に強力なツールです。しかし、これらの統計ツールは、質的に現実的な細胞の画像を生成できる場合とできない場合があります。細胞内にぼやけた分布を作って、「ここの明るい場所はミトコンドリアがあると思われる場所です」と言うと、人々は「まあ、それはまったく細胞のようには見えません」と言うでしょう。数学と確率がすべて正しかったので、とてもイライラしました.

しかし、[ラベルフリーの決定モデルからの] 最初の画像を見たとき、それらは本物のように見えました。私たちは、細胞のこれらの部分がどこにあるかを実際に見ています。人々のあごが落ちました。その後、アイデアを実行に移しました。

百聞は一見に如かず

ええ、まさに。そして、私たちが明視野画像を使用してそれを行っているという事実は、すべての人を驚かせました。なぜなら、イメージングの世界では、明視野画像はほとんどが使い捨てのデータだからです。通常の光を当てて組織の画像を撮影するとき、それはサンプルが顕微鏡で焦点を合わせているかどうかを判断するためです。その後、それはハードドライブのどこかに移動し、誰もそれを二度と見ることはありません。蛍光分子を使用した実験は費用がかかりますが、明視野画像は基本的に無料です。高価なデータを使用して [ディープラーニング] モデルをトレーニングし、それらのモデルを使用して、撮影した [明視野] 画像の細胞内の場所を予測することで、多くの時間とお金を節約できます。

関心のある細胞のさまざまな部分を認識するために、個別の深層学習モデルをトレーニングする必要があります。他よりもうまく機能するものがありますか?

核やミトコンドリアなどの膜結合オルガネラは、非常に簡単に予測できます。微小管やゴルジ装置など、膜に結合していない他のオルガネラを予測することは非常に困難です。これはほぼ完全に、これらの物体の密度が細胞内の周囲の密度とあまり変わらないという事実と関係があります.

これらの制限をどのように回避していますか?

通常の透過光だけを使用する代わりに、[画像内で] さまざまなレベルのコントラストを得るために光学トリックを使用する偏光またはその他の種類の画像を使用できます。

または、実験を行っていて 3 つの蛍光標識しか使用できない場合、システムがすでに予測に適している構造でそれらを使用することを忘れて、代わりにアクチンや微小管 — 細胞内の細胞骨格構造。

あなたとアレン研究所の他の科学者は、これらのモデルを継続的に改善することができ、「統合セル」はこの作業に基づいています。しかし、アレン研究所以外の科学者もこの方法を使用できますか?

それは私たちの使命全体の大きな部分です。 Google が世界最高の囲碁プレイヤーを打ち負かすために AlphaGo を構築したとき、それには 200 年のゲームプレイの経験がありました。これらのリソースは、おそらく Amazon や Microsoft を除いて、世界中の他の機関ではまったく達成できません。私たちは、他の人々が私たちの細胞株と私たちの技術を研究室での研究に使用できるようにしたいと考えていますが、必ずしも私たちのように洗練されたパイプラインを持っている必要はありません.

私たちが非常に懸命に試みたことの 1 つは、これらのモデルを市販のハードウェア (グラフィックスカードを搭載した通常のコンピューター) で構築することでした。これらのモデルは、通常の実験室で通常の人間が取得できる多数の [トレーニング] 画像を使用して作成されました。すべてのモデルは、[蛍光標識された細胞構造の] 約 30 枚の画像でトレーニングされています。これは、大学院生が研究室で午後 1 時間もかからずにできることです。そして、これを実行できるコンピューターを約 2,000 ドルで構築できます。これは、実験装置に関する限り、かなり安価です。何か役に立つモデルを本当に構築する必要がある場合、それは難しいことではありません。

このテクノロジーの進歩をどのように見ていますか?将来、AI の助けを借りて細胞生物学者に何を見てもらいたいですか?

私たちができるようにしたいのは、細胞の動画を撮り、内部構造間の関係が予測的な意味でどのように変化するかを観察することです.

例えば、微小管とDNA。細胞が 2 つに分裂すると、通常は細胞の形状を維持する微小管が DNA を取り込み、細胞の両側の 2 つのコピーに引き離します。この現象はよく知られています。これは、細胞生物学者がこれまでに見た最初のものの 1 つです。しかし、これら 2 つの構造の間には信じられないほど微妙な関係がたくさんあります。これらの最先端のコンピュータービジョンと機械学習手法を使用して、これらの構造間の関係を自動的に分析できるようにしたいと考えています。

これは画像データだけですか?

いいえ、制限する必要はありません。細胞のあらゆる種類の信号と測定値を取得し、それらの相互関係をモデル化できます。ガラス車の比喩を再び使用すると、内部のすべての部品が明確にラベル付けされているだけでなく、走行距離、組み立て時期、それらの部品の古さ、使用済みかどうかもわかります。置き換えられた — そういうもの。

この [テクノロジー] は、顕微鏡用のデータ駆動型のヘッドアップ仮想現実ディスプレイと考えることができます。細胞内で測定できるもの、または測定値のペアは、互いに関連付けることができます。 5 年または 10 年ごとに、科学者は新しい測定方法を考え出します。そしてそれは、生物学、あるいは科学全般に対する私たちの考え方を完全に変えてしまいます。科学者が組織サンプルを見ているときに、このディスプレイを表示して、細胞に関するあらゆることを予測してもらいたいのです。