>> 自然の科学 >  >> 生き物

彼女の機械学習ツールは細胞画像から洞察を引き出す


本を表紙で判断することはできません。つまり、私たちは人について教えられています。しかし、細胞については、驚くほど当てはまりません。生物学者は、コンピューターが顔を認識できるようにする方法と同様の機械学習方法を使用して、顕微鏡画像のスタックで個々の細胞を特徴付けることができます。タグ付けされたタンパク質の分布、核の形状、ミトコンドリアの数など、何千もの視覚化可能な細胞特性を測定することにより、コンピューターは細胞の画像をマイニングして、細胞の種類や疾患に関連する形質を特定するパターンを見つけることができます。この種の画像ベースのプロファイリングは、細胞の特性を望ましく変更する化合物のスクリーニングを改善することで、創薬を加速しています。

計算生物学者であり、マサチューセッツ工科大学ブロード研究所およびハーバード大学のイメージング プラットフォームのシニア ディレクターであるアン カーペンターは、この研究アプローチのパイオニアです。彼女は、細胞画像から表現型 (観察可能な形質のセット) を測定するために広く使用されているオープンソース ソフトウェアである CellProfiler を開発しました。 2005 年のリリース以来、12,000 以上の出版物で引用されています。

これは、細胞生物学者としてのトレーニング中のサイド プロジェクトとして始まりました。これは、カーペンターが必要とする「何かを行うための小さなコードの断片」と呼ばれるもので、時間の経過とともに、他の研究者も役立つツールボックスに成長しました。 「ポスドクの終わりに近づく頃には、私自身の特定の生物学的問題を追求するよりも、ツールを作成することで他の人がクールな生物学を達成するのを助ける方がはるかに良いことに気づきました」と彼女は言いました. 「それが私がコンピュータ サイエンスにとどまる理由です。」

マサチューセッツ科学アカデミーのフェローであるカーペンターは、国​​立衛生研究所の MIRA 賞、国立科学財団の CAREER 賞、米国細胞生物学会の 2020 Women in Cell Biology Mid-Career 賞などを受賞しています。

Carpenter が Quanta Magazine と話しました 厄介な生物学をコンピューターで解決可能な問題に変換する喜び、1 つの井戸で 200 の病気の薬をスクリーニングするという野心的な取り組み、そして謙虚で好奇心旺盛で、自分の専門分野以外の人々とコミュニケーションをとることができる研究者がどのようにして社会を改善する文化を生み出すことができるかについて。計算生物学と機械学習の多様性。インタビューは、わかりやすくするために要約および編集されています。



コンピューター サイエンティストはそのスキルを生物学に応用しましたが、あなたはあまり一般的ではない生物学からソフトウェア エンジニアリングへの道を歩みました。動機は何ですか?

移行は必要に迫られて生まれました。 2000 年代初頭にイリノイ大学アーバナ シャンペーン校で細胞生物学の博士号を取得していたとき、真核細胞の DNA とタンパク質の複合体であるクロマチンが、エストロゲン受容体を通過したシグナルにどのように反応するかを研究していました。これには、何千もの顕微鏡画像をキャプチャする必要がありました。手作業だと何ヶ月もかかっていたでしょう。顕微鏡を自動化する方法を見つけられたら素晴らしいと思いました.

私はコンピュータ サイエンスの正式なトレーニングを受けていませんでした。顕微鏡のプログラミング方法を理解するのに約 1 か月かかりましたが、非常に退屈な方法で手動で画像を収集する時間が 2 か月節約されました。

また、新たな課題も生まれました。分析する画像の山が膨大になりました。コードをコピーして貼り付けるのにさらに何ヶ月も費やし、それを理解していきました。

しかし、画像解析をいじってみると、夢中になりました。厄介で定性的な生物学を正確で定量的な数値に変えることができたのはとても満足のいくものでした.私は、ハイスループット イメージングに取り組むことで生物学を加速できるポスドクの職を探すことにしました。

最近のエッセイで、あなたは生物学を「厄介」であると同時に「論理パズル」でもあると表現しています。それについてもう少し話していただけますか?

生物学はかなり厄介です。何かを理解するのは本当に難しいです。 A が B を活性化し、それが C を活性化し、C が D を抑圧する、などと期待するでしょう。しかし実際には、フィードバック、複数の入力、代替経路など、奇妙で不正確な関係が非常に多く、細胞内で進行しています。

しかし、生物学は論理パズルだとも信じています。私たちができる最善のことは、テストしているモデル システムを制約することです。次に、それを摂動させたり、入力と出力を測定したりできます。生物学に多くの制約を課すことで、生物学をそれほど厄介なものに変えることができます。

ホワイトヘッド研究所でのポスドク時代に、最終的に CellProfiler になったものに取り組み始めました。どのように進めましたか?

私は自分のプロジェクトに本格的な新しいコードが必要だと気づいたので、試行錯誤しながらプログラミングを学びました。しかし、従来の画像処理アルゴリズムのいくつかを実装するには、やはり助けが必要でした。論文を読んで、「これこそまさに私が必要としているものだ」と言いましたが、論文の方程式をコードに変換する方法がわかりませんでした。

私は MIT のコンピューター サイエンスおよび人工知能研究所の大学院生リストに電子メールを送り、次のように尋ねました。私はいくらかのフェローシップのお金を持っています。」 Thouis (Ray) Jones が応答し、ある週末にコア アルゴリズムを実装しました。それらは非常に革新的であり、CellProfiler が成功した理由の中核を形成しました。それにより、これらのアルゴリズムをエンド ユーザーが利用できるようになりました。

さまざまな細胞の表現型の違いを大規模に定量化することにより、CellProfiler は「画像ベースのプロファイリング」に使用できます。どのようにしてこのアイデアを思いつきましたか?

人々は私たちのところに来て、こう言いました。これは、細胞内のタンパク質を標識するための私の特別な抗体です。核内に私のタンパク質がどれくらい存在するか教えていただけますか?」もちろん、画像分析を使えば、彼らが求めたものは何でも測定できました.

しかし、画像を見て、「タンパク質の質感が変化していることにも気づきましたか?それとも、実際には内部よりも核の端にあるのでしょうか?そして、この染色とその染色の間に共局在が見られます。そして、細胞の全体的な形が変化しています。それは生物学的に意味がありますか?」生物学者がテーブルに残していた情報がたくさんありました!

そのとき、2004 年の Science に触発されました。 この論文では、研究者がさまざまな化合物セットで処理された細胞に対して画像ベースのプロファイリングを実行しました。彼らは、機能的に類似した化合物で処理された細胞は似ている傾向があることを示しました — 化合物は細胞に同様の影響を与えました.感動的でした。謙虚で美しい細胞の画像は、細胞がどのような薬で処理されたかを知るのに十分な定量的情報を持っているのでしょうか?この論文は、画像ベースのプロファイリングの分野を実際に立ち上げました。



このプロファイリングには何が含まれますか?

細胞の外観についてできる限りの測定を行います。私たちは、細胞の構造と全体的な外観がその歴史、つまり環境によってどのように扱われてきたかを反映しているという基本的な観察に基づいて構築しています.画像が細胞の状態を反映している場合、これらを定量化してスケールアップできれば、それらのパターンを探すことが非常に役立つはずです.

どこから持ってきたの?

生物学者が特別に染色することを決定したものに頼るのではなく、できるだけ多くの情報を単一のアッセイに詰め込むのに役立つセルペインティングを考案しました。セル ペインティング アッセイでは、6 つの蛍光色素を使用して、核、核小体、細胞質 RNA、小胞体、ミトコンドリア、原形質 (細胞) 膜、ゴルジ複合体、および F-アクチン細胞骨格の 8 つの細胞成分またはオルガネラを明らかにします。これは、薬物や遺伝子変異など、あらゆる種類のストレッサーに反応する細胞の部分を示しているため、顕微鏡学者のお気に入りの色素のヒット リストのようなものです。

それでも、画像ベースのアッセイが、RNA 転写産物やタンパク質に基づくプロファイリングほど強力になるとは思っていませんでした。 1 回の実験で、数千の転写物または数百のタンパク質を測定できます。それでも、特定の画像に対してほんの一握りの汚れしかありません。どこまで行けるかな?

初期の頃は、アーティファクトを排除し、メソッドを改善して、本当に価値があるかどうかを確認しようとして、多くの睡眠を失いました.しかし、その後の 10 年ほどの間に、プロファイリングの方法で画像を使用することに基づいて、次々と発見がもたらされました。

今日、機械学習は画像から多くの情報を抽出できます。これらのアルゴリズムは、2005 年にリリースされた CellProfiler のオリジナル バージョンの一部でしたか?

全くない。 CellProfiler の機能は、従来の画像処理アルゴリズムに画像の特性を測定させることで、画像を数値に変換することでした。機械学習が 3 つの方法で登場したのは、後になってからのことです。

まず、機械学習は細胞やその他の細胞内構造の境界を見つけることができます。ディープ ラーニング アルゴリズムはより正確になりましたが、多くの場合、生物学者が適用しやすくなりました。これは、両方の長所を備えています。

次に、CellProfiler がセルごとに 1000 個の特徴を抽出するとします。細胞が転移性かどうかを知りたい場合、およびそれが目で認識できる表現型である場合は、教師あり機械学習を使用して、それらの特徴に基づいて転移性細胞と非転移性細胞がどのように見えるかをコンピューターに教えることができます。

3 番目の方法は、ごく最近開発されたものです。 CellProfiler を使用して細胞を識別し、その特徴を抽出するのではなく、すべての生のピクセルの栄光で画像全体を深層学習ニューラル ネットワークに与えるだけで、細胞に必ずしもうまくマッピングされないあらゆる種類の特徴が抽出されます。細胞の大きさや核内で赤く染まる可能性のあるものなど、関連する機能に関する生物学者の先入観。この種の特徴抽出は非常に強力であることがわかっています。



機械学習という、生物学者にとっては非常に異質で気が遠くなるような分野であることにどのように慣れましたか?

大学生のアンに、「今から 22 年後、あなたは AI に焦点を当てた研究グループを率いることになるでしょう」と言っていたら、私はあなたが正気ではないと言っただろう。機械学習の専門家、特にジョーンズと友達にならなければ、この機械学習への移行は不可能だったでしょう。

彼と私は MIT でのトレーニングを終えた後、2007 年にブロード研究所で一緒に研究室を立ち上げ、機械学習が生物学者にどのように役立つかについて多くのブレインストーミングを行いました。これらのアイデアの浸透と発展を可能にしたのは、私たちがフェンスを飛び越えて、生物学とコンピューター サイエンスの両方の用語と力に慣れたことです。本当に生産的なパートナーシップです。

そして、それはもはやジョーンズだけではありません。私のグループは、生物学側と計算側の関係者で約 50 ~ 50 人です。

あなたは学際的な仕事を促進する上で多くの成功を収めています.

人をまとめるのが好きです。私の研究室は、好奇心旺盛でさまざまなアイデアを持っている人を歓迎します。これは、「私たちは重要であり、私たちは自分たちのことを行い、嘲笑されたくない限り質問しない」という有毒な技術仲間の文化とは正反対です。コンピューター サイエンスの分野で女性になるのは難しいと気づいたとき、科学全般において人種的少数派になるのははるかに難しいことにすぐに気付きました.

私たちは、その人がグループを補完するスキルと興味を持っているかどうか、自分のドメイン以外の分野に興味があるかどうか、同じトレーニングを受けていない人々とうまくコミュニケーションできるかどうかに焦点を当てます.そして、明示的に試みなくても、私の研究室は一流の機関の計算研究室の平均よりもはるかに多様でした.また、私の卒業生が立ち上げた独立したラボの大部分は、女性やマイノリティ グループの人々によって率いられています。

自分は人種差別主義者でも性差別主義者でもないと思っている人がどれほどいるのだろうか。一緒にビールを飲みたくなるような人です。」人口統計だけでなく、ドメインの専門知識と経験においても均一なグループになる方法がわかります。

最近、あなたのグループは創薬を加速するための画像ベースのプロファイリング ツールの開発に注力しています。なぜそれを選んだのですか?

いくつかの証拠がその使命を固めるのに役立ちました。 1 つは、画像ベースのプロファイルが転写プロファイルと同じくらい強力である可能性があることを示した 2014 年の直接的な実験から得られました。

もう 1 つは、2017 年の eLife で説明されました。 この論文では、細胞内で数百の遺伝子を過剰発現させ、それらの半分が細胞の形態に影響を与えることを発見しました。画像データに基づいて遺伝子をグループ化することで、生物学者が何十年もかけてさまざまなシグナル伝達経路をまとめ上げてきたものを 1 つの美しいクラスター分析で確認できます。そこには、組織の成長を調節する Hippo 経路の遺伝子などがあります。

そのビジュアライゼーションを見て、1 回の実験 (おそらく数週間の作業) で、この一連の遺伝子に関する多くの生物学的知識を再構成したことに気づきました。これにより、この研究軌道の開発により多くの時間とエネルギーを投資することを決定しました.

2018 Cell Chemical Biology Janssen Pharmaceutica の研究者は、以前の実験で使用されていた画像を掘り起こしました。その画像には、同社が実施した他のアッセイの結果を予測するのに十分な情報が含まれていることがよくありました。分析結果の約 37% は、横たわっている画像を使用して機械学習によって予測できました。これは本当に大手製薬会社の注目を集めました!大規模な薬物分析を計算クエリに置き換えることで、毎回数百万ドルを節約できます。

私が 2019 年に立ち上げを支援したコンソーシアムでは、12 万を超える化合物で処理され、20,000 の遺伝的摂動にさらされた細胞の巨大なセル ペインティング データセットの作成に取り組んでいます。目標は、臨床試験に入る前に潜在的な薬の作用機序を決定することにより、創薬をスピードアップすることです.

画像ベースのプロファイリングが新薬の発見にどのように役立つかの例は?

Recursion Pharmaceuticals は、画像ベースのプロファイリングの使用が最も進んでいる企業であり、4 つの薬剤化合物が臨床試験に入っています。私は彼らの科学諮問委員会に参加しています。彼らの基本的なアプローチは、人間の病気を引き起こすことが知られている遺伝子を混乱させ、その結果として細胞に何が起こるかを見てみましょう.また、細胞が何らかの測定可能な方法で変化する場合、不健康に見える細胞を健康に戻す薬を見つけることができるでしょうか?

彼らはそれをさらに一歩進めました。細胞で薬をテストすることさえしなくても、細胞に対する化合物の影響を示す以前のテストに基づいて、どの疾患の表現型がどの化合物によって軽減されるかをコンピューターで予測できます。この戦略がうまくいくことはわかっています。なぜなら、私のラボは、プレプリントしたばかりのプロジェクトで同じことに取り組んできたからです。ただし、比較的原始的な計算技術を使用しています。

私は MIT と J.T. で Paul Blainey と共同研究を行ってきました。ブロード研究所のニールは、細胞内の遺伝的摂動の束を混ぜ合わせ、バーコーディングを使用して、どの細胞がどの遺伝子試薬を取得したかを把握できるようにするこの遺伝的バーコーディング技術について説明しました.これにより、200 の正常なヒトタンパク質と 200 の変異したヒトタンパク質を 1 つのウェルに混ぜて、薬で治療することができます。各ウェルについて、この薬がこれら 200 の疾患のいずれかに役立つかどうかをテストしています。したがって、200 の個別の薬物スクリーニングを行うよりも 200 分の 1 の費用がかかります。

私たちは、80 種類の薬でパイロットを行うための内部資金を得ており、約 6,800 種類の薬をテストするための資金を求めています。これをうまく行えば、今から約 1 年後に、この実験の結果から、医師が論文を読んだ後にこれらの疾患に処方できる実際の薬が示唆されるかもしれません。

生物医学研究における画像ベースのプロファイリングの将来について、またおそらくより広義には、この領域における AI の将来について、どのようなことにワクワクしますか?

私たちはすでに、既存の機械学習手法を実装することで創薬プロセスが改善される段階に来ています。しかし、画像ベースのプロファイリングの現在の機能を超えて、飛躍的に飛躍的に向上し始める未来が見えます.

私たちが使用しているすべての機械学習アルゴリズムは、ソーシャル メディアが顔を識別したり、金融機関が異常な取引を識別したりするために開発されました。特に生物学的ドメインと細胞画像にもう少し注意を払うことで、物事をより速く進めることができると思います.



  1. 2つが1つになった方法:発見された謎の共生の起源
  2. ラクダのこぶには何がありますか
  3. 鳥はなぜ渡りをするのか
  4. 水生動物と陸生動物の違い
  5. カニは何を食べますか?
  6. ダチョウはなぜ飛べないのですか?