>> 自然の科学 >  >> 生き物

機械知能が遺伝子制御を破る


体内のすべての細胞は、タンパク質を構築する DNA にエンコードされた命令セットである同じゲノムを読み取ります。しかし、あなたの細胞はこれ以上の違いはありません。ニューロンは電気メッセージを送り、肝細胞は化学物質を分解し、筋肉細胞は体を動かします。細胞はどのようにして同じ基本的な遺伝的命令セットを使用して、独自の特殊なタスクを実行するのでしょうか?その答えは、タンパク質がどのように作られるかを制御する複雑で多層的なシステムにあります.

これまでのほとんどの遺伝子研究は、タンパク質をコードする領域であるゲノムのわずか 1% に焦点を当ててきました。しかし、本日 Science に掲載された新しい研究は、このタンパク質構築プロセスを調整するゲノムのセクションの初期マップを提供します。 「本を持っていることは 1 つのことです。大きな問題は、本をどのように読むかです」と、新しい研究を率いたトロント大学の計算生物学者であるブレンダン フレイは言いました。

Frey は、パン屋が使用する可能性のあるレシピとゲノムを比較します。すべてのレシピには、小麦粉、卵、バターなどの材料のリストと、それらの材料をどうするかの説明が含まれています。細胞内では、成分はタンパク質をコードするゲノムの一部です。それらを囲むのは、それらの成分をどのように組み合わせるかについてのゲノムの指示です.

小麦粉、卵、バターが何百もの異なる焼き菓子に変わるように、遺伝子構成要素はさまざまな構成に組み立てることができます.このプロセスは選択的スプライシングと呼ばれ、細胞が単一の遺伝子コードからそのような多様性を作り出す方法です。 Frey と彼の同僚は、洗練された形式の機械学習を使用して、この命令セットの突然変異を特定し、それらの突然変異がどのような影響を与えるかを予測しました。

研究者らは、自閉症のリスク遺伝子の可能性をすでに特定しており、がん関連遺伝子の突然変異が有害かどうかを予測するシステムに取り組んでいます。 マサチューセッツ工科大学の計算生物学者である Chris Burge 氏は次のように述べています。 .

しかし、この研究の真の意義は、これまで解釈が非常に難しかった DNA の膨大な部分を探索するために提供される新しいツールからもたらされる可能性があります。多くのヒト遺伝学研究では、タンパク質を生成するゲノムのごく一部しか配列決定されていません。テキサス州ヒューストンにあるベイラー医科大学の生物学者であるトム・クーパーは、「これは、全ゲノムの配列も重要であるという議論になります」と述べています。

レシピを読む

スプライシング コードは、タンパク質を生成しない領域である非コード ゲノムの一部にすぎません。しかし、それは非常に重要なものです。遺伝子の約 90% が選択的スプライシングを受けており、科学者は、スプライシング コードのバリエーションがすべての疾患関連突然変異の 10 ~ 50% を占めると推定しています 「規制コードに変異があると、事態は大きく悪化する可能性があります」と Frey 氏は述べています。

「人々は歴史的に、タンパク質コード領域の突然変異にある程度注目してきました。なぜなら、これらの突然変異が何をするかについてはるかによく理解しているからです。 「タンパク質をコードする領域以外の [DNA 配列] をよりよく理解するにつれて、疾患に関してそれらがどれほど重要であるかをよりよく理解できるようになるでしょう。」

科学者たちは、細胞が特定のタンパク質構成をどのように選択するかを理解するためにある程度の進歩を遂げましたが、このプロセスを支配するコードの多くは謎のままです. Frey のチームは、2010 年に発表された論文でこれらの調節領域の一部を解読し、スプライシングを調節するマウスゲノム内の大まかなコードを特定することができました。過去 4 年間で、遺伝学データ、特にヒトのデータの質は劇的に向上し、機械学習技術はより洗練されたものになり、Frey と彼の共同研究者は、世界中の多くの部位での特定の突然変異がスプライシングにどのように影響するかを予測できるようになりました。ヒトゲノム。 MIT の計算生物学者である Manolis Kellis 氏は、この研究には関与していませんが、「ゲノム全体のデータセットによって、ついにこのような予測が可能になりました。」と述べています。

Frey 氏のチームは、ディープ ラーニングと呼ばれるアプローチを使用しました。あらゆる種類の機械学習手法と同様に、モデルは 2 つのデータ セット間の関係を見つけようとします。この場合、Frey のチームは、ヒト参照ゲノムを、さまざまな組織のさまざまなタンパク質成分の量をカタログ化した豊富なデータ セットと関連付けました。 (2 つの異なるケーキのレシピで小麦粉と砂糖の比率が異なるように、脳細胞と肝臓細胞では、生成される各タンパク質の量が異なります。) 本質的に、アルゴリズムは、DNA に埋め込まれた命令を読み取るように計算モデルをトレーニングしました。

科学者はスプライシングコードのいくつかの側面を読み取る方法をすでに知っていましたが、新しいモデルはユニークです.これにより、科学者は、さまざまな遺伝的要素がどのように相互作用するかを予測できます。 「このグループは、スプライシングについて私たちが知っていることを取り入れ、すべての [変数] を重み付けできる計算フレームワークに入れました」と Burge 氏は述べています。

たとえば、研究者はモデルを使用して、規制コードの一部に誤りがある場合にタンパク質に何が起こるかを予測できます。スプライシング命令の突然変異は、乳児死亡の主な原因である脊髄性筋萎縮症や、ある種の結腸直腸癌などの疾患にすでに関連付けられています。新しい研究では、研究者は訓練されたモデルを使用して、これらの病気のいくつかに苦しんでいる人々からの遺伝子データを分析しました.科学者たちは、これらの病気に関連するいくつかの既知の突然変異を特定し、モデルが機能することを確認しました.彼らは、特に自閉症の新しい候補変異もいくつか選びました。

このモデルの利点の 1 つは、疾患データを使用してトレーニングされていないため、関心のあるあらゆる疾患や形質で機能するはずである、とフレイ氏は述べています。研究者は、このシステムを一般に公開することを計画しています。これは、科学者がこのシステムをより多くの病気に適用できるようになることを意味します。

より広い文脈

このモデルはまた、ゲノムに関しては「英語と同じように文脈が重要である」ことを明らかにしています。 「「猫」は、ペットのことを言っているのか、建設機械のことを言っているのかによって、意味が異なります。」同様に、セルが一連のスプライシング命令をどのように解釈するかは、近くにある他の命令に依存します。 「コンポーネント X をたくさん作る」という意味の DNA の列 」は、「コンポーネント X を作成しない」という意味かもしれません 」 2 番目の一連の指示の近くにあるとき。 「シーケンスに効果があるかどうかは、別のシーケンスに効果があるかどうかに依存します」とフレイは言いました。 「それを理解しないと、パターンがスプライシングにどのように影響するかを予測することは困難です。」

さらに、このモデルは、科学者が既知の変異を再考するのに役立つ可能性がある、と Burge 氏は述べた。研究者たちは、いくつかのスプライシング指示がタンパク質コード領域内にあることをすでに知っていました。このような場合、同じ遺伝子配列が、材料とそれをどうするかという指示の両方をコードしている可能性があります。 (ホイップクリームを考えてみてください。これは成分ですが、ある意味では指示でもあります。)このタンパク質コード領域の突然変異は、対応するタンパク質をほとんどまたはまったく変更しないように見える場合、重要ではないとして却下される可能性があります.しかし、スプライシング コードを使用して解釈すると、その変異がスプライシング命令に干渉することで重大な影響を及ぼしていることが判明する可能性があります。 Frey のグループは、ゲノム全体でこれらのエラーの多くの例を発見しました。

Frey は、このモデルが最終的に個別化医療に役立つことを期待しています。たとえば、医師は、新しい突然変異を持つ健康な人が癌のような病気にかかりやすいかどうかをまだ判断できません.さらに検証すれば、Frey のモデルがこの質問に答えるのに役立つかもしれません。 「まだ特定されていないものであっても、あらゆる変異を分析できます」とフレイ氏は言います。これにより、研究者は、新しい変異が危険であるか無害であるかを予測できます。つまり、スクリーニング テストを実行できます。 「それが医学に大きな影響を与えるのを見たい」と彼は言った。 「これを実践に移したい」



  1. ゴスチキンの中身:黒い骨、黒い肉、黒い心
  2. ろ過と再吸収の違い
  3. なぜ細胞は生命の基本単位と呼ばれるのですか?
  4. 人によって髪の色が違うのはなぜ?
  5. 眉毛が伸びないのはなぜ?
  6. なぜ王蓮の葉は人を運ぶことができるのですか?