Karen Miga は私たちのゲノムの欠落部分を埋めます|生き物

1990 年、国際的な科学者チームが、ヒトゲノムを解読する野心的な試みを開始しました。 2001 年までにヒトゲノムプロジェクト (HGP) はラフドラフトを準備し、2003 年 4 月にドラフトシーケンスの完了が宣言されました。しかし、現在カリフォルニア大学サンタクルーズ校の遺伝学者であり、UCSC ゲノミクス研究所の副所長である Karen Miga は、研究は終わったかもしれないが、配列決定は完全には程遠いことを知っていた.

HGP は、遺伝学者がユークロマチンと呼ぶヒト DNA の 90% を配列決定することができました。この DNA はゆるく折り畳まれており、活発にタンパク質を作っているほぼすべての遺伝子を含んでいます。しかし、Miga は、染色体の末端 (テロメア) と中心 (セントロメア) の近くに非常に反復的な配列を持つ DNA の密集したセクションであるヘテロクロマチンを専門としていました。当時、科学者はヘテロクロマチンの配列を決定できなかったため、祝賀会やシャンパンでの乾杯にもかかわらず、ゲノムのほぼ 10% が配列決定されていませんでした。

20年近くそのままでした。一部の遺伝学者が考えていたほど領域が重要ではないと彼女が信じていなかったため、この問題は Miga を悩ませていました。 (シーケンスがなければ、どうやって見分けることができますか?) 何年にもわたって、Miga はゲノミクス分野を推し進め、何年も前に開始したプロジェクトを完成させました。 DNA 配列決定技術により、研究者はゲノムのより長い範囲を一度に読み取ることができるようになり、Miga は、科学者が問題を解決する可能性に少しずつ近づいていることに気づきました。

国立ヒトゲノム研究所の計算生物学者である Adam Phillippy と共に、Miga は 2018 年に Telomere-to-Telomere (T2T) コンソーシアムを立ち上げ、最終的にヒト DNA の最後のすべてのヌクレオチドを配列決定しました。その後、チームが足場を固めようとしていたとき、パンデミックが発生しました。

しかし、COVID-19 は彼らの進歩を止めませんでした。 6 月、Miga、Phillippy とその同僚は、プレプリントサーバー biorxiv.org で最初の完全なゲノムシーケンスを公開しました。開始から 30 年後、ついにヒトゲノムが完成しました。

量子ビデオチャットで Miga と腰を下ろし、彼女の長年の仕事と、コンソーシアムの成果が科学にとって何を意味するかについて話し合いました。インタビューは、わかりやすくするために要約および編集されています。

ゲノミクスに興味を持ったきっかけは何ですか?

私が最初にヒトゲノミクスと反復生物学に触れたのは、Case Western Reserve で、Evan Eichler の研究室で修士課程の学生だったときです。その時、ヒトゲノム計画の「完成」が発表されたのですが、彼はその分野の第一人者であり、複雑な領域の理解に多大な投資を行っていたので、私は最初からゲノムが不完全であることを十分に認識していました。その後、デューク大学でセントロメアゲノミクスと染色体生物学のリーダーである Huntington Willard の下で博士号を取得しました。ハントの指導の下で、私はサテライト DNA (タンデムに見られる配列反復、または数百万の塩基の場合が多い、頭と尾の配列) への愛を見出し、後戻りすることはありませんでした.

サテライト DNA とは何ですか?また、ヒトゲノムが未完成のままであった理由と、それはどのような関係がありますか?

短いタンデム反復は、ヒトゲノム全体で一般的であり、よく研究されています。私が最も情熱を注いだサテライト DNA は、ゲノム生物学における規模と機能の両方でまったく異なっていました。規模の点では、これらのサテライト DNA は、遺伝子が豊富な領域に散在するのではなく、すべてのヒト染色体上で非常に大きな遺伝子の少ない領域 (多くの場合、数千万塩基) を構成しています。サテライト DNA が豊富なこれらの領域は、植物と動物のゲノムの共通の特徴であることを私たちは知っています。さらに、細胞の生存率にとって非常に重要であることもわかっています。それらはセントロメア形成の部位をマークします — ゲノムの一部であり、細胞分裂中に染色体が正しく分離されることを保証します.これらの信じられないほど奇妙なゲノムのランドスケープは、以前のヒトゲノムのアセンブリには欠けていました。そしてもちろん、これらのアセンブリを使用して新しい遺伝子の発見や人間の病気との関連を行った研究からも欠落していました.

その時点で、ヒトゲノムのどの部分が配列決定されていませんでしたか?

ヒトゲノムに残っていた最大のギャップは、すべて反復 DNA でした。サテライト DNA の場合、タンデムリピートは、ほぼ正確なコピーの線形アレイに編成されます。あるコピーを別のコピーと区別できる単一のヌクレオチド変化があり、それらの違いは数万塩基離れている可能性があります.一度に 150 塩基しか配列決定できなかった場合、そのセグメントがゲノムのどこから来ているかを判断するのに十分な情報をその文字列から得ることはできません。以前は、そのような小さなフラグメントを使用した場合、それらを使用して、繰り返しが非常に豊富なこれらの領域を完全に解決することができませんでした.正確な地図の作成を開始できるのは、「ロングリード」シーケンスを確認できるようになったからです。

シーケンシングを完了するには、単に技術的な改善が必要だったのですか?

私たちのチームは、ロングリードシーケンスが利用できることから大きな恩恵を受けました。ただし、ここで考慮すべきもう 1 つの重要な点は、これらの長い読み取りを使用して最適な線形予測を行う適切なアルゴリズムの開発における技術の進歩です。さらに、当社の T2T コミュニティは、これらの予測の品質を評価して正確であることを確認するための新しい分析の開発をリードしています。

完成させるためだけに、完全なヒトゲノム配列を完成させたいという気持ちは理解できます。しかし、これらのゲノムセグメントをシーケンシングしないままにしておくことで、何が失われたのでしょうか?

ヒトゲノム内の遺伝子の総数をより完全に評価することにはメリットがあります。私たちのプレプリントは、数百のタンパク質コード遺伝子と1000を超える遺伝子予測を特定しています。これはヒトゲノムへの重要な追加であり、この研究に明らかなメリットをもたらします。

遺伝子とは別に、染色体の短腕全体の配列を公開していることを覚えておくことが重要です。たとえば、染色体 21 の 3 つのコピー (21 トリソミー) を持つことは、ダウン症候群につながるため、明らかに臨床的に重要です。染色体 21 の短腕の最初のマップを公開しました。これにより、その染色体のゲノム構成に関する情報が追加され、機能研究や臨床研究が拡大する可能性があります。さらに、セントロメアなどの機能的に重要な領域を明確に把握できるようになったため、それらのゲノム構成と構造をよりよく理解するための新しい研究を開始するのに役立つ可能性があります。

2001 年にゲノムのドラフトが公開されたとき、実際に完成したのはどれくらいですか?

最初のドラフトシーケンスは信じられないほどのリソースでしたが、ゲノムのより複雑で高密度の反復領域を意図的に無視しました。その後、より完成度の高い状態にするための努力は、まだ 8 ～ 10% ほど不足しており、技術的な壁にぶつかり続けて完成に至りました。部分的には、これは繰り返しの順序付けにおける課題によるものでしたが、たとえ順序付けが完璧だったとしても、それらの断片を正しく組み合わせるという障害に直面することを覚えておくことが重要です.

私は、「ねえ、現在の地図は不完全です。地図を完成させることは、ゲノム生物学を理解する上で重要になるでしょう」と、何年もの間、せっけん箱に立って言い続けてきた科学者の小さなグループの 1 つであるような気がします。 2003年に「完成した」ヒトゲノムが大々的に祝われたため、多くの人がこれを知って驚くだろうと思います.私たちは、当時技術的に実現可能なゲノムの部分の完成を祝っていました.私たちのゲノムのどの部分が未解決のまま未調査のままであるかは、一般には明らかではありませんでした.

あなたは T2T コンソーシアムを率いて、ヒトゲノムのこれらの長くて反復的な部分をマッピングするのを手伝いました。 T2T コンソーシアムはどのように始まったのですか?

国立ヒトゲノム研究所 (NHGRI) の Adam Phillippy と私はどちらもヒトゲノムの完成に興味があり、2018 年に共同研究を開始しました。染色体。 T2T コンソーシアムの公式発表は、2019 年にゲノム生物学と技術の進歩のための会議で行われ、アダムは X 染色体を完成させるための私たちの研究を発表し、ヒトゲノムを完成させるための私たちのイニシアチブの立ち上げを発表しました。

単一の染色体を完成させるための努力に続いて、高精度のデータと超長時間の読み取りの両方を組み合わせて、染色体アセンブリを改善する方法を研究し続けました。衛星アレイを完成させるためのより自動化された方法に到達し始めました。そのすべてを通して、コンソーシアムは成長し、有能な科学者の巨大なキャストによるより広範な草の根の取り組みに変わりました.

2020 年の夏、私たちはヒトゲノムのすべてを解明するための集中的なワークショップを立ち上げました。これは、仮想チームを個別のワーキンググループに編成するための鍵でした。それぞれのワーキンググループは、アセンブリ、キュレーション、バリアントコール、反復生物学の専門知識を備えています。この仮想コミュニティは、特に世界的なパンデミックを通じて協力して、完全なヒトゲノムの最初のリリースと、これらの新しく組み立てられた地域からの多数の詳細な生物学的分析を提供しました.

途中で直面した課題は何ですか?

いくつかの課題がありました。注目に値するのは、第 9 染色体のセントロメアの隣にあるサテライト DNA の長い配列で、解決するのにかなりの労力を要した大きな重複がありました。 NHGRI の Adam Phillippy と彼のチームは、5 つのアクロセントリック染色体のそれぞれにあるリボソーム DNA 配列の配列を解決することに焦点を当てた研究で、特別な称賛に値します。

最終的に全ゲノムアセンブリを取得したとき、どのように感じましたか?

それは夢です。これは本当に夢が叶うように目覚めるようなものです。私は大学院生の頃、このような地図があることをいつも夢見ていて、いつか届くだろうといつも思っていました。この情報の発行と共有のプロセスに参加できたことに、ただただ感謝しています。

ついにヒトゲノムの配列決定が完了したとはどういう意味ですか?

最初の完全なヒトゲノムが公開されるとき、それは画期的な瞬間となるでしょう。ゲノムの完全性と品質のこの新しい基準を初めて実証することになるという点で、これは大きな技術的成果となるでしょう。また、病気の関連性と細胞機能の研究を拡大するために、ヒトゲノムに何億もの新しい未調査の塩基が存在するため、より広範な基礎およびトランスレーショナル研究コミュニティにとっても大きな勝利となるでしょう。次の課題は、これを完全に日常的なものにして、数千人ではないにしても数百人に調査を拡大することです。

この次のステップに到達するために、T2T コンソーシアムは 2020 年に Human Pangenome Reference Consortium と正式に提携し、何百もの多様なヒトゲノムの完全で完成したアセンブリに到達するという共通の目標を掲げました。 T2Tゲノムへの到達が標準的な操作手順になることを確実にするために、シーケンシング技術とアセンブリプロセスが将来的により合理化されることを願っています.

完全なヒトゲノム配列によって、科学者が探求できるようになる基礎科学の疑問にはどのようなものがありますか?

これらの領域の配列には、独自の特殊なモデルと進化速度があり、ゲノムの構造と機能を理解するのに役立つ新しい遺伝情報を提供します。私たちは本質的に、多くの遺伝子ファミリー、アクロセントリック染色体全体、およびヒトゲノムの新しい非コード領域をより詳細に研究するための扉を開きました。私の研究室では、サテライト DNA が多様な個人間でどのように異なるか、またこの配列変異の新しいソースがゲノム生物学と人間の病気の理解にどのように貢献するかを研究することに非常に関心があります。

しかし、ヒトゲノムを完全に配列決定することで、遺伝学の他の重要なメカニズムを理解する道も開かれました.

セントロメアとリピートの豊富な領域である他の領域が初めてマップに表示されます。これは、新しい発見のためにほとんど未踏のゲノムランドスケープを提供し、疾患関連の遺伝的研究を拡大することができます.初期の研究は、ゲノムのこれらの部分が、ヒト参照ゲノムの最初のリリース以来、私たちが集中的に研究してきた、よりよく知られている遺伝子が豊富な領域とは異なる方法で組織化、複製、および調節されていることを示唆しています.

したがって、T2T プレプリントゲノムが、以前のヒトゲノム参照に最後のいくつかの詳細を追加しただけというわけではありません。それは、異なる方法で動作する私たちのゲノムの全体の塊が私たちに利用可能になったばかりであり、私たちはその表面を引っ掻き始めたに過ぎないようです.今後 10 年間は非常にエキサイティングなものになるはずです。これらの新たに明らかになった地域での将来の発見を楽しみにしています。

Karen Miga は私たちのゲノムの欠落部分を埋めます