機械学習が隠された物理学を明らかにする:科学的発見の新時代|物理

はじめに

2017 年、ロジャーギメラとマルタサレパルドは、生物の成長を促すプロセスである細胞分裂の原因を発見しました。しかし、どうやってその答えを知ったのかはすぐには明らかにできなかった。研究者自身はデータ内の重要なパターンを発見していませんでした。むしろ、彼らの未発表の発明、彼らが「機械科学者」と呼んだデジタルアシスタントがそれを手渡したのだ。結果を書き上げるとき、ギメラ氏はこう思ったと回想します。「アルゴリズムに入力したらこれが答えだというだけではだめだ。それを受け入れる査読者はいないだろう。」

研究だけでなく人生のパートナーでもある二人は、元クラスメートでカタルーニャ生物工学研究所の生物物理学者ザビエル・トレパットと協力して、細胞分裂を引き起こす可能性のある要因を特定した。多くの生物学者は、細胞が単純に一定の大きさを超えると分裂が起こると信じていたが、トレパット氏は、この話にはそれだけではないのではないかと疑った。彼のグループは、細胞の群れが位置を求めて押し合うときに柔らかい表面に残すナノスケールの痕跡を解読することを専門としていました。 Trepat のチームは、形状、力、その他多数の細胞特性を記録した徹底的なデータセットを蓄積していました。しかし、これらの属性が細胞分裂にどのように影響するかをすべてテストするには、一生かかるでしょう。

代わりに、彼らは Guimerà および Sales-Pardo と協力して、機械科学者にデータを提供しました。数分以内に、細胞のサイズやその他の単一の特性のみを使用する方程式よりも 10 倍正確に、細胞がいつ分裂するかを予測する簡潔な方程式が返されました。この機械科学者によれば、重要なのは、サイズに、隣接する細胞がどれだけ強く圧迫しているかを掛け合わせたものであり、これはエネルギーの単位を持つ量です。

「私たちが得られなかったものを見つけることができました」とトレパット氏は言いました。トレパット氏はギメラ氏とともにカタルーニャ高等研究機関である ICREA の会員です。

研究者らはこの機械科学者についてまだ何も発表していなかったので、その痕跡を明らかにするために2回目の分析を行った。後に彼らが書いているように、彼らは「物理的または生物学的意味に関係なく」何百もの変数のペアを手動でテストしました。これは仕様上、2018 年にNature Cell Biology で報告された機械科学者の答えを再現しました。 .

4 年後、この厄介な状況は急速に科学的発見の方法として受け入れられつつあります。 Sales-Pardo と Guimerà は、シンボリック回帰として知られるプロセスを実行できる最新世代のツールを開発している数少ない研究者の 1 人です。

シンボリック回帰アルゴリズムは、数千のピクセルを取り込んで数百万のノードの迷路に浸透させ、不透明なメカニズムを通じて「犬」という単語を出力する有名な人工知能アルゴリズムであるディープニューラルネットワークとは異なります。シンボリック回帰も同様に、複雑なデータセット内の関係を特定しますが、結果は人間の研究者が理解できる形式、つまり短い方程式で報告されます。これらのアルゴリズムは、Excel のカーブフィッティング関数の強化バージョンに似ていますが、データポイントのセットに適合する直線や放物線だけでなく、あらゆる種類の数十億の数式も検索する点が異なります。このようにして、機械科学者は細胞が分裂する理由について人間に洞察を与えることができますが、ニューラルネットワークは細胞が分裂する時期を予測することしかできません。

研究者たちは何十年にもわたってそのような機械科学者たちと協力し、パターンが浮かび上がるように配置された鮮明なデータセットから教科書的な自然法則を再発見するよう慎重に説得してきた。しかし近年、アルゴリズムは十分に成熟し、乱流が大気にどのような影響を与えるかから、暗黒物質がどのようにクラスター化するかまで、実データの未発見の関係を探り出すことができるようになりました。「それについては疑いの余地はありません」と、13年前に記号回帰の研究を開始したコロンビア大学のロボット工学者ホド・リプソン氏は言う。「分野全体が前進しています。」

機械科学者の台頭

アルバート・アインシュタインが別の光線の視点から光線を想像することで時空の柔軟性を直観したときのように、物理学者は時折、純粋な推論を通じて壮大な真実に到達することがあります。ただし、多くの場合、理論は長時間のデータ処理セッションから生まれます。 16 世紀の天文学者ティコブラーエが亡くなった後、ヨハネスケプラーはブラーエのノートに書かれた天体観測を入手しました。ケプラーは、火星が彼が考えた他の数十の卵のような形ではなく、空を通る楕円を描いていると判断するのに 4 年かかりました。彼はこの「第一法則」を追跡し、さらに 2 つの関係を総当たり計算によって明らかにしました。これらの規則性は、後にアイザックニュートンを万有引力の法則に導くことになります。

シンボリック回帰の目標は、このようなケプラーの試行錯誤をスピードアップし、変数を基本的な数学的演算に結び付ける無数の方法をスキャンして、システムの動作を最も正確に予測する方程式を見つけることです。

これを大きく前進させる最初のプログラムは BACON と呼ばれ、1970 年代後半に当時カーネギーメロン大学の認知科学者で AI 研究者だったパトリックラングレーによって開発されました。 BACON は、たとえば、さまざまな惑星の公転周期の列と公転距離の列を取り込むことになります。次に、周期を距離で割る、周期の二乗に距離を掛けるなど、さまざまな方法でデータを体系的に結合します。たとえば、周期の二乗と距離の三乗が常に同じ数値になる場合など、一定の値が見つかった場合は停止する可能性があります。これがケプラーの第 3 法則です。定数は、2 つの比例量 (この場合は周期の 2 乗と距離の 3 乗) を特定したことを意味します。言い換えれば、方程式が見つかった時点で停止しました。

ケプラーの第 3 法則やその他の教科書の古典を再発見したにもかかわらず、BACON は、コンピューティング能力が限られている時代において、依然として好奇心の対象でした。研究者は依然としてほとんどのデータセットを手動で分析するか、最終的には特定のクラスの方程式が与えられた場合に単純なデータセットに最適なものを見つける Excel のようなソフトウェアを使用して分析する必要がありました。アルゴリズムがあらゆるデータセットを記述するための正しいモデルを見つけることができるという概念は、2009 年に当時コーネル大学のロボット工学者であったリプソンとマイケルシュミットが Eureqa と呼ばれるアルゴリズムを開発するまで眠っていました。

彼らの主な目標は、列ごとに変数が含まれる膨大なデータセットを、実際に重要な少数の変数を含む方程式に要約できるマシンを構築することでした。「方程式には最終的に 4 つの変数が含まれる可能性がありますが、どれが変数であるかは事前にはわかりません」とリプソン氏は言います。「キッチンのシンクも含めて、あらゆるものを使います。たぶん、天気が重要です。おそらく、平方マイルあたりの歯科医の数が重要です。」

多数の変数を議論する際の永続的なハードルの 1 つは、新しい方程式を何度も推測する効率的な方法を見つけることです。研究者らは、潜在的な行き詰まりを試す（そしてそこから回復する）柔軟性も必要だと述べています。アルゴリズムが直線から放物線にジャンプしたり、正弦波のリップルを追加したりできる場合、できるだけ多くのデータポイントにヒットする能力が向上する前に悪化する可能性があります。これやその他の課題を克服するために、コンピューター科学者は、方程式にランダムな「突然変異」を導入し、突然変異の方程式をデータに対してテストする「遺伝的アルゴリズム」を使用し始めました。多くの試用を重ねるうちに、最初は役に立たなかった機能が、強力な機能に進化するか、あるいは消滅してしまいます。

リプソンとシュミットはテクニックを次のレベルに引き上げ、Eureqa に直接対決を組み込むことでダーウィンの圧力を徐々に高めました。一方で、彼らは方程式を生み出しました。もう 1 つは、どのデータポイントで方程式をテストするかをランダム化しました。つまり、方程式に最も疑問を呈する「最も適した」ポイントが選ばれました。「軍拡競争を起こすには、1 つだけではなく 2 つの進化するものを設定する必要があります」とリプソン氏は言いました。

Eureqa アルゴリズムは、12 を超える変数を含むデータセットを処理できます。これにより、別の振り子にぶら下がった振り子の動きを記述するような高度な方程式を正常に復元することができました。

メリル・シャーマン/クアンタ・マガジン

一方、他の研究者はディープニューラルネットワークをトレーニングするためのトリックを見つけていました。 2011 年までに、これらは犬と猫の見分け方を学習したり、その他無数の複雑なタスクを実行したりすることに大成功を収めるようになりました。しかし、訓練されたニューラルネットワークは、数値的に値付けされた何百万もの「ニューロン」で構成されており、どの特徴を認識できるようになったのかについては何も語られません。 Eureqa は、その結果を人間の言葉で、つまり物理変数の数学的操作で伝えることができました。

Sales-Pardo が初めて Eureqa と遊んだとき、彼女は驚きました。「それは不可能だと思いました」と彼女は言いました。「これは魔法です。どうやってこの人たちにそんなことができるのでしょうか？」彼女とギメラはすぐに、ネットワークに関する独自の研究のためのモデルを構築するために Eureqa を使用し始めましたが、そのパワーに感銘を受けると同時に、その矛盾に不満を感じていました。アルゴリズムは予測方程式を発展させますが、オーバーシュートして複雑すぎる方程式に行き着く可能性があります。あるいは、研究者がデータをわずかに調整すると、Eureqa はまったく異なる式を返します。 Sales-Pardo と Guimerà は、新しい機械科学者をゼロから設計することに着手しました。

圧縮の程度

彼らが見た遺伝的アルゴリズムの問題は、作成者の好みに頼りすぎていることです。開発者は、シンプルさと正確さのバランスをとるようにアルゴリズムを指示する必要があります。追加の項を使用すると、方程式は常にデータセット内のより多くの点に到達できます。ただし、一部の外側のポイントは単にノイズが多いため、無視するのが最善です。たとえば、単純さを方程式の長さとして定義し、精度を曲線がデータセット内の各点にどれだけ近づくかとして定義するかもしれませんが、これらは選択肢の寄せ集めからの 2 つの定義にすぎません。

サレパルド氏とギメラ氏は、共同研究者とともに、物理学と統計学の専門知識を活用して、ベイズ理論として知られる確率の枠組みの観点から進化のプロセスを再構築しました。彼らはまず、Wikipedia にあるすべての方程式をダウンロードしました。次に、それらの方程式を統計的に分析して、どのタイプが最も一般的かを調べました。これにより、アルゴリズムの初期推定が簡単になることが保証され、たとえば、双曲線コサインよりもプラス記号を試す可能性が高くなりました。次に、アルゴリズムは、数学的状況の隅々まで調査することが数学的に証明されているランダムサンプリング方法を使用して、方程式のバリエーションを生成しました。

各ステップで、アルゴリズムはデータセットをどの程度圧縮できるかという観点から候補方程式を評価しました。たとえば、ランダムに散在するポイントはまったく圧縮できません。すべてのドットの位置を知る必要があります。しかし、1,000 個の点が直線上にある場合、それらはわずか 2 つの数値 (線の傾きと高さ) に圧縮できます。夫婦は、圧縮の度合いによって、候補の方程式を比較するためのユニークで難攻不落の方法が得られることを発見しました。「正しいモデルがデータを最も圧縮するモデルであることを証明できます」とギメラ氏は言います。「ここには恣意性はありません。」

数年にわたる開発と、細胞分裂の引き金となるものを解明するためのアルゴリズムの秘密使用を経て、彼らとその同僚は、科学の進歩で自分たちの「ベイジアン機械科学者」について説明しました。 2020 年に。

データの海

それ以来、研究者らはベイジアン機械科学者を採用して、国のエネルギー消費を予測するための最先端の方程式を改良し、また別のグループはネットワークを通じた浸透のモデル化を支援するためにそれを使用しました。しかし、開発者らは、科学者がますますデータに溺れているトレパットのような生物学研究において、この種のアルゴリズムが大きな役割を果たすことを期待しています。

機械科学者は、物理学者がさまざまなスケールにわたるシステムを理解できるよう支援しています。物理学者は通常、原子には 1 つの方程式を使用し、ビリヤードのボールにはまったく異なる方程式を使用しますが、この断片的なアプローチは、マンハッタン周辺の小規模な海流が大西洋のメキシコ湾流に流れ込む気候科学のような分野の研究者には機能しません。

そのような研究者の一人は、ニューヨーク大学のローレ・ザンナ氏です。海洋乱流をモデル化する仕事の中で、彼女はしばしば 2 つの極端な板の間で板挟みになることがよくあります。スーパーコンピューターは都市規模の渦または大陸間海流のいずれかをシミュレートできますが、両方の規模を同時にシミュレートすることはできません。彼女の仕事は、小さな渦巻きを直接シミュレートすることなく、その影響を含む全体像をコンピューターが生成できるよう支援することです。当初、彼女はディープニューラルネットワークに注目して、高解像度シミュレーションの全体的な効果を抽出し、それに応じてより粗いシミュレーションを更新しました。「彼らは素晴らしかったです」と彼女は言いました。「しかし、私は気候物理学者です。」つまり、彼女は圧力や温度などのいくつかの物理的原理に基づいて気候がどのように機能するかを理解したいと考えています。「したがって、何千ものパラメータを受け入れて満足することは非常に困難です。」

その後、彼女はワシントン大学の応用数学者であるスティーブンブラントン、ジョシュアプロクター、ネイサンクッツによって考案された機械科学者のアルゴリズムに出会いました。彼らのアルゴリズムは、スパース回帰として知られるアプローチを採用しています。これは、精神的にはシンボリック回帰に似ています。変化する方程式間でバトルロワイヤルをセットアップする代わりに、x のようなおそらく 1,000 個の関数のライブラリから始まります。 2、× /(x − 1) と sin(x ）。このアルゴリズムは、最も正確な予測を与える用語の組み合わせをライブラリ内で検索し、最も役に立たない用語を削除し、数個の用語になるまで検索を続けます。この超高速手順は、最終方程式をライブラリ項から構築する必要があるため、シンボリック回帰アルゴリズムよりも多くのデータを処理できますが、その代わりに探索の余地が少なくなります。

Zanna は、スパース回帰アルゴリズムを最初から再作成して、その仕組みを把握し、修正バージョンを海洋モデルに適用しました。彼女が高解像度の映画を入力し、正確にズームアウトしたスケッチを探すようにアルゴリズムに依頼すると、渦度や流体の伸びやせん断の仕組みを含む簡潔な方程式が返されました。これを大規模な流体の流れのモデルに入力すると、流れがエネルギーの関数として変化することが、以前よりもはるかに現実的になりました。

「アルゴリズムは追加の項を検出しました」とザンナ氏は述べ、「伸び、せん断、[回転]という海流の重要な特性の一部を実際に表す」「美しい」方程式を生成しました。

一緒に賢く

他のグループは、機械科学者の強みとディープニューラルネットワークの強みを融合することで、機械科学者を後押ししています。

プリンストン大学の天体物理学大学院生である Miles Cranmer は、PySR と呼ばれる、Eureqa に似たオープンソースの記号回帰アルゴリズムを開発しました。デジタルの「島」上に異なる母集団の方程式を設定し、データに最も適合する方程式を定期的に移行させ、他の島の住民と競合させます。クランマー氏はディープマインドとニューヨーク大学のコンピューター科学者、フラットアイアン研究所の天体物理学者と協力して、まずタスクを達成するためにニューラルネットワークをトレーニングし、次に PySR にニューラルネットワークの特定の部分が何を行うかを説明する方程式を見つけるように依頼するハイブリッドスキームを考案しました。

初期の概念実証として、グループはこの手順を暗黒物質シミュレーションに適用し、隣接する雲の特性に基づいて暗黒物質雲の中心の密度を与える式を生成しました。この方程式は、人間が設計した既存の方程式よりもデータによく適合しました。

2月に、彼らは30年分に相当する太陽系の惑星と衛星の空の実際の位置をシステムに供給した。このアルゴリズムはケプラーの法則を完全にスキップし、ニュートンの重力の法則と、惑星や衛星の質量を直接推論しました。他のグループは最近 PySR を使用して、粒子の衝突の特徴を記述する方程式、結び目の体積の近似値、および暗黒物質の雲が中心で銀河を彫刻する方法を発見しました。

増え続ける機械科学者の集団（もう一つの注目すべき例は、マサチューセッツ工科大学の物理学者、マックス・テグマーク氏とシルヴィウ・マリアン・ウドレスク氏が開発した「AIファインマン」）のうち、人間の研究者たちは、増えれば増えるほど嬉しいと言っている。「これらすべての技術が本当に必要です」とクッツ氏は言う。「特効薬となるものは一つもありません。」

クッツ氏は、機械科学者がこの分野を彼が「GoPro 物理学」と呼ぶものの頂点にもたらしつつあると信じている。そこでは、研究者が単にイベントにカメラを向けるだけで、何が起こっているのかを捉えた方程式が得られる。 (現在のアルゴリズムでは、位置や角度など、関連する可能性がある変数の膨大なリストを人間が提供する必要があります。)

それがリプソンが最近取り組んでいることだ。 12月のプレプリントで、彼と共同研究者らは、ビデオの数フレームを取り込んで次の数フレームを予測するためにディープニューラルネットワークを最初に訓練する手順について説明した。次にチームは、予測が失敗し始めるまで、ニューラルネットワークが使用できる変数の数を減らしました。

このアルゴリズムは、振り子のような単純なシステムと、追跡する明らかな変数がない炎の舌であるキャンプファイヤーのちらつきのような複雑な設定の両方をモデル化するのに必要な変数の数を把握することができました。

「彼らに名前はありません」とリプソン氏は語った。「それらは炎の燃えるようなものです。」

（機械）科学の最先端

機械科学者は、混沌としたシステムや非常に複雑なシステムで活躍するディープニューラルネットワークに取って代わろうとしているわけではありません。猫らしさと犬らしさの方程式が見つかるとは誰も期待していません。

しかし、惑星の周回、流体の飛び散り、細胞の分割に関しては、いくつかの演算に基づく簡潔な方程式は不可解なほど正確です。ノーベル賞受賞者のユージン・ウィグナーが、1960年のエッセイ「自然科学における数学の不合理な有効性」の中で「私たちが理解することも受けるに値することもない素晴らしい贈り物」と呼んだのは事実です。クランマー氏が述べたように、「物理試験のための方程式のカンニングペーパーを見ると、それらはすべて非常に単純な代数式ですが、非常に優れたパフォーマンスを発揮します。」

クランマーらは、初歩的な演算は空間における基本的な幾何学的作用を表現し、現実を記述するための自然言語となっているため、非常に優れたものであると推測している。加算はオブジェクトを数直線上に移動します。そして乗算により、平らな領域が 3D ボリュームに変わります。そのため、方程式を推測するとき、単純さに賭けることは理にかなっているのではないかと彼らは疑っています。

ただし、宇宙の根底にある単純さは成功を保証するものではありません。

Guimerà と Sales-Pardo はもともと、Eureqa が同様の入力に対して大きく異なる方程式を見つけることがあったため、数学的に厳密なアルゴリズムを構築しました。しかし、彼らは残念なことに、ベイジアン機械科学者でさえ、特定のデータセットに対して複数の同様に良好なモデルを返す場合があることに気づきました。

その理由はデータ自体に組み込まれていることが最近二人が明らかにした。彼らは機械科学者を利用してさまざまなデータセットを調査し、それらがクリーンとノイズの 2 つのカテゴリに分類されることを発見しました。よりクリーンなデータでは、機械科学者はいつでもデータを生成した方程式を見つけることができます。しかし、特定のノイズしきい値を超えると、それは不可能になります。言い換えれば、ノイズの多いデータは、任意の数の方程式と同等によく (または悪く) 一致する可能性があります。そして、研究者らは、アルゴリズムが常に最良の方程式を見つけることを確率的に証明しているため、アルゴリズムが失敗した場合には、他の科学者が（人間であれ機械であれ）成功することはできないことを知っています。

「それが根本的な限界であることがわかりました」とギメラ氏は言う。「そのためには機械科学者が必要でした。」

編集者注:フラットアイアン研究所はシモンズ財団から資金提供を受けており、 編集上独立した出版物 .

訂正: 2022 年 5 月 10 日

この記事の以前のバージョンでは、ワシントン大学で開発されたスパース回帰アルゴリズムの 2 人の共著者の名前が省略されていました。

訂正: 2022 年 5 月 19 日

この記事の以前のバージョンでは、遺伝的アルゴリズムを使用して新しい方程式を生成するというアイデアはジョン・コーザのみが認めていましたが、実際には数人のコンピューター科学者がこのアプローチの開発に貢献しました。