深層ニューラルネットワークは、生きている脳の説明に役立ちます|生き物

2011 年の冬、マサチューセッツ工科大学の計算神経科学のポスドク研究者である Daniel Yamins は、マシンビジョンプロジェクトで真夜中過ぎまで働くことがありました。彼は、サイズ、位置、およびその他の特性の変化に関係なく、写真内のオブジェクトを認識できるシステムを丹念に設計していました。これは、人間が簡単にできることです。このシステムはディープニューラルネットワークであり、生きた脳の神経配線に着想を得た計算デバイスの一種です。

「タスクを実際に解決するニューラルネットワークを見つけたときのことをはっきりと覚えています」と彼は言いました。午前 2 時で、アドバイザーのジェームズディカルロや他の同僚を起こすには少し早すぎたので、興奮したヤミンズはケンブリッジの冷たい空気の中を散歩しました。「本当に興奮しました」と彼は言いました。

これは、人工知能だけでも注目に値する成果であり、今後数年間でニューラルネットワークを AI テクノロジの寵児にする多くの成果の 1 つです。しかし、それは Yamins と彼の同僚たちの主な目標ではありませんでした。彼らや他の神経科学者にとって、これは脳機能の計算モデルの開発における極めて重要な瞬間でした。

現在スタンフォード大学で自分の研究室を運営している DiCarlo と Yamins は、深層ニューラルネットワークを使用して脳のアーキテクチャを理解する神経科学者のグループの一員です。特に、科学者は、さまざまなタスクに対する脳内の特殊化の背後にある理由を理解するのに苦労しています.彼らは、脳のさまざまな部分がさまざまなことを行う理由だけでなく、なぜその違いが非常に具体的であるかについても疑問に思っています.たとえば、脳には一般的なオブジェクトを認識する領域と、特に顔を認識する領域があるのはなぜですか?ディープニューラルネットワークは、このような特殊化が問題を解決する最も効率的な方法である可能性があることを示しています。

同様に、研究者は、スピーチ、音楽、シミュレートされた香りの分類に最も優れたディープネットワークが、脳の聴覚系と嗅覚系に類似しているように見えるアーキテクチャを持っていることを実証しました。このような類似点は、2D シーンを見て、その中の 3D オブジェクトの根底にあるプロパティを推測できる深いネットにも現れます。これは、生物学的知覚がいかに高速で信じられないほど豊かであるかを説明するのに役立ちます。これらすべての結果は、生きている神経系の構造が、それらが引き受けたタスクに対する特定の最適な解決策を具現化していることを示唆しています。

神経科学者が長い間、脳と深層ニューラルネットワークとの比較に懐疑的であったことを考えると、これらの成功はなおさら予想外です。「正直なところ、私の研究室では [最近まで] 深いネットで何かをしている人はいませんでした」と MIT の神経科学者 Nancy Kanwisher は言いました。「今では、彼らのほとんどが定期的にトレーニングを行っています。」

ディープネットとビジョン

人工ニューラルネットワークは、生物学的ニューロンの簡略化されたデジタルモデルであるパーセプトロンと呼ばれる相互接続コンポーネントで構築されます。ネットワークには少なくとも 2 つのパーセプトロン層があり、1 つは入力層用、もう 1 つは出力層用です。入力と出力の間に 1 つ以上の「隠れた」レイヤーを挟むと、「深い」ニューラルネットワークが得られます。隠れ層の数が多いほど、ネットワークは深くなります。

ディープネットは、猫や犬の画像を表すパターンなど、データ内のパターンを選択するようにトレーニングできます。トレーニングでは、アルゴリズムを使用してパーセプトロン間の接続の強度を繰り返し調整し、ネットワークが特定の入力 (画像のピクセル) を正しいラベル (猫または犬) に関連付けることを学習するようにします。トレーニングが完了すると、ディープネットは理想的には、これまでに見たことのない入力を分類できるはずです。

一般的な構造と機能において、ディープネットは大まかに脳をエミュレートすることを目指しており、そこではニューロン間の接続の調整された強度が学習された関連付けを反映しています。神経科学者は、その比較における重要な制限をしばしば指摘してきました。たとえば、個々のニューロンは、「愚かな」パーセプトロンよりも広範囲に情報を処理する可能性があり、深いネットは、バックプロパゲーションと呼ばれるパーセプトロン間の一種の通信に依存することがよくあります。神経系で。それにもかかわらず、計算神経科学者にとっては、ディープネットが脳の一部をモデル化するための最良の利用可能なオプションのように見えることがあります.

視覚系の計算モデルを開発している研究者は、霊長類の視覚系、特に腹側視覚ストリームと呼ばれる人、場所、物の認識に関与する経路について私たちが知っていることの影響を受けてきました。 (大きく分けて別の経路である背側視覚ストリームが、動きや物の位置を見るための情報を処理します。) ヒトでは、この腹側経路は目で始まり、一種の中継局である視床の外側膝状核に進みます。感覚情報。外側膝状核は、一次視覚野の V1 と呼ばれる領域に接続し、その下流には領域 V2 と V4 があり、最終的に下側頭皮質につながります。 (ヒト以外の霊長類の脳は相同構造を持っています。)

重要な神経科学的洞察は、視覚情報処理が階層的であり、段階的に進行するということです。初期段階では、視野内の低レベルの特徴 (エッジ、輪郭、色、形状など) を処理しますが、オブジェクト全体や顔などの複雑な表現を処理します。、後になって下側頭葉皮質に出現します。

これらの洞察は、Yamins と彼の同僚によるディープネットの設計を導きました。彼らのディープネットには隠れ層があり、そのうちのいくつかは、画像のすべての部分に同じフィルターを適用する「畳み込み」を実行しました。各畳み込みは、エッジなど、画像のさまざまな重要な特徴をキャプチャしました。霊長類の視覚系のように、より基本的な機能はネットワークの初期段階でキャプチャされ、より複雑な機能はより深い段階でキャプチャされました。このような畳み込みニューラルネットワーク (CNN) が画像を分類するようにトレーニングされると、フィルターのランダムに初期化された値から開始し、目の前のタスクに必要な正しい値を学習します。

チームの 4 層 CNN は、5,760 枚の写実的な 3D 画像に描かれた 8 つのカテゴリのオブジェクト (動物、ボート、車、椅子、顔、果物、飛行機、テーブル) を認識できました。写真のオブジェクトは、ポーズ、位置、スケールが大きく異なります。それでも、深層ネットは、変化にかかわらずオブジェクトを認識するのが非常に得意な人間のパフォーマンスに匹敵しました。

Yamins は知らなかったのですが、コンピュータービジョンの世界で起きている革命が、彼と彼の同僚が取っていたアプローチを独自に検証することにもなっていました。 CNN の構築が完了するとすぐに、AlexNet という別の CNN が年次画像認識コンテストで名を馳せました。 AlexNet も、初期段階で基本的な視覚的機能をキャプチャし、より高い段階でより複雑な機能をキャプチャする階層処理アーキテクチャに基づいていました。それは、オブジェクトの 1000 のカテゴリを表す 120 万のラベル付き画像でトレーニングされていました。 2012 年のコンテストでは、AlexNet はテストされた他のすべてのアルゴリズムをルーティングしました。競合の指標によると、AlexNet のエラー率はわずか 15.3% であり、最も近い競合他社のエラー率は 26.2% でした。 AlexNet の勝利により、ディープネットは AI と機械学習の分野で正当な競争相手になりました。

しかし、ヤミンズとディカルロのチームの他のメンバーは、神経科学的な見返りを求めていました。彼らの CNN が視覚系を模倣した場合、新しい画像に対する神経反応を予測できるのではないかと考えました。調べるために、彼らは最初に、CNN の一連の人工ニューロンの活動が、2 匹のアカゲザルの腹側視覚ストリームのほぼ 300 部位の活動にどのように対応するかを確立しました。

次に、CNN を使用して、サルがトレーニングデータセットの一部ではない画像を見せられたときに、これらの脳部位がどのように反応するかを予測しました。「良い予測が得られただけでなく、ある種の解剖学的一貫性もありました」とヤミンズ氏は述べています。 .フォームは機能に従った。

Kanwisher は、2014 年に発表された結果に感銘を受けたことを覚えています。「それにもかかわらず、機能的な一致には衝撃的な特異性があります。」

音に特化

Yamins と DiCarlo の結果が出た後、特に霊長類の視覚系ほど研究されていない領域について、脳の他のより優れたディープネットモデルの探索が行われました。たとえば、MIT の神経科学者である Josh McDermott 氏は、「特に人間の聴覚皮質については、まだよくわかっていません」と述べています。深層学習は、脳が音を処理する方法に関する仮説を立てるのに役立つでしょうか?

それがマクダーモットの目標です。 Alexander Kell と Yamins を含む彼のチームは、音声と音楽の 2 種類の音を分類するためのディープネットの設計を開始しました。最初に、彼らは蝸牛のモデルをハードコーディングしました - 内耳の音響変換器官で、その働きは非常に詳細に理解されています - 音声を処理し、畳み込みニューラルネットワークへの入力として音声を異なる周波数チャネルに分類します。 CNN は、スピーチのオーディオクリップ内の単語を認識し、バックグラウンドノイズが混ざった音楽クリップのジャンルを認識するようにトレーニングされました。チームは、多くのリソースを必要とせずにこれらのタスクを正確に実行できるディープネットアーキテクチャを探しました。

3 セットのアーキテクチャが可能であると思われました。ディープネットの 2 つのタスクは、入力層のみを共有し、その後 2 つの異なるネットワークに分割できます。反対に、タスクはすべての処理で同じネットワークを共有し、出力段階でのみ分割することができます。または、ネットワークのいくつかの段階が共有され、他の段階が異なる、その間にある数十のバリアントの 1 つかもしれません.

当然のことながら、入力層の後に専用の経路を持つネットワークは、経路を完全に共有するネットワークよりも優れていました。ただし、ハイブリッドネットワーク (入力ステージの後に 7 つの共通レイヤーがあり、それぞれが 5 つのレイヤーからなる 2 つの別個のネットワーク) は、完全に分離したネットワークとほぼ同じように機能しました。 McDermott と同僚は、最小の計算リソースで最適に機能するネットワークとしてハイブリッドネットワークを選択しました。

これらのタスクでハイブリッドネットワークを人間と対戦させたところ、うまく一致しました。また、非一次聴覚皮質には音楽と音声を処理するための明確な領域があることを示唆した、多くの研究者による以前の結果とも一致しました。 2018 年に公開された重要なテストでは、モデルは被験者の脳の活動を予測しました。モデルの中間層は一次聴覚皮質の反応を予測し、より深い層は聴覚皮質のより高い領域を予測しました。これらの予測は、深層学習に基づかないモデルの予測よりも大幅に優れていました。

「科学の目標は、システムが何をするかを予測できるようにすることです」と McDermott 氏は述べています。「これらの人工ニューラルネットワークにより、神経科学におけるその目標に近づくことができます。」

Kanwisher は当初、自身の研究に対するディープラーニングの有用性に懐疑的でしたが、McDermott のモデルに触発されました。 Kanwisher は、1990 年代半ばから後半にかけて、紡錘状顔面野 (FFA) と呼ばれる下側頭葉の領域が顔の識別に特化していることを示した研究で最もよく知られています。 FFA は、被験者が家などの物体の画像を見ているときよりも、顔の画像をじっと見つめているときの方がはるかに活発です。脳が顔の処理を他のオブジェクトの処理から分離するのはなぜですか?

従来、このような「なぜ」の質問に答えることは、神経科学にとって困難でした。そこで、Kanwisher は、ポスドクの Katharina Dobs や他の同僚とともに、ディープネットに助けを求めました。彼らは AlexNet のコンピュータービジョンの後継 (VGG と呼ばれるより深い畳み込みニューラルネットワーク) を使用し、顔の認識とオブジェクトの認識という特定のタスクで 2 つの別個のディープネットワークをトレーニングしました。

チームは、顔を認識するように訓練されたディープネットワークがオブジェクトを認識するのが苦手であり、その逆も同様であることを発見しました。これは、これらのネットワークが顔とオブジェクトを異なる方法で表現していることを示唆しています。次に、チームは両方のタスクで単一のネットワークをトレーニングしました。彼らは、ネットワークの後の段階で顔とオブジェクトの処理を分離するために、ネットワークが内部的に組織化されていることを発見しました。「VGG は後期になると自発的により多く分離します」と Kanwisher 氏は述べています。「初期段階で分離する必要はありません。」

これは、人間の視覚系が組織化されている方法と一致します。分岐は、腹側視覚経路の共有された初期段階 (外側膝状体核と V1 および V2 領域) の下流でのみ発生します。「人間の脳で行われているように、顔とオブジェクトの処理の機能的特殊化が、両方のタスクで訓練された深いネットで自然に発生することがわかりました」と、現在ドイツのギーセンにあるユストゥスリービッヒ大学にいる Dobs 氏は述べています。

「私にとって最もエキサイティングなことは、なぜ脳がそのようになっているのかについての質問に答える方法があると思うことです」と Kanwisher は言いました。

香りの層

匂いの知覚に取り組む研究から、そのような証拠がさらに出てきています。昨年、コロンビア大学の計算神経科学者である Robert Yang と彼の同僚は、ミバエの嗅覚システムをモデル化するためのディープネットを設計しました。これは、神経科学者によって非常に詳細にマッピングされています。

匂い処理の最初の層には嗅覚ニューロンが関与し、それぞれのニューロンは約 50 種類の匂い受容体のうちの 1 つだけを発現します。同じタイプのすべての感覚ニューロン (平均で約 10 個) は、処理階層の次の層にある単一の神経クラスターに到達します。この層の脳の両側に約 50 の神経クラスターがあるため、これにより、感覚ニューロンのタイプと対応する神経クラスターとの間に 1 対 1 のマッピングが確立されます。神経クラスターには、ケニオン層と呼ばれる次の層のニューロンへの複数のランダム接続があります。この層には約 2,500 個のニューロンがあり、それぞれが約 7 つの入力を受け取ります。ケニオン層は、匂いの高次表現に関与していると考えられています。約 20 個のニューロンからなる最終層は、ハエが嗅覚関連の行動を導くために使用する出力を提供します (Yang は、この出力が匂いの分類に該当するかどうかは誰にもわからないと警告しています)。

このプロセスを模倣する計算モデルを設計できるかどうかを確認するために、Yang と同僚はまず、画像と同じようにニューロンを活性化しない匂いを模倣するデータセットを作成しました。猫の 2 つの画像を重ね合わせてピクセルごとに追加すると、結果の画像は猫のようには見えない場合があります。ただし、2 つのりんごのにおいを混ぜると、りんごのようなにおいがする可能性があります。「これは、嗅覚タスクを設計するために使用した重要な洞察です」とヤンは言いました。

彼らは、ショウジョウバエの処理層をモデル化した 3 つの層と出力層の 4 つの層で深いネットを構築しました。ヤンと同僚がこのネットワークを訓練してシミュレートされた匂いを分類したところ、ネットワークがショウジョウバエの脳で見られるのとほぼ同じ接続性に収束することがわかりました。レイヤ 2 からレイヤ 3 へのランダム (7 対 1) マッピング。

この類似性は、進化とディープネットの両方が最適解に到達したことを示唆しています。しかし、Yang は彼らの結果に依然として警戒心を抱いています。「ここでは運が良かっただけかもしれませんが、一般化されていないかもしれません」と彼は言いました。

テストの次のステップは、まだ研究されていない動物の嗅覚系の接続性を予測できるディープネットワークを進化させることです。これは神経科学者によって確認されます。 2021 年 7 月に MIT に移る予定の Yang 氏は、「これにより、私たちの理論をより厳密にテストできるようになります」と述べています。

単なるブラックボックスではありません

ディープネットは、トレーニングデータセットから離れすぎているデータに一般化できないため、しばしば嘲笑されます。また、ブラックボックスであることでも有名です。何百万、あるいは何十億ものパラメーターを調べてディープネットの決定を説明することは不可能です。脳のある部分のディープネットモデルは、単に 1 つのブラックボックスを別のブラックボックスに置き換えているだけではありませんか?

ヤンの意見では、そうではありません。「脳よりも勉強するほうが簡単です」と彼は言いました。

昨年、ディカルロのチームは、ディープネットの不透明性と一般化できないという主張の両方を取り入れた結果を発表しました。研究者たちは、あるバージョンの AlexNet を使用してマカクザルの腹側視覚ストリームをモデル化し、人工ニューロンユニットとサルの V4 領域の神経部位との間の対応を解明しました。次に、計算モデルを使用して、サルのニューロンで不自然に高いレベルの活動を誘発すると予測される画像を合成しました。ある実験では、これらの「不自然な」画像をサルに見せたところ、神経部位の 68% の活動が通常のレベルを超えて上昇しました。別の例では、画像が 1 つのニューロンの活動を促進し、近くのニューロンの活動を抑制しました。どちらの結果も、ニューラルネットワークモデルによって予測されました。

研究者にとって、これらの結果は、深いネットワークが脳に一般化されており、完全に理解できないわけではないことを示唆しています. 「しかし、私たちは、これらのモデルが価値をもたらすかどうか、またどのように価値をもたらすかを確認するために、『理解』に関する他の多くの概念を調査する必要があることを認識しています」と彼らは書いています。

ディープネットと脳の間の構造とパフォーマンスの収束は、それらが同じように機能することを必ずしも意味しません。明らかにそうではない方法があります。しかし、両方のタイプのシステムが同じ広範な管理原則に従うのに十分な類似点がある可能性があります。

モデルの制限

McDermott は、これらのディープネット研究に潜在的な治療価値があると考えています。今日、人々が聴力を失う場合、通常は耳の変化が原因です。脳の聴覚系は、入力の障害に対処しなければなりません。「したがって、聴覚システムの残りの部分が何をしているかについての優れたモデルがあれば、実際に人々の聞き取りを改善するために何をすべきかについて、より良いアイデアが得られるでしょう」と McDermott 氏は述べています。

それでもマクダーモット氏は、深層網が何をもたらすかについて慎重だ。「モデルとしてのニューラルネットワークの限界を理解しようと、私たちはかなり努力してきました」と彼は言いました。

これらの制限の 1 つの印象的なデモンストレーションで、McDermott の研究室の大学院生 Jenelle Feather と他の人々はメタマーに焦点を当てました。メタマーは、システム内で同じ表現を生成する物理的に異なる入力信号です。たとえば、2 つのオーディオメタマーの波形は異なりますが、人間には同じように聞こえます。チームは、聴覚系のディープネットモデルを使用して、自然な音声信号のメタマーを設計しました。これらのメタマーは、オーディオクリップと同じように、ニューラルネットワークのさまざまな段階を活性化しました。ニューラルネットワークが人間の聴覚系を正確にモデル化した場合、メタマーも同じように聞こえるはずです。

しかし、それは起こったことではありません。人間は、ニューラルネットワークの初期段階で、対応するオーディオクリップと同じアクティベーションを生成するメタマーを認識しました。しかし、これは、ネットワークのより深い段階で活性化が一致するメタマーには当てはまりませんでした。これらのメタマーは、人間にはノイズのように聞こえました。「したがって、特定の状況下では、この種のモデルは人間の行動を非常にうまく再現できますが、非常に間違っている点があります」と McDermott 氏は述べています。

スタンフォード大学でヤミンズは、これらのモデルがまだ脳を代表していない方法を模索しています。たとえば、これらのモデルの多くはトレーニングのためにラベル付けされた大量のデータを必要としますが、私たちの脳はわずか 1 つの例から簡単に学習できます。効率的に学習できる教師なしディープネットを開発する取り組みが進行中です。ディープネットは、バックプロパゲーションと呼ばれるアルゴリズムを使用して学習することもあります。ほとんどの神経科学者は、適切な接続がないため、実際の神経組織では機能しないと考えています。「実際に機能する、生物学的にもっともらしい学習規則に関して、いくつかの大きな進歩がありました」とヤミンズは言いました.

MIT の認知神経科学者である Josh Tenenbaum は、これらすべてのディープネットモデルは「進歩の実際のステップ」である一方で、主に分類または分類のタスクを実行していると述べています。しかし、私たちの脳は、そこにあるものを分類するだけではありません。私たちの視覚システムは、表面の形状とシーンの 3D 構造を理解することができ、根底にある因果関係を推測することができます。

この脳の能力を理解するために、元 MIT で現在はイェール大学に在籍する Ilker Yildirim は、Tenenbaum と同僚と協力して、効率的な逆グラフィックスモデルと呼ばれるものを構築しました。形状、テクスチャ、照明の方向、頭のポーズなど、背景にレンダリングされる顔を記述するパラメーターから始まります。ジェネレーティブモデルと呼ばれるコンピューターグラフィックスプログラムは、パラメーターから 3D シーンを作成します。次に、さまざまな段階の処理の後、特定の位置から見たそのシーンの 2D 画像を生成します。生成モデルの 3D および 2D データを使用して、研究者は AlexNet の修正バージョンをトレーニングし、なじみのない 2D 画像から 3D シーンの可能性のあるパラメーターを予測しました。「システムは、結果から原因へ、2D 画像からそれを生成した 3D シーンへと逆行することを学習します」と Tenenbaum 氏は述べています。

チームは、アカゲザルの下側頭皮質の活動に関する予測を検証することで、モデルをテストしました。彼らは、25 個体の 7 つのポーズを示す 175 枚の画像をマカクザルに提示し、顔認識に特化した視覚処理領域である「顔パッチ」からの神経署名を記録しました。また、深層学習ネットワークに画像を表示しました。ネットワークでは、最初の層の人工ニューロンの活性化は 2D 画像を表し、最後の層の活性化は 3D パラメータを表します。「その過程で、基本的に 2D から 3D に移行するように見える多くの変換を経ます」と Tenenbaum 氏は述べています。彼らは、ネットワークの最後の 3 つの層が、マカクの顔処理ネットワークの最後の 3 つの層に非常によく対応していることを発見しました。

これは、脳が生成モデルと認識モデルの組み合わせを使用して、オブジェクトを認識して特徴付けるだけでなく、シーンに固有の因果構造をすべて瞬時に推測することを示唆しています。テネンバウムは、彼らのモデルが脳がこのように機能することを証明していないことを認めています. 「しかし、よりきめの細かい機械論的な方法でこれらの質問をするための扉が開かれます」と彼は言いました。「それは…私たちがそれを乗り越える動機となるはずです。」

編集者注:Daniel Yamins と James DiCarlo は、Simons Foundation の一部である Simons Collaboration on the Global Brain から研究資金を受け取っています。Simons Foundation は、この編集的に独立した雑誌に資金を提供している組織でもあります。シモンズ財団の資金提供に関する決定は、には関係ありません。 Quanta のカバレッジ。詳細については、このページをご覧ください。

この記事は Wired.com に転載され、イタリア語で le Scienze に転載されました。

深層ニューラル ネットワークは、生きている脳の説明に役立ちます

ディープ ネットとビジョン

音に特化

香りの層

単なるブラック ボックスではありません

モデルの制限

深層ニューラルネットワークは、生きている脳の説明に役立ちます

ディープネットとビジョン

単なるブラックボックスではありません