>> 自然の科学 >  >> 生き物

私たちが形を見るところ、AI はテクスチャを見る


猫の写真を見ると、写真の動物がショウガか縞模様か、または画像が白黒か、斑点があるか、摩耗しているか、色あせているかを認識できる可能性があります。ペットが枕の後ろに丸まっているか、ぼやけた動きでカウンターの上に飛び乗っているときにも、おそらくペットを見つけることができます.ほとんどすべての状況で猫を識別することを自然に学びました。対照的に、ディープ ニューラル ネットワークを利用したマシン ビジョン システムは、一定の条件下で猫を認識する能力が人間よりも優れている場合もありますが、画像が少し斬新で、ノイズが多く、ざらざらしている場合でも、これらのシステムは完全に機能しなくなる可能性があります。

ドイツの研究チームは、その予期しない理由を発見しました。人間は写真に写っている物体の形に注意を払いますが、ディープ ラーニングのコンピューター ビジョン アルゴリズムは、日常的に物体のテクスチャを捉えています。

5 月に開催された International Conference on Learning Representations で発表されたこの発見は、人間と機械の「思考」の違いを浮き彫りにし、人工知能を動かしているものについて、私たちの直感がいかに誤解を招く可能性があるかを示しています。また、私たち自身のビジョンがこのように進化した理由を示唆している可能性もあります.

象の皮と時計で作られた飛行機を持つ猫

深層学習アルゴリズムは、たとえば、猫を含むか含まない何千もの画像をニューラル ネットワークに提示することによって機能します。システムはそのデータからパターンを見つけ、これを使用して、これまでに見たことのない画像にラベルを付ける最善の方法を決定します。ネットワークのアーキテクチャは、人間の視覚システムのアーキテクチャに大まかにモデル化されており、接続されたレイヤーにより、画像からますます抽象的な特徴を抽出できます。しかし、システムは、人間が事後にしか解釈できないブラックボックス プロセスを通じて、正しい答えに導く関連付けを行います。オレゴン州立大学のコンピューター科学者で、新しい研究には関与していない Thomas Dietterich 氏は、次のように述べています。

そのために、一部の研究者は、画像を変更してネットワークを騙したときに何が起こるかを調べることを好みます。彼らは、非常に小さな変更により、システムが画像内のオブジェクトに完全に誤ったラベルを付ける可能性があること、および大きな変更により、システムがそのラベルをまったく変更できない場合があることを発見しました.一方、他の専門家は、ネットワークをバックトラックして、個々の「ニューロン」が画像内で何に反応するかを分析し、システムが学習した特徴の「活性化アトラス」を生成しました。

しかし、ドイツのチュービンゲン大学の計算神経科学者 Matthias Bethge と精神物理学者 Felix Wichmann の研究室の科学者グループは、より質的なアプローチを取りました。昨年、チームは、特定の種類のノイズによって劣化した画像でニューラル ネットワークをトレーニングしたところ、同じ種類の歪みを受けた新しい画像を分類する際に、人間よりも優れていることを報告しました。しかし、これらの画像は、わずかに異なる方法で変更された場合、ネットワークを完全にだましたものでしたが、新しい歪みは人間には古いものと実質的に同じに見えました.

その結果を説明するために、研究者は、わずかなレベルのノイズでも、どの品質が最も変化するかについて考えました。テクスチャは当然の選択のようでした。ベスゲとウィッチマンの研究室の大学院生で、この研究の筆頭著者である Robert Geirhos は、次のように述べています。しかし、「画像内の局所的な構造 — 少しのノイズを加えると、超高速で歪んでしまいます。」そこで彼らは、人間とディープ ラーニング システムの両方が画像を処理する方法をテストする賢い方法を思いつきました。

Geirhos、Bethge、および彼らの同僚は、あるオブジェクトから取得した形状と別のオブジェクトから取得したテクスチャを使用して、2 つの相反する手がかりを含む画像を作成しました。アルミ缶のアップ、または重なり合った時計の文字盤で満たされた飛行機の輪郭。何百ものこれらの画像が提示され、予想通り、ほぼ毎回、人間はそれらの形状 (猫、熊、飛行機) に基づいてそれらにラベルを付けました。しかし、4 つの異なる分類アルゴリズムは反対の方向に傾き、オブジェクトのテクスチャを反映したラベルを吐き出しました:象、缶、時計。

コロンビア大学の計算神経科学者である Nikolaus Kriegeskorte は次のように述べています。勉強してください。

人工知能が形状よりも質感を好むことは、最初は奇妙に思えるかもしれませんが、それは理にかなっています。 「テクスチャは細かいスケールでの形状と考えることができます」と Kriegeskorte 氏は言います。その細かいスケールは、システムが把握しやすいものです。テクスチャ情報を持つピクセルの数は、オブジェクトの境界を構成するピクセルの数をはるかに超えており、ネットワークの最初のステップには、線やエッジなどの局所的な特徴の検出が含まれます。 「それがテクスチャです」と、トロントのヨーク大学の計算視覚科学者である John Tsotsos は言いました。 「たとえば、すべてが同じように並んでいる線分のグループ。」

Geirhos と彼の同僚は、ネットワークが画像分類タスクを実行するには、これらの局所的な特徴で十分であることを示しました。実際、ベスゲとこの研究のもう一人の著者であるポスドク研究者のウィーラント・ブレンデルは、5月の会議でも発表された論文でこの点を強調しました。その作業で、彼らは、ディープ ラーニングが登場する前の分類アルゴリズムによく似た、「機能の袋」のようなディープ ラーニング システムを構築しました。現在のモデル (Geirhos が彼の実験で使用したモデルなど) と同じように、画像を小さなパッチに分割しますが、その後、その情報を徐々に統合して高レベルの特徴を抽出するのではなく、その内容について即座に決定を下しました。各小さなパッチ (「このパッチには自転車の証拠が含まれており、そのパッチには鳥の証拠が含まれています」)。パッチ間のグローバルな空間的関係を考慮せずに、これらの決定を単純に追加してオブジェクトのアイデンティティを決定しました (「より多くのパッチに自転車の証拠が含まれているため、これは自転車の画像です」)。それでも、驚くほど正確に物体を認識することができました。

ブレンデル氏は、「これは、ディープラーニングが以前のモデルとはまったく異なることをしているという仮定に挑戦しています」と述べています。 「明らかに…飛躍がありました。一部の人々が望んでいたほどの飛躍ではないことを示唆しているだけです。」

この研究には参加していない、ヨーク大学とトロント大学のポスドク研究員である Amir Rosenfeld 氏によると、「ネットワークが行うべきだと考えていることと、ネットワークが実際に行っていることとの間には、ネットワークの再現性を含め、依然として大きな違いがあります」とのことです。人間の行動。

ブレンデルも同様の見解を表明した。ニューラル ネットワークが人間と同じようにタスクを解決すると考えるのは簡単だと彼は言いました。 「しかし、私たちは他の方法があることを忘れがちです。」

より人間らしい視覚へのナッジ

現在の深層学習手法は、テクスチャなどの局所的な特徴を形状などのよりグローバルなパターンに統合できます。 「これらの論文で少し驚くべきことは、非常に説得力のある方法で示されていることですが、アーキテクチャはそれを可能にしますが、[標準画像を分類するために] トレーニングするだけでは、自動的には起こらないということです」と Kriegeskorte 氏は述べています。

Geirhos 氏は、チームがモデルにテクスチャを無視させるとどうなるかを見たいと考えていました。チームは、従来分類アルゴリズムのトレーニングに使用されていた画像を取得し、それらをさまざまなスタイルで「ペイント」して、基本的に有用なテクスチャ情報を取り除きました。新しい画像で各深層学習モデルを再トレーニングすると、システムはより大規模でよりグローバルなパターンに依存し始め、人間の形状バイアスに非常に似た形状バイアスを示しました。

そして、それが起こったとき、アルゴリズムは、そのような種類の歪みを処理するように訓練されていなかったとしても、ノイズの多い画像を分類する能力も向上しました. 「形状ベースのネットワークは、無料でより堅牢になりました」と Geirhos 氏は言います。 「これは、特定のタスクに対して適切な種類のバイアス (この場合はシェイプ バイアス) を持つだけで、新しい設定に一般化するのに大いに役立つことを示しています。」

また、斬新な状況や騒々しい状況であっても、形状は私たちが見るものを定義するより堅牢な方法であるため、人間が自然にこの種の偏見を持っている可能性があることを示唆しています.人間は 3 次元の世界に住んでおり、さまざまな条件下でさまざまな角度からオブジェクトが見られ、必要に応じて触覚などの他の感覚がオブジェクトの認識に貢献できます。したがって、私たちのビジョンが質感よりも形を優先することは理にかなっています。 (さらに、一部の心理学者は、言語、学習、および人間の形状バイアスの間のリンクを示しています。非常に幼い子供たちが、特定のカテゴリの単語を学習することによって形状により注意を払うように訓練されたとき、後ではるかに大きな名詞またはオブジェクトを開発することができました。トレーニングを受けなかった子供たちより語彙力が低下します)

この研究は、「データは私たちが信じているよりも多くの偏見と影響を及ぼしている」ことを思い出させてくれます.研究者がこの問題に遭遇したのはこれが初めてではありません。顔認識プログラム、自動採用アルゴリズム、およびその他のニューラル ネットワークは、トレーニングに使用されたデータに根深い偏りがあるため、予期しない機能を重視しすぎることが以前に示されていました。意思決定プロセスからこれらの望ましくない偏見を取り除くことは困難であることが判明しましたが、ウィッチマン氏は、新しい研究はそれが可能であることを示しており、それは彼にとって励みになると述べています.

それにもかかわらず、形状に焦点を当てた Geirhos のモデルでさえ、画像内のノイズが多すぎたり、特定のピクセルの変化によって無効になる可能性があります。これは、人間レベルの視覚を達成するにはほど遠いことを示しています。 (同様に、Rosenfeld、Tsotsos、および Tsotsos の研究室の大学院生である Markus Solbach も最近、機械学習アルゴリズムは人間のように異なる画像間の類似性を認識できないことを示す研究を発表しました。)人間の脳の重要なメカニズムがまだこれらのモデルによって捉えられていないところに指を置いています」と Kriegeskorte 氏は述べています。また、「場合によっては、データ セットを調べる方が重要かもしれません」と Wichmann 氏は述べています。

この研究には参加していないトロント大学のコンピューター科学者、サンジャ・フィドラー氏も同意見だ。 「巧妙なデータ、巧妙なタスクを設計するのは私たち次第です」と彼女は言いました。彼女と彼女の同僚は、ニューラル ネットワークに副次的なタスクを与えることで、主要な機能を実行するのにどのように役立つかを研究しています。 Geirhos の発見に触発されて、彼らは最近、オブジェクト自体を認識するだけでなく、どのピクセルがその輪郭または形状の一部であるかを識別するように画像分類アルゴリズムをトレーニングしました。ネットワークは、通常のオブジェクト識別タスクで自動的に改善されました。 「1 つのタスクを与えられた場合、選択的な注意が払われ、さまざまなことに目がくらんでしまいます」と Fidler 氏は言います。 「もし私があなたに複数のタスクを与えると、あなたはより多くのことに気付くかもしれませんが、それは起こらないかもしれません.これらのアルゴリズムについても同じです。」さまざまなタスクを解決することで、「さまざまな情報に対する偏見を発達させる」ことができます。これは、Geirhos の形状と質感に関する実験で起こったことと似ています。

このすべての研究は、「[ディープ ラーニングで] 何が起こっているかについての理解を深めるためのエキサイティングなステップであり、おそらく私たちが目にしている限界を克服するのに役立つでしょう」とディーテリッヒ氏は述べています。 「だから私はこの一連の書類が大好きなのです。」



  1. 傷が炎症を起こすのはなぜですか
  2. 多くの子供が爪を噛むのが好きな理由
  3. 空飛ぶアリとシロアリの違い
  4. 人はなぜしゃっくりをするのでしょうか?
  5. ミトコンドリアDNAと核DNAの違い
  6. 知識が人の脳に「ふり」を入れることができるのはなぜですか?