>> 自然の科学 >  >> 天文学

生命と宇宙のデータの秘密を明らかにする


統計では、抽象的な数学が実際の生活と出会います。ドナルド・リチャーズのような統計学者は、手に負えない一連の生の数字から意味を見つけるために、まず関連性を探します。たとえば、喫煙と肺がんの間の統計的リンク、またはある日のニューヨーク証券取引所と次の東京証券取引所の終値です。さらなる研究により、一方の現象が他方の現象を引き起こしているのか、または両方に共通の原因があるのか​​を調べることができます。

「統計は、データを分析し、データに隠されている内部の隠された秘密を発見する方法です」とリチャーズは 1 月にペンシルベニア州の自宅から Skype で語った。 「気候変動が進行中であることを示すパターンを見つけることができるでしょうか?ビットコインが頭打ちになったことを示唆するパターンを見つけることができますか?それこそが私たちが常に探し求めているパターンです。」

パターンは微妙な場合があります。しかし、彼の見解では、それらの検索は難解ではなく、「頭脳を持つ人が人生で行うべき唯一のこと」です。

生まれ故郷のジャマイカで、63 歳のリチャーズは、統計学者をイノベーターと表現し、現象間の隠れた関連性を発見するための新しい数学的ツールを常に探し求め、原因と結果を関連付ける古代の探求をさらに進めています。たとえば、人々は最初に何を食べることができるかをどのように理解したのでしょうか? 「ジャマイカにはアキーの木という木があります。 「アキーの実が熟していないとき、それは非常に有毒ですが、[相関関係の致命的な検索が明らかにしたに違いない] 熟したとき、適切に洗浄すれば、調理して食べることができます。」

リチャーズは、西インド諸島、ノースカロライナ、ワイオミング、バージニア、ペンシルベニア州立大学のステート カレッジでのキャリアを通じて、現在教授を務めており、統計学で使用する多くの新しい数式を導き出しました。彼はまた、それらを適用して、銀河調査、金融デリバティブ、農業データ、医療費負担適正化法の保険市場など、実際のデータの相関関係を突き止めました。 1980 年代に彼の指導者で長年の共同研究者であるケネス・グロスと共に証明した公式は、統計的に通話が途切れる可能性を低くする携帯電話のデータ伝送プロトコルの開発に役立ちました。 「誰かが携帯電話を使っているのを見るたびに、私は彼らに 1 セントだけフォークさせることができるだろうかと思う.」と彼は冗談を言った.

最近、Richards は、相関を検出するための強力な新しいツールである「距離相関」法を取り上げました。 2014 年に、彼と彼の妻、ジャマイカ系アメリカ人の天体物理学者メルセデス リチャーズ、および 3 人目の共著者は、距離相関法を適用して、63,500 の銀河の間でこれまで知られていなかった関連を検出しました。

実生活にも、歓迎されない方法で侵入する方法があります。メルセデスは 2016 年に 60 歳で亡くなり、グロスは昨年 78 歳で亡くなりました。リチャーズは、統計の喜びを楽しみながらも、悲しみを胸に抱いています。 1 月のインタビューの後、Quanta 3月にリチャーズに電話でフォローアップしました。以下の質問と回答は、わかりやすくするために編集および要約されています。

ジャマイカで育ちましたが、いつも数学が好きでしたか?

私の母は数学がとても得意でした。彼女は教師だったので、学校がなくなったからといって学習が止まることはありませんでした。夏の間、彼女の 3 人の息子、そしてもし私たちと遊びたいなら近所の家の友達でさえ、私たちの家で 9 時から 12 時まで学業をしなければなりませんでした。昼食後、その日の残りは私たちのものでした。

ある夏、私が 10 歳のとき、彼女は彼女の古い代数学の本の 1 つである高等代数 の章を私に読ませました。 ホールとナイトによる。私はそれを理解していませんでした。それはばかげた代数でした。それが何かに役立つと考える理由はありませんでした。しかし、次の夏、彼女は「もう一度ホールとナイトから始めてみませんか」と言いました。そして 2 回目は、それらの章の扱いがはるかに簡単になりました。

高校のキングストン カレッジでは、3 年生 [9 年生に相当] の優秀な数学教師と大当たりしました。 4 番目のフォームでは、別の優れた数学の先生がいたので、再び大当たりを達成しました。次に、5番目のフォームで、パワーボールを打ちました。私には素晴らしい数学の先生がいて、3 年間続けて教えてくれました [Kingston は 13 年生に上がります]。ですから、高校を卒業したとき、私はジャマイカで数学の生徒として可能な限り最高の準備をしました。あえて言えば、イギリス連邦のどこにいても、大英帝国でさえそうかもしれません.

しかし、あなたは数学のコホートで学問的にそれを追求する唯一の学生でした.なぜですか?

ジャマイカでは、経済的な理由から人々が数学を敬遠する傾向がありました。医者、弁護士、エンジニアなどになる場合に比べて、収入は大幅に少なくなる傾向があります。



どのようにして統計にたどり着きましたか?

西インド諸島大学に行ったとき、数学がすべてでした。物理学、化学、生物学、法律、または医学を勉強しようとしていたとしたら、完全に失敗していたでしょう。私は 2 年目に確率と統計のコースを Rameshwar Gupta から受講しました。Rameshwar Gupta は最終的に私の論文アドバイザーになりました。彼は多変量解析 (多くの変数間の関係に関するもの) の専門家だったので、それが私の分野になりました。私は好きな人と一緒に仕事をすることを強く信じています。また、彼と一緒に取り組んでいる興味深い数学の問題がたくさんあることもわかったので、両方の長所がありました.

それが私が統計を始めた方法ですが、ノースカロライナ大学での在職期間がかなり近づくまで、私は実際には統計学者になりませんでした.私はすべての式を知っていましたが、データを分析する芸術と喜びは、それまでは本当に心に響きませんでした.それ以前は、私は基本的に統計学者を装った数学者でした。

数学者と統計学者の違いは何ですか?

境界がどこにあるのかを判断するのは非常に難しいですが、数学は演繹的論理を専門とする分野であると言えます。彼らはたくさんの公理を定め、それらの公理の論理的帰結を推測しようとします。 2 点で線が定義され、以下同様に続きます。統計は帰納的論理の芸術であるのに対し、私たちは最終結果を見て、何がそのような最終結果を引き起こしたのかを理解しようとします.

私たち「数学的統計学者」は、データ分析の帰納的な側面に役立つ数式を考え出します。簡単な例を挙げてみましょう。私が手にコインを持っていて、そのコインは公正なコインですか、それとも表または裏に偏っていますか?と尋ねたとします。コインを 100 回投げて、表がどちらの方向にも 2 分の 1 から離れすぎている場合、そのコインは不公平に見えると言う傾向があります。しかし、問題は、どのくらいの距離が遠すぎるかということです。 48% の表が出たとします。 40パーセントの頭はどうですか?半分からどれだけ離れているかという問題は、さまざまな数式と確率計算を使用して答えられます。

では、遠すぎるとはどのくらい離れているのでしょうか? 40だと思います。

あなたはとても良い推測をしました!すごく感動しました!この質問は、何世紀にもわたって人々の注目を集めてきました。私の基本的なルールは次のとおりです。コインを 100 回投げ、表が 0 から 40、または 60 から 100 の場合、コインに偏りがあるという強力な統計的証拠があります。さらに、賭け金の額にもよりますが、41 または 59 の表が出た場合は、すぐにカジノを離れることをお勧めします。 42 や 58 の表でも、トッサーには神経質になるはずです。

人々があなたにアドバイスを求めてきたとき、あなたは彼らに、ほとんどの努力において中間の道に固執するように言います.どういう意味ですか?

中盤が一番安全です。中道を進むべきという私のアドバイスは、Benjamin Graham の著書 The Intelligent Investor から得たものです。 、その信奉者は一般的に金融市場で非常にうまくやっている本.人々が金融問題について何も知らない場合は、広く分散され、ほとんど取引を行わない大規模な投資信託を使用することをお勧めします.一晩でたくさんのお金を稼ごうとはしません。ビットコインを購入しないでください。ちなみに、目新しいものは買わないでください。新しいものを買って大金を稼ぐ人もいますが、そうする人の大部分は最終的に破産します.

統計学者でさえ、統計的関係を見つけるための画期的な新しい数学的ツール、距離相関法があることを知って驚くかもしれません。

イノベーションがあったことは間違いありません。相関の概念に関する状況を説明しましょう。 1800 年代後半の Karl Pearson や Francis Galton のような人々は、広く使用されている相関の尺度であるピアソン相関係数と呼ばれる概念を開拓しました。

ゴルトンは父親の身長と息子の身長の相関関係を研究しましたよね?

はい。ゴルトンは、より大きく、より高く、より強く、より速く、より知的な素晴らしい人体を成長させる方法を理解しようとしていました.そこで彼は、父親と息子を集めてデータをプロットし (実際、インターネットで散布図を見つけることができます)、データに直線を当てはめ、父親が背が高い場合、身長が高くなる可能性が高いことを発見しました。背が高い。 Karl Pearson が現在 Pearson 相関係数として知られているもので形式化したこの方法には、利点があります。しかし、それには欠陥もあります。たとえば、身長と体重、または父親の身長と息子の身長など、1 次元の変数間の関係を調べようとしている場合にのみ適用できます。変数の 1 つのバッチと別のバッチの間の相関を調べたい場合、関連付けの強さを測定する単一のピアソン相関はありません。人々が日常のアプリケーションで見落としがちな 2 つ目の問題は、ピアソン相関係数は、2 つの変数間に合理的な線形関係がある場合にのみ使用する必要があるということです。関係が非常に非線形である場合、この方法は適用できません。

変数間の非線形関係の例は?

身長と年齢。人間を例にとると、生まれてから大人になるまでの身長を測るとします。 S字カーブですよね?線形関係は適用されません。

線形関係よりもそのようなケースの方が多いようです.

ピアソン相関係数の適用の大部分が無効であることを保証します。多くの場合、実際には役に立たない場合に使用され、データによって裏付けられていない結論につながります.健康データ、財務データ、天体物理学データ、気象データ:人々は、変数間にもっともらしい線形関係があるかどうかを考えずに、すぐに飛び込んでピアソンの相関関係を使い始めます。

線形関係か非線形関係かに関係なく適用でき、両側に変数のバッチがある場合に適用できる相関係数の必要性は、長い間認識されてきました。そこで距離相関の出番です。2007 年頃、Gábor Székely、Maria Rizzo、Nail Bakirov は、距離相関の概念を定義し、それをデータに適用する論文を書きました。そして、それらの書類を見たとき、私は言いました。これを天体物理学のデータに適用する方法を知っています。」それはまさに、私の妻、メルセデス、[メキシコ自律技術研究所の] エリザベス・マルティネス・ゴメスと私が考えていたデータによるものでした.

天体物理学データの研究を続けていますか?

メルセデスと私は、他の天体物理データの距離相関に関する 3 つ目の論文を書く予定でした。私はそれについてのメモを持っています、そして私はそれをする必要があります。でも、ご想像のとおり、見るたびにちょっとした気分になります…まあ、頭に浮かぶ言葉は「憂鬱」です。しかし、それは私が本当に終わらせなければならないことです。 Ken Gross と私は、行列引数の超幾何関数と呼ばれるものに関する別の論文を書く予定でした。私たちは 20 年間取り組んできました。私は何百ページものノートを持っています。その論文は 100 ページを超えます。私は座ってそれを行う必要があります。

まさに今、2 人の共著者と私は、製造プロセスへの距離相関の適用を提供する原稿を修正しています。この方法を適用して、プロセスが管理されているかどうかを判断する方法を見つけました。これは、製品ごとの平均欠陥数が特定のしきい値を下回っていることを意味します。

距離相関はどのように機能しますか?

ここで、フーリエ変換の概念が登場します。フーリエ変換は、音楽のコードを構成音に分解する方法と同様に、数学関数をその成分周波数に分割する方法です。すべての関数はフーリエ変換によって一意に特徴付けることができるため、人々はフーリエ変換を使用して相関の尺度の概念を定義しようとし始めました。 2 つの確率分布 (変数が取る値の統計的広がり) が与えられた場合、2 つの分布が同じかどうかをテストしたい場合は、それらのフーリエ変換を計算するだけで済みます。これらが等しい場合、2 つの確率分布は最初から等しい必要があることがわかります。距離相関係数は、平たく言えば、これらのフーリエ変換がどれだけ離れているかの尺度です。

あなたは昨年、距離相関がピアソンの方法を改善する例を示す論文を書きました。殺人率と州の銃規制法について話してください。

これは、The Washington Post の意見記事によって促されました。 2015 年に、UCLA の法学教授である Eugene Volokh によって作成されました。記事のタイトルは「州の殺人率と州の銃規制法との相関関係ゼロ」です。彼がしたことは—ご存知のように、私の目はバグっていました。信じられませんでした — 彼は州のブレイディ スコアに関するデータを見つけました。これは銃規制法の厳しさに基づく評価であり、ブレイディ スコアを x-y にプロットしました。 これらの各州の殺人率に対してプロットします。プロットを見ると、パターンがないように見えます。彼は Excel などを使用して、このデータ セットに直線を当てはめ、このデータ セットのピアソン相関係数を計算したところ、ほぼゼロであることがわかりました。そして彼は言った、「あはは、州の殺人率と州の銃の法律との間に相関関係はありません.」



コーシャじゃないの?

私はぞっとしました。この分析には多くの間違いがあります。散布図で最初に気付くのは、Brady スコアが高く、殺人率が高い点が 1 つあるということです。それは、州ではないコロンビア特別区であることが判明しました。それは本当に都市なので、分析に含めると、他のすべての人から遠く離れているため、回帰直線の傾きに大きな影響を与えることになります.それが最初の不満です。彼はそのデータ ポイントを削除する必要がありました — 統計 100 でそれを学びます。それを削除して線形回帰直線を再調整すると、ピアソン相関は実際にはゼロではありません。

しかし、このデータセットに線形回帰直線を当てはめるべきでしょうか?残りのデータを見ると、関係に直線性が見られません。その理由は簡単に理解できます。地理的および文化的に類似した地域に対応するポイントがたくさんあります。州を地域ごとに分類すると、適度に直線的な関係が散布図に現れ始めていることがわかります。そして、いずれの場合も、Brady スコアが高いほど、殺人率が低いことがわかります。

距離相関は、物事を分割しなくても、さらに優れた仕事をしますよね?

丁度。妻と私は、意見記事を見た 15 年の秋にこれらの計算を行いました。彼女はコンピュータ プログラミングの達人でした — それだけで彼女がいなくて寂しいです!彼女を恋しく思うのはばかげた理由だと思いませんか?彼女は距離相関係数を計算しました。コロンビア特別区が含まれていても、ブレイディのスコアと殺人率の間に統計的に有意な関係があることを示しています.

統計が公の場で悪用されるような例はたくさんあります。非専門家による統計の使用を改善する方法について考えることに時間を費やしているのだろうか.

はい、これらの恐ろしい統計の誤用があります。そして、私はあなたに真実を言わなければなりません.時々私はただあきらめます.それは止むことはなく、誤用の数です。教育者として、私には世界を継続的に教育する義務があることを知っています。しかし、私はただの小さな男です。ある時点で、私は自分で素敵な夕食を作ってワインを飲みに行き、世界が望むことを何でもさせます。

距離相関などのより優れたツールを開発することで、最終的にこれらの方法がより一般的に使用されるようになることを願っていますか?

はい私はそう願っています。実際、大手製薬会社の 1 つが距離相関法を使い始めていると聞きました。そして、学界の人々がそれをより多く使用していることを私は知っています.私は、距離相関が Excel の標準のプルダウン タブになるように十分長く生きたいと思っています。Excel でなくても、Wolfram Alpha では確かにそうです。 x-y を入力します データ、およびブーム:距離の相関関係が得られます。私はその日のために生きています!



  1. 火星:中国の Tianwen-1 探査機が軌道に乗る
  2. クマムシは最初の星間宇宙旅行者になる可能性がある
  3. 英国で建造された靴箱サイズの人工衛星が今月打ち上げ予定
  4. 「何もない」写真を撮ることが天文学をどのように変えたか
  5. 家の近くで発見された新しい星
  6. ほぼ完全な粒子加速器であることが判明した白色矮星の爆発