7 年前、David Schimel が National Ecological Observatory Network と呼ばれる野心的なデータ プロジェクトの設計を依頼されたとき、それは National Science Foundation の助成金にすぎませんでした。正式な組織も、従業員も、詳細な科学計画もありませんでした。リモート センシング、データ ストレージ、コンピューティング能力の進歩に勇気づけられた NEON は、生態学における最大の疑問に対する答えを求めました。それは、地球規模の気候変動、土地利用、生物多様性が、自然生態系と管理された生態系、および生物圏全体にどのように影響するかということです。
「それはよくわかりません」とスキメルは言いました。
シメル氏は、最初は新しいプロジェクトと国立大気研究センターの上級科学者としての役割の間で時間を割いていたが、「重要な科学に対処するために必要な膨大な数の異なる測定値によって、課題の大きさに驚いた」と語った。質問。観測所を建設したり、スタッフを雇ったりする前に、どこで測定を行うか、何を測定するか、どのように測定するか、意味のあるデータを生成する方法を決定する必要がありました。
Schimel は、全国のサイト オプションを調査し、厳密な科学的方法論とデータ処理要件を開発できる NASA に触発された「タイガー チーム」を編成し始めました。最終計画では、バックグラウンドが異なる数十人の科学者を雇用する必要がありました。米国本土、アラスカ、ハワイ、プエルトリコに 100 以上のデータ収集サイトを構築。 30 年間、年間約 6,000 億回の生の測定値を記録。生データをより使いやすい「データ製品」に変換して、科学者や一般の人々が自由に利用できるようにします。天文台ネットワークの構築にはさらに 4 年かかり、4 億 3,400 万ドルの費用がかかると予測されており、年間の運営費を賄うにはさらに数百万ドルが必要になります。
2007 年、Schimel は NEON のチーフ サイエンティストおよび最初の正社員になりました。 「私は長い間大陸規模でのプロセスに興味を持っていましたが、それは常にデータ不足の活動でした」と彼は言いました。 「その規模で適切なデータを収集するシステムを実際に設計する機会は、非常に魅力的でした。」
科学全体で、「ビッグサイエンス」と呼ばれる大規模な観測データまたは実験データの同様の分析は、多くの最大の謎への洞察を提供します。暗黒物質とは何ですか?宇宙全体にどのように分布していますか?生命は別の惑星に存在しますか、または存在する可能性がありますか?遺伝子マーカーと病気の関係は?地球の気候は、次の世紀とそれ以降にどのように変化するでしょうか?ニューラル ネットワークはどのように思考、記憶、意識を形成するのですか?
物理科学や生命科学から、Google、Facebook、Twitter によって集約されたユーザー生成コンテンツに至るまで、最近のデータ狂乱の多くは、新しい柔軟なデータベース、大規模なコンピューティング能力、 URL 短縮およびブックマーク サービス Bitly の元プロダクト マネージャーである Matt LeMay 氏は、それらから少しの意味を引き出すための洗練されたアルゴリズムを使用していると述べています。
しかし、「ビッグデータは魔法ではありません」と彼は、今年の夏にロウアー マンハッタンでデータベース ワークショップを教えているときに警告しました。意味を理解できなければ、いくらデータがあっても意味がありません。
NEON のようなプロジェクトの場合、データの解釈は複雑な作業です。チームは早い段階で、最大の物理学および生物学プロジェクトと比較して中規模であるものの、そのデータは非常に複雑になることに気付きました。 「NEON のビッグ データへの貢献は、その規模にとどまりません」と、プロジェクトのデータ製品担当アシスタント ディレクターである Steve Berukoff 氏は述べています。 「それは、データの不均一性と空間的および時間的分布にあります。」
気候科学における約 20 の重要な測定値や素粒子物理学における膨大ではあるが比較的構造化されたデータとは異なり、NEON には、温度、土壌、水の測定値から、昆虫、鳥、哺乳類、微生物のサンプル、リモートのセンシングと空撮。データの多くは非常に構造化されておらず、解析が困難です。たとえば、分類名や行動観察などは、議論や改訂の対象となることがあります。
そして、迫り来るデータ クラッシュが技術的な観点から見ると気が遠くなるように見えますが、最大の課題のいくつかはまったく技術的なものではありません。多くの研究者は、将来の大規模な科学プロジェクトと分析ツールは、科学、統計、コンピューター サイエンス、純粋数学、および巧みなリーダーシップの適切な組み合わせによってのみ成功すると述べています。分散コンピューティングのビッグデータ時代 (非常に複雑なタスクがコンピューターのネットワーク全体に分割されている) では、研究者のネットワーク全体で分散科学をどのように実施すべきかという問題が残っています。
カリフォルニア大学バークレー校の統計学者で、高次元データの問題に取り組んでいる Bin Yu 氏は、次のように述べています。 「人間が先導しなければならない」しかし、彼女は、「現在、誰がデータ サイエンスをリードしているのか誰も知りません。」
大学を「非常にサイロ化している」と表現する Yu 氏は、目標は単に学際的な研究ではなく、壁や部門のない「学際的な研究」の状態に到達することであると述べました。
アルゴンヌ国立研究所の環境微生物学者であるジャック・ギルバート氏は、大規模な科学プロジェクトは「1 人で対処することはできません」と述べています。同氏は、NEON が土壌サンプルを分析するための基準を策定するのを支援しており、オンラインになったときにそのデータを利用する予定です。 「私たちは協力する必要があります。大きすぎる問題です。」
大きな「悪い」科学
生態学は伝統的に、生物が周囲とどのように相互作用するかを調べる小規模で局地的な研究を行ってきました。しかし、地域的または地球規模で基本的な問題に取り組む際、マイクロシステムのアプローチは、6 人の盲人が象のさまざまな部分を触ってその形を判断するという古いインドのたとえ話を思い起こさせます。ジョン・ゴッドフリー・サックスの有名な再話では、象は壁、槍、蛇、木、扇、またはロープのようなものであるという、非常に多様な結論に達します。
「重要な情報が欠けていて、全体像がつかめませんでした」と、37 歳の植物生態学者 Andrea Thorpe は言いました。Andrea Thorpe は、陸上生態学のアシスタント ディレクターとして NEON に昨年入社する前に侵入種に関する小規模な研究を行っていました。
小規模な研究は、地域レベルで非常に必要とされる深さと詳細を提供しますが、特定の一連の質問に限定され、研究者の特定の方法論を反映する傾向があるため、結果を再現したり、より広範なモデルと調整したりすることがより困難になる可能性があります.
「短期的で小規模な研究では調査できない、生態系に非常に大きな影響が起こっているという事実を逃れることはできません」とソープは言いました。
シメルが呼ぶところのマクロシステム、つまり「大きな」エコロジーは、標準化された大規模なデータによって可能になります。彼は、大規模で豊富なデータ セットを持つことで、科学者は単純化されたモデルで「ピーナッツ バターを塗りつぶす」のではなく、現実世界の複雑さと変動性を大規模な現象のモデルに組み込むことができると述べています。
生態学者は、約 50 年前に初めてビッグデータの世界を掘り下げました。国際生物学プログラムは、科学分野を横断し、大規模なシステムをモデル化する試みに数十か国を巻き込みました。これは、国際的なパートナーシップの先駆者や支持者に愛されていますが、当時、ビッグデータ モデリングや大規模なコラボレーションに懐疑的だった従来の生物学者からは厳しく批判されていました。このプロジェクトは NEON のような新しい共同作業への道を開きましたが、いくつかの批判は残っています.
1969 年、Thomas Rosswall は 28 歳の微生物生態学者として IBP のスウェーデンのツンドラ生物群系セクションに参加しました。生物学に協調的な研究がほとんど存在しなかった時代には、課題は微生物学者を植物学者と協力させ、水文学者を気象学者と協力させることだったと彼は言いました。そして冷戦は、外部の科学者がロシアのサイトを訪問することができなかったことを意味しました。代わりに、ロシア人は自分たちの作品の写真を共有しました。
国際科学評議会の元事務局長で、現在は引退しているロスウォール氏は、IBP での研究が国際的な科学者としてのキャリアを形成したと述べています。ツンドラ プロジェクトは特に緊密なコミュニティだった、と彼は言いました。 「私たちも若くてナイーブでした。それが良かったのかもしれません」と彼は言いました。 「物事をどのように行うべきかについて先入観がありませんでした。」
理想主義的なビジョンは鋭い批判に見舞われました。一部の生物学者は、まだ確固たる理論的基盤を持っていない大きな新しい生態系科学プロジェクトにお金が浪費されていると考えていました。ロスウォール氏によると、批評家たちは彼と彼の同僚が「若すぎて、お金を稼ぎすぎた」と考えていたという。
「これは、生態学的研究に費やされたよりもはるかに多くのお金でした」と、オクラホマ大学の植物生態学者であり、草原の生態系を研究する IBP の取り組みに取り組んだ研究キャビネットの議長であるポール・リッサーは言いました。 「人々は 50,000 ドルから 60,000 ドルの助成金を受け取ることに慣れていましたが、ここでは数百万ドルが IBP に送られました。」
批評家はまた、大規模なデータ駆動型モデルは機能しないと述べました。そして、多くの人はそうしませんでした。しかし、これらの失敗は将来のプロジェクトを形成するのに役立ち、科学者はより大きなデータベースを構築し、メタデータ (IBP 中にノートに記入された手書きデータに関するデータ) をプロジェクトに組み込む必要があることを示しました。
IBP には、今日のコンピューティング能力、データベース、デジタル ストレージ、電気通信、インターネットは言うまでもなく、最新のリモート センシング技術も欠けていました。 「IBP は、実際にツールを手に入れる前にビッグデータに取り組みました」と Risser 氏は言います。
また、伝統的で自由奔放なエコロジストの中には、独自の研究テーマを選択したり、独自の方法論を使用したりすることを許可しない構造化されたプログラムに参加するという考えに苛立っている人もいます. 「研究は非常に組織化されており、ほとんどの生態学者は管理された環境での作業に慣れていませんでした」とリッサーは言いました.しかし、Risser 氏は、このプロジェクトが「さまざまな分野や数学的モデリングに慣れている大学院生の全世代を生み出した」と指摘しました。
IBP の欠点にもかかわらず、そのデータ セットとモデルの一部は現在でも使用されています。そして、その遺産は、1980 年から運営されている NEON、長期生態学研究ネットワーク、データ共有のためのプラットフォームを提供する地球のデータ観測ネットワークなど、今日の大きな生態学プロジェクトのオープンなコラボレーションと方法論の中で生き続けています。地球規模の生態学的データのアーカイブ
そして50年後、批判は和らぎました。 「それはプロセスの一部です」とロスウォールは言いました。彼は、北極研究ステーション間の協力が増加するのを見て興奮しています。その多くは IBP に端を発しています。 「私たちは、フィールド リサーチをどのように行うことができ、またどのように行うべきかを開発するための基礎を実際に形作りました」と彼は言いました。
現在、Rosswall は、新しい大規模なエコロジー プロジェクトの計画の策定を手伝っています。それは、NEON のスウェーデン版です。
一緒に来て
NEON に対する Schimel の哲学は、30 年前に、IBP の草地プログラムから始まったチームの研究助手としての彼の経験によって部分的に形作られました。彼のキャリアは始まったばかりで、すでに研究室のスペースとリソースを化学者、植物科学者、微生物学者と共有していました。 「私にとってショックだったのは、どこでもそのように機能しなかったことです」と彼は言いました。 「IBP は、科学を行う方法としての個人の洞察とは対照的に、製品としてのデータとモデル、チームワークとリーダーシップに対する姿勢において、時代を先取りしていました。」
NEON の 66 人の研究者のうち、「同じことをする人は 2 人もいない」と 36 歳の Berukoff 氏は述べています。このプロジェクトは「自然にフィットした」ものでした。
しかし、多様なチームで作業するということは、研究者が進んで耳を傾け、学ぶ必要があることを意味します。 「人々は、同じことを話しているのに、同じことを話していると思っていることがよくあります」と、ベルコフは言いました。 「あるいは、彼らは同じことについて話しているのに、2 つの異なる方法で話している。」
これらの違いは、他の分野について学ぶ機会を提供しますが、「言われていることと聞いていることの間のこのインピーダンスの不一致のために、イライラすることもあります」と彼は言いました. 「そのギャップを埋めることが、プロジェクトの成功の鍵です。」
Earth Microbiome Project は、世界中で収集された微生物サンプルをマッピングして研究する国際的な取り組みであり、何百人もの主任研究者と協力しています。 2010 年からプロジェクトに参加しているギルバート (36 歳) は次のように述べています。 .志を同じくしない人は、明確な態度をとる傾向があります。」
志を同じくする人の多くは若い研究者であり、「これを行うスキルを持っている人」である傾向があると Gilbert 氏は述べています。 「科学界の大部分は、データに完全に圧倒されています」と彼は言いました。 「津波の先を行くためには、適応する必要があります。」
調整の一部には、オープンソース プラットフォームやデータ分析ツール、データ共有、科学出版物へのオープン アクセスなどの「オープン サイエンス」慣行の採用が含まれている、とクリス マットマン (32 歳) は述べた。 Yahoo、Amazon、Apple などのテクノロジー大手が使用し、NEON が検討しているデータ分析フレームワークです。 Mattmann 氏によると、大きくて乱雑なデータ セットを分析するための共有ツールを開発しなければ、新しいプロジェクトやラボごとに貴重な時間とリソースを浪費し、同じツールを再発明することになります。同様に、データと公開された結果を共有することで、冗長な研究が不要になります。
この目的のために、新しく結成された Research Data Alliance の国際代表が今月ワシントンで会合を開き、グローバルなオープン データ インフラストラクチャの計画を策定しました。
若い科学者は、オープン データとオープンソース ツールの作成と使用に慣れてきており、「公開出版に迅速に移行するよう『組織』に圧力をかけています」と、58 歳の Schimel 氏は述べています。 1 人の PI が制御できるリソースで回答してください。」
NEON が実施した専門的な調査では、「学位を取得して 20 年未満の回答者の 80% が、NEON のオープン データを使用する可能性が高い、または非常に高い可能性が高い」と Schimel 氏は述べています。 「最年長のグループは可能性がはるかに低く、協力的でもありませんでした。したがって、NEON のアウトリーチ戦略は、上級研究員を関与させることよりも、「uns」(学部生から在任期間なし) に情報を提供し、関与させることに重点を置いています。」
バークレーの統計学者である Yu は、数学者と統計学者が大きな科学プロジェクトの知的リーダーになることを望んでいます。しかし、「数学はより技術的な作業に重点を置いており、人々がリーダーシップ スキルを身につけるよう奨励するものではありません」と彼女は言いました。 「私たちが文化を変えなければ、彼らがあなたを必要としている場所でそれが起こる可能性がありますが、あなたは重要な決定を下すことはできません.」
50 歳の Yu 氏によると、エンジニアは問題の解決に重点を置いたチームで作業することに慣れていますが、「数学は人々を直線的にランク付けする傾向があり」、個々の序列を決定します。 「やりがいのあるキャリアを持つ若者を奨励し、育成するために、文化を変えなければなりません。それをするのは高齢者次第です。」
Yu は、数学の学生にコンピューティング スキルをもっと学ぶようにアドバイスしています。彼女の学生はローレンス・バークレー国立研究所のスーパーコンピューターにアクセスできますが、一部の学生は「まだそれを使用するスキルを持っていません」と彼女は言いました。 「彼らは学んでいます。」
昨年 NEON が建設段階に入った後、Schimel 氏は建設や実装よりも研究や科学計画に関心があり、次の大きなプロジェクトを追求するために会社を去りました。彼は、カリフォルニア州パサデナにある NASA のジェット推進研究所で炭素と気候の主任科学者になり、宇宙ベースの観測を使用して炭素収支と生態系を世界的に研究しようとしています。
「Schimel のような機敏な科学者は、これらのプロジェクトにとって重要です」と Mattmann 氏は述べています。 「彼は、新しいクラスのデータ サイエンティストが本当に必要とされていることを認識しています。」
ジェット推進研究所でシメルと一緒に働いている上級コンピューター科学者のマットマンは、データ管理者と科学者の間にしばしば存在する壁について説明しました。 「CS の学位を持っていれば、IT 担当者に分類されます」と彼は言いました。 「しかし CS では、多くの場合、同じ数学を学習したことがあるでしょう。それを別のモデルに適用するだけです。
「私は IT 担当者ではないと感じています」と Mattmann 氏は言います。 「大きな問題は、訓練を受けたコンピュータ サイエンティストを対象に実践的なベンチ サイエンスを教えるべきか、それとも物理科学者や自然科学者を対象にコンピュータ サイエンスを教えるべきかということです。」数年前、彼は主にコンピュータ サイエンティストを雇っていましたが、現在は科学者を雇ってプログラミング方法を教えています。
科学者、数学者、コンピューター サイエンティストをハイブリッド データ サイエンティストに変えることで、教育における数学、工学、テクノロジーへの関心が高まると Mattmann 氏は述べています。 「世界中の Facebook と競争するために必要なことはそれだけです。誰が誰を突いたのかを把握するために Facebook で多額の報酬を得ることができます。また、データ サイエンスを使用して水の収支を把握し、持続可能な地球を作ることもできます。」
学術推進システムも「学際的な研究を重視するように変更する必要があります」と Yu 氏は述べています。 「境界線上で人を評価するのは難しいですが、それが今の科学の最もエキサイティングな部分です。」