>> 自然の科学 >  >> 生き物

データの海にあふれ、生態学者はオープン アクセス ツールに目を向ける


海洋生態学者が 2012 年に初めて海洋健康指数 (OHI) を発表したとき、それは非常に野心的な成果でした。この指標は、カリフォルニア大学サンタバーバラ校の国立生態学的分析合成センター (NCEAS) の数十人の科学者、経済学者、環境管理者と、非営利団体のコンサベーション インターナショナルとの共同作業から生まれ、包括的なフレームワークとして設計されました。海洋生態系の健全性を世界的および地域的に科学的に評価するため。このインデックスは、100 以上のデータベースを利用して、生物多様性と生態学的生産性の地域的な測定値を、漁業、産業利用、炭素貯蔵、観光、その他の要因に関する情報と組み合わせて、外洋と沿岸地域の健康状態を 0 から 100 の範囲でスコア付けしました (世界の海洋は、その最初の年に 60 のスコアを獲得し、地域の評価は 36 から 86 の間でした。) インデックスの作成者は、地域間および地域内の比較のこのような標準化された基準が、最も効果的な対策を特定して伝達するのに役立つことを望んでいました。海を保護し、政策立案者をより良い決定に導く.

しかし、そのようなインデックスの価値は、一度実行することではなく、何度も実行できることから得られます。 OHI チームが 2013 年に再びこの作業に取り掛かったとき、彼らはすぐに問題にぶつかりました。彼らのデータ セット、ドキュメント、およびモデリング手順は依然として見苦しいものでした。 OHI チームは雑多なデータを 2012 年の結果の形にまとめましたが、更新のために再検討する際に自分の作業を再現するのに苦労していました.

再現性は、近年、生物医学と心理学のホットなトピックになっていますが、これらの分野だけではありません。環境科学者は、研究者が地域から大陸、さらにはさらに大きな規模の生態系のダイナミクスを理解するためにビッグデータのアプローチを採用するにつれて、再現性と透明性の問題がますます深刻になる可能性があると繰り返し警告してきました.

今週、NCEAS の Julia S. Stewart Lowndes と彼女の同僚が、OHI チームがその見苦しいデータの問題を静かに克服した方法について発表したエッセイは、マクロシステムの生態学プロジェクト、さらには控えめに焦点を絞った研究が、オープンアクセス化。彼らの話は、彼らの例に倣いたいと思うかもしれない研究者のためのハウツーも提供します.

「これを自分たちの未来として見て、それによって力を与えられたと感じてもらいたいと思います」と Lowndes 氏は言います。

環境科学におけるビッグデータ プロジェクトは、1960 年代半ばから 70 年代の国際生物学計画まで、少なくとも半世紀前にさかのぼります。多くの場合、生態学者や他の生物学者から、プロジェクトが焦点を合わせていないように見えることや、研究者を厄介で非生産的な共同作業に閉じ込めていると不平を言う懐疑論に遭遇しました。希少種やデリケートな環境を研究する生物学者は、機密情報や専有情報と見なされる情報を制御できないことに反対しています。

生態学者が使用するデータの種類が異なることも課題になる可能性があると、海洋生物学者で元 NCEAS 副所長で、現在はワシントン州立大学の環境研究、教育、アウトリーチ センターの所長を務めるステファニー E. ハンプトン氏は述べています。遺伝子配列、系統樹、土地利用データ、リモート センシングと画像データ、個体数と種の行動の記録など、これらすべてを標準化し、マクロシステム生態学プロジェクトに組み合わせる必要があります。 「私たちは皆、ゲノミクスに取り組んでいる人々をうらやましく思っています。なぜなら、彼らはわずか 4 文字を管理しようとしているからです」と彼女は笑いながら言いました。 「生態学は、異質性の問題の真の象徴だと思います。」

紛争の少なくとも一部は、生態学者の訓練と文化にもかかっています。研究者は、自分で作業するか、親しい同僚の比較的居心地の良いサークルで作業することに慣れています。ハンプトン氏によると、生態学者の間の伝統的な「頑固な個人主義者」の感性のために、研究者は種や生息地を研究する独自の方法を開発することがよくありました. 「通常、私たちは一緒にフランケンシュタインの何かをしています。」彼らは、自分たちの手順や記録管理が、他の生息地で働いている科学者が使用したものと完全に一致しているかどうかについて、あまり心配していませんでした.実際、研究者はしばしば、自分たちの特異なアプローチが対象のユニークな特徴によって正当化されると感じていました.

「私たちは生態学者や環境科学者としての訓練を受けていますが、データを扱うように実際に教えられたことはありません。そのため、誰もが独自の方法を思いつくだけです」と Lowndes 氏は言います。

しかし、環境データの共有と精査が現代の生態学の大きな部分を占めるようになるにつれて、OHI の取り組みが台無しになるにつれて、これらの特異性は擁護しにくくなっています。 Lowndes と彼女の共著者が指摘する 1 つの皮肉は、2012 年のインデックスに取り組んでいる間、再現性の問題を予見していたため、130 ページの補足資料に不均一なデータを処理する方法を文書化したことです。これは「環境科学の基準を超えています」 .」

しかし、2013 年に再開したときは、ワークフローが根本的に非効率だったため、これらのリマインダーでさえ十分ではありませんでした。彼らはまだ、すべての提供データベースから手動でデータをコピーして Excel ワークシートに貼り付けていました。モデル内の個々のデータ処理の選択の背後にあるロジックは、多くの場合、電子メールやその他のドキュメントに散らばっていました。 「それは、これらすべてのステップを自分たちでやり直さなければならないことを意味しただけでなく、まったく同じ方法で行っていることを確認する必要がありました」と Lowndes 氏は言います。 「エラーの余地がたくさんありました。」

この苛立たしい結果は、他の研究者が意図したように OHI とその方法を自分たちの研究に適用できないことを示唆していたのは十分に悪いことでした.しかし、OHI チームは、中断したところから簡単に再開することさえできないことにも気付きました。彼らは、未来の自分との協力者として失敗したのです。



2013 年の OHI と今後の分割払いを軌道に乗せるため、Lowndes 氏と OHI チームは、プロジェクトの参加者がワークフローをより高速に、より多くの作業を行うために使用する無料のオープン アクセス ソフトウェアの「OHI ツールボックス」を組み立てる複数年にわたるプロジェクトを開始しました。統一され、データ処理の選択がより透過的になります。この決定は当初、「多くの締め切りがあり、より効率的にする必要があったため、自衛のために」行われたと Lowndes 氏は述べています。背景情報がシステムに組み込まれているため、広範な補足文書は不要です。 OHI データを使用して、世界の一部の地域で独自のローカル測定値を開発したい科学者は、より高価なソリューションを購入する余裕がないため、ツールは無料でなければならないことを彼らは知っていました。

そのため、OHI チームはすべてのコードをプログラミング言語 R で記述することに決め、すべてのコードがデータ準備のあらゆる側面を直接文書化するようにしました。 OHI 内で特定の評価スコアを生成するために使用されるモデルは、基になるデータが異なるため、もともと複数の言語で記述されていました。チームはこれらすべてのプログラムを R の新しいプログラムに置き換えました。これらのソフトウェア ツールに GitHub リポジトリを使用することで、組み込みのバージョン管理システムを利用して、ファイルの編成と命名を確実に改善しました。

「コーディングは、起こったことの歴史的記録を提供するだけではありません。再利用可能です」と Lowndes 氏は述べています。 「URL からデータをダウンロードし、そのデータに対して前年のデータとまったく同じ処理を行うスクリプトがあります。」さらに、モデル間で同じツールを使用すると、それがどのように行われたかを伝えるのに役立ちます。 OHI の設定により、研究者は、正式なトレーニングを受けたかどうかに関係なく、データ サイエンスの優れた一貫したプラクティスを学び、従う必要があります。

これらの手順の改善の結果、OHI チームは 2013 年の更新プログラムをスケジュールどおりにリリースし、さらに 3 回の年次更新プログラムをフォローアップすることができました。第 5 回 OHI の結果は、昨年 12 月に発表されました。手順を繰り返して改良するたびに、研究者はより短い時間でより良い科学を行うことができることに気付きました.

OHI のオープン データ サイエンス アプローチの成功を示す静かな兆候の 1 つは、2016 年の世界の海洋の健康評価スコアである 71 が 2013 年から本質的に変わっていないことをプロジェクトの Web サイトに記したことです (2012 年のスコアも 71 に再評価されました。 ) OHI 手順の透過的なコーディングのおかげで、研究者は 2016 年に使用された更新された方法で以前のスコアを簡単に再計算できました。海洋の全体的な健康状態は年々著しく改善されていない可能性がありますが、それを研究するためのデータの取り扱いは、 .



  1. 脳は世界に合わせて柔軟な感覚を再形成する
  2. ウナギは魚ですか?
  3. 科学者たちは、大気汚染がどのように肺がんを引き起こすかという謎を解決したと考えています
  4. なぜ歯は虫歯になるのですか
  5. DNA複製はどのように起こるのですか?関与する酵素は何ですか?
  6. クリスマスツリーワームは有毒ですか?