コンピューターサイエンス教授のJure Leskovecが率いるチームは、生データを自動的にクリーニングおよび変換できる「Data Wrangler」というシステムを作成しました。
「生の政府のデータはしばしば乱雑で理解しにくい」とレスコベックは言った。 「私たちの目標は、研究、ジャーナリズム、またはその他の目的に使用したい人がこのデータをよりアクセスしやすくすることができるツールを作成することでした。」
データラングラーは、さまざまな機械学習および自然言語処理手法を使用して、データのエラーを識別および修正し、テキストから意味のある情報を抽出することで機能します。
このシステムは、財務記録、犯罪統計、環境データなど、さまざまな政府データを分析するために使用できます。
Leskovecと彼のチームは、すでにデータラングラーを使用して、米国国勢調査局のアメリカコミュニティ調査やニューヨーク市警察署の停留所データなど、いくつかの大規模なデータセットを分析しています。
これらの分析の結果は、いくつかの学術雑誌に掲載されており、ジャーナリストや政策立案者によって彼らの仕事を知らせるために使用されています。
「データラングラーは、人々が政府のデータを使用する方法に革命をもたらす可能性があると考えています」とLeskovec氏は述べています。 「このデータをよりアクセスしやすく使用できるようにすることで、人々が自分の生活とコミュニティについてより良い決定を下すことができます。」
チームの調査は、ジャーナル「Nature Machine Intelligence」に掲載されました。