最近「ビッグデータ」という単語を頻繁に聞くようになりました。
先の記事で紹介されているクラウドコンピューティングとも関連が深い分野です。
そこで、ビッグデータについて簡単にまとめてみました。
■ビッグデータとは
まずビッグデータが従来のデータとは異なる点として、以下の「3つのV」が挙げられます。
Volume:容量…その名の通り大容量データであることです。
Variety:多様性…従来の定型データだけでなく音声や画像・動画等の非定型データを含みます。
Velocity:速さ…データが高いリアルタイム性を持っていることです。
ただし、現状では従来通りの構造的・定型データで単に容量の大きなものをビッグデータと呼ぶ場合もあり、定義は曖昧なようです。
■ビッグデータの処理
ビッグデータを使って分析し、有益な情報を得るためには、巨大なデータを処理出来る環境が必要になります。
そのために近年用いられている技術は、クラウドコンピューティングの記事でも登場していましたが複数の計算機で処理を実行する分散並列システムです。 代表的なものとしてHadoopやMapReduceなどのフレームワークが挙げられます。
■可能になること
これまで容量や処理技術の問題から蓄積出来なかったデータを利用したり、多種多様なデータを組み合わせて分析することによって、これまで無価値な情報だったものから有用な分析結果が得られるようになります。
実例の一つとして、ユーザの履歴情報を利用した近未来の予測があります。ある自動車メーカーでは、ユーザの行動履歴というビッグデータを分析することによって、時刻や場所から次の目的地の予測を行い、エネルギー効率の最適化を実現するシステムを 開発しました。データの収集には、GoogleのクラウドであるGoogle Storageが使われています。
■さいごに
データ蓄積にかかるコストは現在下がり続けており、企業は様々な種類のデータを長期にわたって大量に蓄積可能になりました。
ただデータとその処理技術が揃っていたとしても、それをどのように分析し、企業活動に利用するかは重要な課題です。どの分析手法を利用して結果をどう解釈するかは、機械化が困難で属人的なスキルであることを意識しておきたいところです。
Takahara@NI
0 件のコメント:
コメントを投稿