いちおう一般的なビッグデータの解釈はこちらの様になっているようです。
ビッグデータ - Wikipedia
IBM Big data : ビッグデータとは - Japan
ビッグデータ利活用:日立
そもそも既存の大規模事業体やポータルサイトなどの情報サービスは、日常的に膨大なデータを取り扱っているのですが、ビッグデータと非ビッグデータの区別を説明する文脈は整理しておきたいですね。そこで、弊社なりにデータ部分に着目した定義をまとめてみました。
(1) レコード数が1000万件を超えるデータベース
これは単にデータ件数が多いということですが、データ量が300万件を超えるあたりからデータベースサーバを実装・運用する場合の次元が違ってきます。
(2) 電子デバイスによって自動的(無意識)に収集されるデータ集合
GPS情報、環境情報、機械動作情報、生体情報、モーション情報などは、サンプリングタイムが秒や分単位となりますので、情報量が非常に多くなります。またネットワークの発達によって、これらのデータを容易に送信・取得することができますので、集約されたデータは膨大なものとなります。
(3) Webアクションログ
以前のWebサービスのアクセスログは概ね、ページビューや広告バナーのクリックスルーといったアクションや画像等のダウンロードを記録したものでした。最近のWebページやWebアプリはページ遷移を伴わず、オブジェクト単位でHTTP通信を行って画面の状態変更をするものが主流になってきました。しかも現在の技術では、ページ内でユーザがどのボタンをクリックしたか、どのコンテンツをどこまでスクロールしたか、どこにマウスを持って行ったかなど、非常に詳細で冗長なデータを収集する事が出来るようになっています。これらをWebアクションログと区別しました。
(4) 伝統的な大企業や組織が保有する非デジタル情報
メーカーや出版系の会社は図版情報などを紙あるいはマイクロフィルムの状態で大量に保管し続けていると思われます。この様な情報資産に対してデジタイズを行い、メタ情報を付加し、データベース化(インデックス化)を行うことで新たな価値が生まれます。相当な人海戦術は避けられませんが、現業へインテリジェンスのフィードバックを行ったり、新たなビジネスが創出されるかもしれません。
(5) RAW(非圧縮)に回帰したデジタルコンテンツ
これまで映像や音声データはコンピュータの処理能力と通信回線速度の制約があり、圧縮・伸張技術とともに発展してきました。将来的に情報媒体(ストレージ)コストが更に下がり、画像処理性能が向上することが予想されますので、圧縮のための劣化が無い非圧縮データの取り扱いが主流になるのではないかと思います。ちなみに非圧縮のフルハイビジョン映像2時間分のデータ容量を単純計算すると32bit x 1920 x 1080 x 7200sec ≒ 58GBとなりますので、それほど非現実的な感じがしませんよね。
ぱっと思い浮かんだのは5つだけでしたが、気が付いたら加筆・修正していきたいと思います。
ビッグデータ - Wikipedia
IBM Big data : ビッグデータとは - Japan
ビッグデータ利活用:日立
そもそも既存の大規模事業体やポータルサイトなどの情報サービスは、日常的に膨大なデータを取り扱っているのですが、ビッグデータと非ビッグデータの区別を説明する文脈は整理しておきたいですね。そこで、弊社なりにデータ部分に着目した定義をまとめてみました。
(1) レコード数が1000万件を超えるデータベース
これは単にデータ件数が多いということですが、データ量が300万件を超えるあたりからデータベースサーバを実装・運用する場合の次元が違ってきます。
(2) 電子デバイスによって自動的(無意識)に収集されるデータ集合
GPS情報、環境情報、機械動作情報、生体情報、モーション情報などは、サンプリングタイムが秒や分単位となりますので、情報量が非常に多くなります。またネットワークの発達によって、これらのデータを容易に送信・取得することができますので、集約されたデータは膨大なものとなります。
(3) Webアクションログ
以前のWebサービスのアクセスログは概ね、ページビューや広告バナーのクリックスルーといったアクションや画像等のダウンロードを記録したものでした。最近のWebページやWebアプリはページ遷移を伴わず、オブジェクト単位でHTTP通信を行って画面の状態変更をするものが主流になってきました。しかも現在の技術では、ページ内でユーザがどのボタンをクリックしたか、どのコンテンツをどこまでスクロールしたか、どこにマウスを持って行ったかなど、非常に詳細で冗長なデータを収集する事が出来るようになっています。これらをWebアクションログと区別しました。
(4) 伝統的な大企業や組織が保有する非デジタル情報
メーカーや出版系の会社は図版情報などを紙あるいはマイクロフィルムの状態で大量に保管し続けていると思われます。この様な情報資産に対してデジタイズを行い、メタ情報を付加し、データベース化(インデックス化)を行うことで新たな価値が生まれます。相当な人海戦術は避けられませんが、現業へインテリジェンスのフィードバックを行ったり、新たなビジネスが創出されるかもしれません。
(5) RAW(非圧縮)に回帰したデジタルコンテンツ
これまで映像や音声データはコンピュータの処理能力と通信回線速度の制約があり、圧縮・伸張技術とともに発展してきました。将来的に情報媒体(ストレージ)コストが更に下がり、画像処理性能が向上することが予想されますので、圧縮のための劣化が無い非圧縮データの取り扱いが主流になるのではないかと思います。ちなみに非圧縮のフルハイビジョン映像2時間分のデータ容量を単純計算すると32bit x 1920 x 1080 x 7200sec ≒ 58GBとなりますので、それほど非現実的な感じがしませんよね。
ぱっと思い浮かんだのは5つだけでしたが、気が付いたら加筆・修正していきたいと思います。
コメント