BIツールのデータ集計に用いられる手法「クロス集計」とは?

BIツール
今やさまざまな企業で使われているBIツール。そんなBIツールの主な機能はデータの集計・抽出・分析などですが、代表的なデータ集計手法「クロス集計」についてご存じでしょうか? そこで今回は、このクロス集計について詳しく解説したいと思います。
クロス集計とは
クロス集計は、複数の集計軸を組み合わせて行うデータ集計手法です。クロス集計について説明する前にまず、「単純集計」について知る必要があります。
単純集計とは
単純集計は、最も簡単で基本となるデータ集計の方法。GT(Grand Total)とも呼ばれ、アンケート結果をそのまま出すようなイメージです。例えば、アンケートでYesとNoのどちらかを回答してもらったとき、単にYesの数とNoの数だけを集計し、それぞれ何%ずつあったかなどを表したものが単純集計となります。
単純集計の詳細を見るのがクロス集計
単純集計だけでは、YesとNoの割合までしか分かりません。そこで登場するのがクロス集計です。クロス集計では例えば、男性と女性の回答を分け、「男性のYes」「女性のYes」「男性のNo」「女性のNo」の数をそれぞれ出すといった具合です。ほかにも年齢別など、知りたい属性ごとに回答結果を出せば、より詳細な傾向が分かります。
クロス集計は分析の基本
2つの異なる属性で傾向を把握するのがクロス集計ですが、2つ以上の集計軸を組み合わせたものは多重クロス集計と呼ばれます。さまざまな角度から分析を行いたい場合、いろいろなパターンのクロス集計を行うことになるでしょう。このように、クロス集計は分析の基本だといえます。
クロス集計のメリットとデメリット
データ集計の結果を細かく分析できることがクロス集計の特徴であり、メリットでもあります。しかし一方で、クロス集計を行う上で注意しなければいけないポイントも存在します。クロス集計のデメリットについてもご紹介しましょう。
クロス集計のデメリットはまず、サンプル数の制約です。より詳細にデータを分けるということは、それだけ個々のサンプル数が少なくなります。回答数が3つや4つの中で割合を出しても、正確な傾向は把握できません。このようにクロス集計では、十分なサンプル数が必要であるということです。
ただ、アンケート調査にはコストがかかります。当然、サンプル数が多ければ多いほど、費用は上がりますので、詳細なデータを分析しようとすればするほどコストが高くなってしまうということです。
クロス集計によって行える分析手法
それでは、実際にクロス集計からはどのような分析が行われるのかを紹介しましょう。
相関係数
相関係数とは、2つのデータがどれだけ深い関係にあるかを示す数値です。例えば横軸に気温、縦軸にビールの売上をとり、グラフに表していけば「気温が高ければ高いほど、ビールの売上が伸びる」といった右上がりの関係が見られたとします。このように比例しているグラフでは、相関係数は正の値を取ると同時に、係数が高くなります。逆に反比例していた場合は負の相関係数となりますが、直線的であれば相関係数自体は高くなります。相関係数が低くなるのは、グラフが直線的ではなく蛇行していたり、全体に広がっていたり、一部に固まっていたりするような場合です。
回帰分析
回帰分析とは、相関関係を推定するための手法のひとつです。関係がありそうな2つの変数のうち、一方の変数から将来的な値を割り出すことができます。
因子分析
因子分析は、データの中の潜在的な要因を見つけ出す分析手法です。アンケート項目が多く、回答に影響がある要因を把握しづらいときなどに用いられます。
中身を知って上手に使いこなそう
今回解説したクロス集計は、BIツールの中で自動的に行われているものです。ツールの中身を把握しておくことで、BIツールをより上手に使いこなすことができるでしょう。
参考: