データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

単変量解析と基本統計量

単変量解析とは

単変量解析は、ひとつの対象にデータが1つしかないデータを扱います。たとえば、ある人の通信簿のデータなどです。また、ある科目の成績や平均点の時系列データもデータは1つなので、単変量といえるでしょう。後者は時間というもう一つの指標がありますので、正確には2変量なのかもしれませんが、時間の進み方は一定と考えれば単変量として考えてもよいのではないかと考えています。

基本統計量

基本統計量とは、そのデータの基本的な特性を表すものです。例えば、ある科目のテストの結果のようなデータが得られた時に、クラスの平均点を出すことは非常によく行なわれます。平均点より高かったのか、低かったのかがわかれば、自分がどの程度の位置づけだかわかります。最高点は何点だったのか、最低点は誰だったのかも調べるかもしれません。自分の位置づけをもう少し詳しく知ろうと思うと、偏差値という概念も出てきます。偏差値を出すには、皆の点数がどのくらい分散しているのか(どのような分布なのか)を知る必要があります。

このように、データの基本的な特性は、平均点に代表されるような「代表値」と、最大最小や標準偏差といわれるような「分散(分布)」を表す指標の大きく2種類に集約されます。

基本統計量の算出

以下はAさんとBさん二人の大学の成績です。これは、このデータを一見しただけでは、それぞれがどのような成績で、どのような差があるかはよくわかりません。

表1.2種類のデータ

データが集まった時には、まずはそのデータがどのような分布をしているかをチェックする必要があります。二人の成績がどんな分布をしているか、以下のような度数分布図を作ってみました。

図1.Aさんの成績分布
図2.Bさんの成績の分布

このような度数分布を作ることで、視覚的にも分布の様子がよくわかります。Aさんの成績は正規分布に近い、左右対称のきれいな形ですし、Bさんの成績は低いほうに偏った歪んだ分布になっています。ただ、この情報だけでは、詳細な違いが数値としては把握できません。

そこで、この2人の成績の基本統計量を見てみましょう。エクセルの分析ツールを利用すれば、以下のような結果が簡単に出力されますので、データが集まったら代表値である平均だけはなく、このツールを用いて他の指標もチェックしておくのがよいでしょう。

表2.基本統計量

基本統計量を見ると、平均はBさんのほうが悪く、形の歪みを表す歪度(わいど)が、左右対称のAさんはゼロなのに対しBさんは0.77なので、歪んだ形だということが分かります。歪度は平均より小さいほうに歪んでいる場合は正、大きいほうに歪んでいる場合は負の値になります。その他、尖度(せんど)という指標がありますが、これは正規分布では0になり、より尖っているほど値が大きくなります。上記の例では、Bさんのほうが尖っていることがわかります。

このページをシェアする

About

ALBERTについて