データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

その他の分布

様々な単変量分布

データがふた山になっている場合や、尖っている場合、外れ値がある場合があります。データがふた山になっている場合、平均値にはほとんどデータが存在しないということもあります。ふた山になるデータの例としては、1日の電車の本数などが挙げられます。基本統計量の中の尖度は正規分布より尖っている場合はプラスの値をとります。

図10.ふた山の分布
図11.尖った分布
図12.ふた山分布の例

また、特に分析上気をつけなくてはいけないのは、異常値や外れ値の処理です。例えば、幼稚園の園児の体重を測定したとき、1人だけ体重が極端に多い児童がいた場合は「外れ値」ですが、幼稚園の保母さんのデータが混じっていたら「異常値」です。異常値は必ず除去する必要がありますが、外れ値は原因の究明が必要となります。外れ値から重要な発見があることもあり、分析には適切な判断が求められます。

図13.異常値と外れ値

時系列変化における分布

時系列分析においては、例えば同じ成長曲線でも比例的に増加する場合、加速的に成長する場合、成長率は下がっているがわずかに成長が続いている場合、周期変動をしながら成長を続けている場合などがあります。これらも実際にグラフを描いてみるとより明確な分析が可能となります。

図14.時系列変化
このページをシェアする

About

ALBERTについて