Step0. 初級編
3. 時系列データ
4. 代表値と箱ひげ図
中央値
サンプル数が偶数個の場合、中央に来る2つの値の平均値を中央値とする
四分位数
25パーセンタイル(第一四分位数)
50パーセンタイル(中央値)
75パーセンタイル(第三四分位数)
小さいほうからこう呼ぶ
四分位範囲
Q3 - Q1
第一四分位数と第三四分位数の間の範囲を指す
この計算式だとよくわからない、範囲って引き算で表すの?
4x - 1x = 3x みたいな数式にしたら、その答えは値であって、範囲を表せないのでは?
とりあえずはそういうものとして受け止める
四分位数の求め方
グループ分割して各グループの中央値を求める。
(データの数が奇数個の場合)
奇数の場合はグループ分けの際に中央値を除外するとのこと
中央値では中央値が2個あったら平均をとるのに、
四分位数では奇数個の場合は除外するの?平均したらいいのに
求めてみた。
実際は関数を使用
中央値 → median()
四分位数 → quartile()
これってきっと統計検定だと手動計算なんだろうな。
結局は中央値を求めること、分割して中央値を求めることに過ぎない。
けどmedian → medianの四分位数と、
quartileの四分位数で値が異なるんだけどなんで?
quartileの戻り値がよくわからない。
調べたら、簡易(ヒンジ)と厳密(パーセンタイル)な算出方法があるらしい。
しかも、どっちを使ってもいいとのこと。
それでいいの?
箱ひげ図
ひげの長さは、Q1の-1.5倍, Q3の1.5倍の範囲内で最大値、最小値とのこと
その範囲から出る場合は外れ値として〇または×で表す。
なぜ〇×いずれかなのか。