20220626_統計学勉強

統計学の時間 | 統計WEB

Step0. 初級編

3. 時系列データ

4. 代表値と箱ひげ図

 

 

 

 

中央値

サンプル数が偶数個の場合、中央に来る2つの値の平均値を中央値とする

 

四分位数

25パーセンタイル(第一四分位数)

50パーセンタイル(中央値)

75パーセンタイル(第三四分位数)

小さいほうからこう呼ぶ

 

四分位範囲

Q3 - Q1 

第一四分位数と第三四分位数の間の範囲を指す

この計算式だとよくわからない、範囲って引き算で表すの?

4x - 1x = 3x みたいな数式にしたら、その答えは値であって、範囲を表せないのでは?

とりあえずはそういうものとして受け止める

 

四分位数の求め方

グループ分割して各グループの中央値を求める。

(データの数が奇数個の場合)

奇数の場合はグループ分けの際に中央値を除外するとのこと

中央値では中央値が2個あったら平均をとるのに、

四分位数では奇数個の場合は除外するの?平均したらいいのに

 

 

求めてみた。

実際は関数を使用

中央値 → median()

四分位数 → quartile()

これってきっと統計検定だと手動計算なんだろうな。

 

結局は中央値を求めること、分割して中央値を求めることに過ぎない。

けどmedian → medianの四分位数と、

quartileの四分位数で値が異なるんだけどなんで?

quartileの戻り値がよくわからない。

 

調べたら、簡易(ヒンジ)と厳密(パーセンタイル)な算出方法があるらしい。

しかも、どっちを使ってもいいとのこと。

それでいいの?

 

 

箱ひげ図

ひげの長さは、Q1の-1.5倍, Q3の1.5倍の範囲内で最大値、最小値とのこと

その範囲から出る場合は外れ値として〇または×で表す。

なぜ〇×いずれかなのか。