20220626_統計学勉強

統計学の時間 | 統計WEB

Step0. 初級編

3. 時系列データ

4. 代表値と箱ひげ図

 

 

 

 

中央値

サンプル数が偶数個の場合、中央に来る2つの値の平均値を中央値とする

 

四分位数

25パーセンタイル(第一四分位数)

50パーセンタイル(中央値)

75パーセンタイル(第三四分位数)

小さいほうからこう呼ぶ

 

四分位範囲

Q3 - Q1 

第一四分位数と第三四分位数の間の範囲を指す

この計算式だとよくわからない、範囲って引き算で表すの?

4x - 1x = 3x みたいな数式にしたら、その答えは値であって、範囲を表せないのでは?

とりあえずはそういうものとして受け止める

 

四分位数の求め方

グループ分割して各グループの中央値を求める。

(データの数が奇数個の場合)

奇数の場合はグループ分けの際に中央値を除外するとのこと

中央値では中央値が2個あったら平均をとるのに、

四分位数では奇数個の場合は除外するの?平均したらいいのに

 

 

求めてみた。

実際は関数を使用

中央値 → median()

四分位数 → quartile()

これってきっと統計検定だと手動計算なんだろうな。

 

結局は中央値を求めること、分割して中央値を求めることに過ぎない。

けどmedian → medianの四分位数と、

quartileの四分位数で値が異なるんだけどなんで?

quartileの戻り値がよくわからない。

 

調べたら、簡易(ヒンジ)と厳密(パーセンタイル)な算出方法があるらしい。

しかも、どっちを使ってもいいとのこと。

それでいいの?

 

 

箱ひげ図

ひげの長さは、Q1の-1.5倍, Q3の1.5倍の範囲内で最大値、最小値とのこと

その範囲から出る場合は外れ値として〇または×で表す。

なぜ〇×いずれかなのか。

 

【超入門】機械学習をビジネスの例も出しながら解説していく! - YouTube

 

1. 機械学習とは

 →  機会に学習させてルールを作り出す

https://www.youtube.com/watch?v=GeJrQTdNFdU

 

 

2. AI、機械学習ディープラーニング

ルールがあればモノを生み出す → AI

ルールを作り出す → 機械学習

意味のないモノコトからルールを作り出す → ディープラーニング

 

3. 学習手法

(1 )教師あり学習

データに答えが紐づいている

 ← 曜日から売り上げを予測する

 

①決定木

 

②k-近傍法

未知のデータがどこにあるかを推測する

kとは抽出範囲

 

③ランダムフォレスト

決定木を複数個

 

④Xgboost

決定木を複数個、直列

 

 

(2) 教師なし学習

正解データが存在しない

現在のデータから特徴を見出す → セグメント

クラスター分析

グループ分けする

 

②k-means法

クラスタのメンバ数を同じにしたグループを作る

 

③主成分分析

手元のデータを圧縮する

抽象化する

 

 

(3)強化学習

アウトプット(報酬)を出す

 

4. どう活用する?

チャーン分析

チャーン = 解約、離脱

解約しそうな顧客を抽出する。

例_オンラインゲーム

ログイン回数が減る

ログイン回数(過去3か月間、1週間、精度向上のチューニングは必要)

ログイン連続日数

1日当たりの平均ログイン回数

 

 → 特徴量エンジニアリング

 

教師あり学習にインプットすると、チャーンレート(離脱率)をアウトプットできる

 

機械学習のための数学的知識

【9分で分かる】AI・機械学習の勉強に必要な数学の基礎を徹底解説!微積分・線形代数・確率統計 - YouTube

 

微分

微分が何の役に立つのか。

 → 最適化する。

傾き0の接線を求める。

to find the slope of the tangent by differentiation.

上記動画より

 

 

■確率分布

一様分布

正規分布

カイ二乗分布

ポアソン分布

 → ベイズ統計学への第一歩

 

 

 

 

 

わかりやすい。

AIについての学習_勾配降下法_誤差逆伝播法(バックプロパゲーション)

順番に概念を理解して、ライブラリの関数が何をしているかを理解できれば当面はよいと思う。

 

■勾配降下法
目標値よりも重みが大きい(勾配が正)ので重みを小さく更新する

誤差逆伝播法(バックプロパゲーション)
勾配を求めるための手法
出力側に近いほうから誤差を求める(勾配を算出する)
出力 → 入力なので逆伝播である
層ごとに分離して微分を使うことで算出する

 

あとはライブラリの使い方に習熟する。

 

データセットの準備は下記を参考にする。

(Python)機械学習用データセットの作り方(.png) - YouTube

 

コンテンツを作ってくださる方に感謝です。

pandas_UnicodeDecodeError_python

 

次のコードでエラーが発生する。

import pandas as pd
data_frame = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/data_temperature.csv')
data_frame

 

読み込んだのは、気象庁からダウンロードした気温データ。

 

 

 

 

次の方法で解消できるとのこと。

qiita.com

with codecs.open("file/to/path", "r", "Shift-JIS", "ignore") as file:
    df = pd.read_table(file, delimiter=",")
    print(df)

 

withの中では、ファイルを

1. 開いて

2. 処理して

3. 閉じる

のうち、1と3を自動でやってくれる。

上記コードは、ファイルを”file"として開いて、

 

codecsはpythonの標準ライブラリ。

ignoreは変換できない文字を読まないオプション。

replaceやnamereplaceがある。

どれが読めないのか確認したい場合、replaceで任意の文字列(x)に置換したらよさそう。

 

 → 試したところ、できなかった。

 

pandasだし、最終的に次の形で読み込めた。

import pandas as pd
data_frame = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/data_temperature.csv', encoding='cp932')
data_frame
 
 

 

google colab

googleドライブでは、なんとファイルパスのコピーができない。

 

calabでファイルツリーを表示して、右クリックでパスを取得する。

 

 

 

pandas でファイルを読み込むときにファイルパスを取得したいが難しかったので調べた。

ソーシャルスタイル診断

転職エージェントの方にすすめられたので、

ソーシャルスタイル診断をしてみた。

 

www.wowcom.co.jp

 

 

中庸といった感じ。

人に自分がどう見えるかを聞きながら行ったので、多少客観的な結果のはず。

 

 

あなたは
ドライビングスタイルの要素
を多く持っているようです

ドライビングな人の特徴

この人がいないと始まらない、チームを動かす原動力!!!

自身の興味は「チームを成功に導くこと」に収束しています。つねに「成功しているチーム」を思い描くことができ、イメージが実現化するための労力を惜しむことはしません。ゆえにチームにいると「皆が自然についていく」存在としてチームの牽引役であり、存在自体がチームの原動力になります。

メンバー全員を理解できない?結果にこだわるけど許して!

チームにいてくれると方向性が明確になるドライビングスタイル。だけど、「基準は自分」と考えてしまうあまり、メンバーの個々の差(スタイルの違い)を把握することが、後回しになってしまう傾向があります。どんなスタイルよりも「始点」・「終点」といった事実が明確に把握できる。周りからは「過程に興味はなく結果重視」なスタイルに見えてしまうかも??

ドライビングスタイルの特徴

行動
  • ・困難を引き受ける
  • ・意思決定は事実を比較して考え素早い
  • ・費用対効果を重要視する
  • ・チームをコントロールする
話し方
  • ・話すペースは速く、間を取らない
  • ・要点、結果だけを簡潔に伝える
  • ・相手の目をしっかり見て話す
  • ・身振り手振りは少なく表情は一定