zashii-1434

Stats of My Life(おいしい人生を味わうために、コツコツとチャレンジしたことを書くブログ)

SQL・Python・Rを使ったデータ分析問題もあって実用的な試験かも?:「データ分析実務スキル検定公式テキスト」(著者:株式会社データミックス 2023年29冊目) #統計 #データ分析 #SQL #R #python

 

データ分析に興味があって買ってみたら、実用的な内容が記載されていたので満足しています。

 

試験を受けようか迷っていますが、落ちると半年は受けられないみたいなので確実に合格するレベルになってから試験申し込みするのがいいですね。

 

下記はテキストをみつつ、イマイチ理解が得られなかったものはChatGPTに聞いてみました。良かったら参考ください。

 

<メモ>

・質的変数

 └名義尺度:性別・職業・役職など、カテゴリーを表す変数のこと。

  変数の水準と呼ばれることもある。

 └順序尺度:値(水準)ごとの順序の定まった変数のこと。

  衣類の大きさを表すサイズ変数(L>M>S)などは順序尺度の例となります。

  また、5段階評価や10段階評価のアンケートデータも厳密には順序尺度

 

・量的変数

 └間隔尺度:間隔尺度は差には意味があるが、比をとることには意味がない

  温度や偏差値など

 └比率尺度:間隔尺度のうち、比にも意味があること

 

<推測統計入門>

記述統計:手元のデータから確実にわかること

推測統計:手元のデータから推測できること

 

決定係数(coefficient of determination)回帰分析において、説明変数がどの程度応答変数の変動を説明できるかを示す指標です。決定係数は、0から1までの値を取ります。

 

具体的には、回帰分析によって求められた回帰直線が、実際の観測値にどの程度フィットしているかを評価するために用いられます。決定係数が高いほど、回帰直線が観測値に適合しており、説明変数が応答変数をよく説明していることを示します。

 

決定係数は、以下の式で求めることができます。

 

決定係数 = (回帰変動の説明度) / (全変動の大きさ)

 

ここで、回帰変動とは、回帰直線が説明できる応答変数の変動の大きさであり、全変動とは、全ての観測値が持つ応答変数の変動の大きさです。

 

例えば、ある自動車メーカーが、車の速度と燃費の関係を調べるために、100台の車両を試験したとします。回帰分析によって、速度と燃費の関係を表す回帰直線が求められ、決定係数が0.8となったとします。この場合、決定係数が0.8ということは、回帰直線が観測値に80%適合しており、速度が燃費を説明するための有用な指標であることを示しています。

 

自由度調整済決定係数(adjusted coefficient of determination):決定係数の改良版で、説明変数の数が異なるモデル間で比較するために使われます。自由度調整済決定係数は、決定係数と同様に、0から1までの値を取ります。

決定係数が高いモデルほど、観測値に対して良い適合度を示しますが、説明変数の数が増えると、決定係数は自動的に増加する傾向があります。つまり、説明変数が増えるほど、決定係数の値は高くなりますが、実際にはモデルが良くなっているとは限りません。

自由度調整済決定係数は、以下の式で計算されます。

自由度調整済決定係数 = 1 - [(1 - 決定係数) × (n - 1) / (n - k - 1)]

 

重相関:ある大学の研究者が、学生の成績に影響を与える要因を調査するため、以下の3つの説明変数を用意しました。

・学生の出席率
・学生が1日に費やす勉強時間
・学生の前学期の成績

そして、これらの説明変数と、今学期の成績(応答変数)との間の関係を分析し、重相関係数を求めたとします。

分析の結果、重相関係数は0.8となりました。この場合、重相関係数が0.8ということは、3つの説明変数が学生の今学期の成績に対して高い関連性を持っていることを示しています。つまり、学生の出席率、勉強時間、前学期の成績が高い場合、今学期の成績も高い傾向があるということです。

相関係数は、複数の説明変数がある場合でも、それらの変数が応答変数とどの程度関連しているかを評価することができます。このような分析は、学術研究だけでなく、ビジネスやマーケティングなどの分野でも頻繁に利用されています。

 

正規分布正規分布は、連続型の確率分布で、ベル型曲線として知られています。平均値と標準偏差の2つのパラメータで特徴づけられ、データが平均値を中心に、標準偏差の範囲内で散らばっていると仮定されます。正規分布は、多くの場合、自然現象や社会現象など、連続的な現象をモデル化するために利用されます。

 

二項分布:二項分布は、離散型の確率分布で、試行回数が決まっている中で、2つの結果(成功と失敗)が起こる確率を求めるために使われます。例えば、コインを何度か投げて、表が出る回数や、ある商品を買った人のうち、特典を受け取った人の数などを計算する際に利用されます。

 

ポアソン分布ポアソン分布は、離散型の確率分布で、ある時間や空間において、ある現象が起こる回数をモデル化するために利用されます。例えば、一定時間内に起こる交通事故の件数や、一定地域での地震の発生回数などを計算する際に利用されます。

 

仮説検定の考え方:仮説検定の基礎的な考え方を具体的な例を用いて説明します。
例えば、あるインターネットショッピングサイトで、商品を購入するユーザーの男女比が均等であるかどうかを調べたいとします。この場合、以下のような仮説を立てます。

帰無仮説(H0):男女比は均等である。
・対立仮説(H1):男女比は均等ではない。

次に、サイトを利用した500人のユーザーのデータを収集し、男性250人、女性250人であったとします。この場合、男女比は均等ではなく、対立仮説が成立します。

仮説検定においては、帰無仮説が成立する確率を計算し、その確率が非常に低い場合、帰無仮説を棄却し、対立仮説を採用します。この場合、帰無仮説が成立する確率は非常に低く(p<0.001)、帰無仮説を棄却し、対立仮説を採用します。

以上のように、仮説検定では、帰無仮説と対立仮説を立て、サンプルデータを用いて、帰無仮説が成立する確率を計算し、結果に基づいて帰無仮説を採用するか、棄却するかを判断します。

 

T値:T値は、帰無仮説(H0)が正しいと仮定したときに、サンプル平均と帰無仮説の平均との間にどれだけの差があるかを表す統計量です。具体的には、T値は「サンプル平均と帰無仮説の平均との差を標準誤差で割った値」として求められます。T値が大きいほど、サンプル平均と帰無仮説の平均の差が大きいことを示します。

 

P値:P値は、帰無仮説が正しいと仮定したときに、サンプルデータが観測される確率を表します。つまり、P値は「帰無仮説に従った場合に、より極端な結果が得られる確率」を示しています。P値が小さいほど、帰無仮説が正しくない可能性が高くなります。P値が0.05以下であれば、一般的に「有意差がある」とみなされます。