\( \DeclareMathOperator{\abs}{abs} \newcommand{\ensuremath}[1]{\mbox{$#1$}} \)

確率分布と統計的な推測

1 確率分布

 1.1 事象の独立と従属

加法定理:addition theorem
条件つき確率:conditional(relative absoluteの逆)probability
乗法定理:multiplication theorem
独立:independent 従属:dependent(dependラテン語「…からぶら下がる」の意から)
\[例題1 ある製品が不良品である確率は0.01であり,\\
   この製品の品質検査では,良品か不良品かを正しく判定する確率が0.98であるという。\\
   このとき次の確率を求めよ。ただし,答は小数代位3位を四捨五入して答えよ。\\
   (1)この製品が品質検査で不良品と判定される確率\\
   (2)不良品と判定された製品が本当に不良品である確率\]
(i)良品で(確率1-p),良品と判定(確率q)
(ii)良品で(確率1-p),不良品と判定(確率1-q)
(iii)不良品で(確率p),良品と判定(確率1-q)
(iv)不良品で(確率p),不良品と判定(確率q)

(%i2) p1:(1-p)*(1-q)$p2:p*q$
(%i4) p1+p2;p2/(p1+p2);
\[(\%o3)pq+\left( 1-p\right) \,\left( 1-q\right) \] \[(\%o4)\frac{pq}{pq+\left( 1-p\right) \,\left( 1-q\right) }\]
(%i5) ev(%,[p=0.01,q=0.98]);
\[(\%o5)0.3310810810810809\]

 1.2 確率変数と確率分布

確率変数:random variable
確率分布:probability distribution
平均:meanラテン語「中間の」の意から 期待値:expectation
偏差:deviation
分散:variance
標準偏差:standard deviation
二項分布:binomial distribution
\[例題1 白球4個と黒球3個が入っている袋から同時に2個の球を取り出すとき,\\
   その中に含まれている白球の個数Xの確率分布を求め,その平均を計算せよ。\]
こういうのを(成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率)を
 超幾何分布(Hypergeometric distribution)という(Wikipedia)。
 あたりp個(はずれq=n-p個)のn個のくじの中からr個取り出すときの当たり数の分布。
期待値は,超幾何分布の期待値だから,p*r/n になるはず。
Maximaはパッケージdistribが用意されている。hypergeometric (p,n-p,r)
 pdf:probability dencity function そこの値
cdf:continuous dencity function 下限からそこまでの積分値
Geogebraでは確率計算機の超幾何分布 残念ながら分数表示ではないが

(%i6) load(distrib)$
(%i7) for i:0 thru 2 do
print(pdf_hypergeometric(i,4,3,2))$
\[\frac{1}{7} \frac{4}{7} \frac{2}{7} \]
(%i8) mean_hypergeometric (4,3,2);
\[(\%o8)\frac{8}{7}\]

図 1:
Diagram

\[例題2 0からnまでの数字を1つずつ書いたn+1枚のカードがある。\\
   このなかから2枚のカードを取り出すとき,\\
   取り出したカードに書かれている数字の大きい方から小さい方を引いた値をXとする。\\
   Xの平均を求めよ。\]
 差が1になるのは(0,1),(1,2),(2,3),・・・・・,(n-1,n)
 差が2になるのは(0,2),(1,3),(2,4),・・・・・,(n-2,n)

(%i9) nusum(k*(n-k+1)/binomial(n+1,2),k,1,n);
\[(\%o9)\frac{n+2}{3}\]

\[例題3 1個のサイコロを5回投げるとき,1の目がでる回数が1回以上3回以下である確率を\\
   小数第4位で四捨五入して求めよ。\]
これは,二項分布(Wikiから)
 結果が成功か失敗のいずれかである n 回の独立な試行を行ったときの成功数で表される離散確率分布である。
各試行における成功確率 p は一定であり、このような試行を、ベルヌーイ試行と呼ぶ。
Maximaでは,
binomial(r,n,p) r:変数,n:総数,p:確率
mean_binomial(n,p),var_binomial(n,p), std_binomial(n,p)
平均はnp,分散はnpqという公式はあるが。
Geogebraでは確率計算機の項分布表示

(%i11) s:0$for k:1 thru 3 do
s:s+pdf_binomial(k,5,1/6)$
(%i12) s,float;
\[(\%o12)0.5947788065843621\]

図 2:
Diagram
(%i13) mean_binomial(5,1/6);
\[(\%o13)\frac{5}{6}\]
(%i14) var_binomial(5,1/6);
\[(\%o14)\frac{25}{36}\]

\[例題4 1,2,3の番号を1つずつ記入した3枚の封筒と3枚のカードがある。\\
   このカードを1枚ずつ封筒に入れるとき,\\
   カードの番号とそれを入れた封筒の番号が一致するカードの枚数Xの平均と分散を求めよ。\]
これは,完全順列(PerfectPermutation)。詳しくは完全順列周辺(別のページで)。
まず,完全順列の数を出すマクロを作る。
次に,3個の封筒と番号が一致する確率分布を元にその期待値,分散を計算する。
答が1になるのは偶然じゃあなさそうだと思い,試しに封筒の数を2から10までやってみる。
つまり,何人で並び替えをしても,同じ席になるのは1人は期待できるってわけだ!
これを,証明させようとして失敗したのが以下。
PP(n) の作り方とか,もっとすさまじい応用(完全順列の極限は1/e)は別のプリントで。

(%i15) pp(n):=n!*nusum((-1)^k/k!,k,0,n)$
(%i16) for i:1 thru 5 do print(pp(i),",")$
\[0 , 1 , 2 , 9 , 44 , \]
(%i17) for i:0 thru 3 do print(i,":",binomial(3,i)*pp(3-i)/3!,",")$
\[0 : \frac{1}{3} , 1 : \frac{1}{2} , 2 : 0 , 3 : \frac{1}{6} , \]
(%i18) e(n):=block(
   s:0,
   for i:1 thru n do
       s:s+i*binomial(n,i)*pp(n-i)/n!,
   return(s)
)$
(%i19) e(3);
\[(\%o19)1\]
(%i20) v(n):=block(
   s:0,
   for i:1 thru n do
       s:s+i^2*binomial(n,i)*pp(n-i)/n!,
   return(s-e(3))
)$
(%i21) v(3);
\[(\%o21)1\]
(%i22) for i:2 thru 10 do
   print(e(i),":",v(i),",")$
\[1 : 1 , 1 : 1 , 1 : 1 , 1 : 1 , 1 : 1 , 1 : 1 , 1 : 1 , 1 : 1 , 1 : 1 , \]
(%i23) epp(n):=nusum(k*binomial(n,k)*pp(n-k)/n!,k,0,n)$
(%i24) epp(2);
\[\frac{\left( k-2\right) \,{{\left( -1\right) }^{k}}}{k\,\left( k+1\right) !\sum_{k=0}^{2-k}{\left. \frac{\left( k+1\right) \,{{\left( -1\right) }^{k}}}{\left( k+1\right) !}\right.}}\mbox{ non-rational term ratio to nusum}\] \[(\%o24)\left( \sum_{k=0}^{1}{\left. \frac{{{\left( -1\right) }^{k}}}{k!}\right.}\right) +\sum_{k=0}^{0}{\left. \frac{{{\left( -1\right) }^{k}}}{k!}\right.}\]
(%i25) epp(3);
\[\frac{\left( k-3\right) \,{{\left( -1\right) }^{k}}}{k\,\left( k+1\right) !\sum_{k=0}^{3-k}{\left. \frac{\left( k+1\right) \,{{\left( -1\right) }^{k}}}{\left( k+1\right) !}\right.}}\mbox{ non-rational term ratio to nusum}\] \[(\%o25)\left( \sum_{k=0}^{2}{\left. \frac{{{\left( -1\right) }^{k}}}{k!}\right.}\right) +\left( \sum_{k=0}^{1}{\left. \frac{{{\left( -1\right) }^{k}}}{k!}\right.}\right) +\frac{\sum_{k=0}^{0}{\left. \frac{{{\left( -1\right) }^{k}}}{k!}\right.}}{2}\]

どっちも計算すれば1になるんだけどね。

2 正規分布

確率変数:random variable 連続型:continuous 逆が discrete
確率分布:probability distribution
連続分布:continuous distribution
確率密度関数:probability density function
分布曲線:distribution curve
 distribute ラテン語「別々に与える」の意から
正規分布:normal distribution

Maximaでは
normal(x,m,s) x:変数,m:平均,s:標準偏差
\[例題1 ある高校の1年生男子の身長の分布は平均167cm,標準偏差7cmの正規分布とみなせるという。\\
   身長が160cm以上172cm以下の生徒はおよそ何%いるか。\\
   例題2 1個のサイコロを360回投げるとき,1の目が55回以上出る確率を求めよ\]
分布もGeogebraでは目で見える。

(%i26) float(cdf_normal(172,167,7)-cdf_normal(160,167,7));
\[(\%o26)0.6038194840415664\]

図 3:
Diagram
(%i27) 1-float(cdf_normal(55,360*1/6,sqrt(360*1/6*5/6)));
\[(\%o27)0.7602499389065233\]

図 4:
Diagram
(%i28) for n:10 thru 50 step 20 do(
xx:makelist(i,i,0,n),
yy:makelist(pdf_binomial(i,n,0.2),i,0,n),
zz:makelist(pdf_normal(i,0.2*n,0.4*sqrt(n)),i,0,n),
plot2d([0.35,[discrete,xx,yy],[discrete,xx,zz]],[x,0,n])
)$

図 5:
Diagram

図 6:
Diagram

図 7:
Diagram

3 統計的な推測

全数:total ラテン語「全体」の意から 標本:sample example の頭音消失
抽出:sample 母集団:population ラテン語「人(people)」 の意から 個体:individual
無作為:random 乱数さいdie
復元:with replacement 非復元抽出
独立independent
信頼:confidence ラテン語「すっかり信頼する」の意から,con がすっかりで faith と同源
不良率:fraction of defective
\[例題1 母平均50,母標準偏差10の母集団から大きさ25の標本を抽出するとき,\\
   標本平均\bar{X}が52より大きくなる確率を求めよ。\]
 大きさ25だから,平均は同じでも標準偏差が√25分の1。

(%i29) 1-float(cdf_normal(52,50,10/sqrt(25)));
\[(\%o29)0.1586552539314571\]

図 8:
Diagram

\[例題2 ある県の17歳の男子の200人を無作為に選んで調べたところ,身長の平均が168.0cmであった。\\
   簿標準偏差を6.5cmとして,この県の17歳男子全体の平均身長に対する信頼度95%の信頼区間を求めよ。\]
標準偏差も√n分の1で,平均からの標準偏差の1.96倍離れた部分が95%なので,95%信頼区間は,
平均-1.96×標準偏差/√n 以上 平均+1.96×標準偏差/√n以下

(%i30) conf95(x,n,s):=float([x-1.96*s/sqrt(n),x+1.96*s/sqrt(n)])$
(%i31) conf95(168,200,6.5);
\[(\%o31)[167.0991459607683,168.9008540392317]\]

図 9:
Diagram

\[例題3 ある工場で生産された製品1個あたりの重さの母標準偏差\sigmaは5gであるという。\\
   その母平均を信頼度95%で推定するとき,信頼区間の幅を0.4g以下にするには,\\
   標本の大きさnを少なくともいくらにすればよいか。\]

(%i32) solve(conf95(m,n,5)[2]-conf95(m,n,5)[1]=0.4,n);
\[\mbox{}\\\mbox{rat: replaced -0.4 by -2/5 = -0.4}\mbox{}\\\mbox{rat: replaced 19.6 by 98/5 = 19.6}\] \[(\%o32)[n=2401]\]

図 10:
Diagram

\[例題4 ある工場で,製品の中から無作為に400個を選んで調べたところ,40個の不良品があった。\\
   この工場で作られる製品の不良品pに対する信頼度95%の信頼区間を求めよ。\]
 不良率は r=不良品/抽出数 とすれば
 標準偏差は二項分布にしたがうとして √(r(1-r)/n) なので
 r-1.96√(r(1-r)/n)以上 r+√(r(1-r)/n)以下

(%i33) conf95(40/400,400,sqrt(40/400*(1-40/400)));
\[(\%o33)[0.07060000000000001,0.1294]\]

図 11:
Diagram


Created with wxMaxima. inserted by FC2 system