データの分析
1 データの代表値
2 データの散らばりと四分位範囲
3 分散と標準偏差
以下,体重のデータで。統計処理もGeogebraはすごい。
4 データの相関
木の太さと高さのデータから これもGeogebraだな。
1 データの代表値
(%i1) | load(descriptive)$ |
(%i2) | l1:[61.0,57.0,68.0,53.5,55.5,49.0,58.0,56.0,57.0,44.5,55.0,43.5,40.5,55.0,46.0,67.0,52.5,49.5,53.5,45.5]$ |
(%i3) | mean(l1); |
(%i4) | geometric_mean(l1); |
(%i5) | median(l1); |
(%i6) | histogram(l1)$ |
2 データの散らばりと四分位範囲
(%i7) | maxi(l1); |
(%i8) | mini(l1); |
(%i9) | range(l1); |
(%i10) | quantile(l1,3/4); |
(%i11) | quantile(l1,1/4); |
(%i12) | qrange(l1); |
(%i13) | boxplot(l1)$ |
3 分散と標準偏差
(%i14) | l2:matrix([22,13],[27,15],[29,18],[19,14],[33,20]); |
(%i15) | mean(l2); |
(%i16) | std(l2); |
4 データの相関
(%i17) | scatterplot(l2,point_type = diamant,point_size = 2,color = blue)$ |
(%i18) | cor(l2); |
(%i19) | float(%), numer; |
1 データの代表値
変量(離散,連続):variable,(discrete,continuous)
変量の集まりがデータ:data
代表値,平均値,中央値,最頻値:typical value,mean value,median,mode
日本は(相加)平均にこだわりすぎるようで,日本以外は中央値がメインなんだそうだ。
幾何平均(相乗平均)のほうが相加平均より小さい。
maximaにmodeはないようだが,histgramをすれば一目瞭然。
2 データの散らばりと四分位範囲
範囲:range
四分位数:Quartile 第1四分位数Q1,第2四分位数Q2,第3四分位数Q3
四分位範囲:Q3-Q1:Interquartile range,四分位偏差(Q3-Q1)/2:Quartile deviation
箱ひげ図:Box-Wisker,Wiskeyではない
集団を表すのに,最高値,中央値,最低値,それから,最高値と中央値の中央値,最低値と中央値の中央値を利用する。
小さい方から,最低値,第1四分位数,中央値,第2四分位数,最高値となる。
ちなみに,第3四分位数から第1四分位数をひいたものの半分が四分位偏差という。
これを,一気に目で見るのが(五数要約という),箱ひげ図。
3 分散と標準偏差
偏差,分散,標準偏差:deviation,variance,standard deviation
4 データの相関
散布図:scatter plot
相関関係:correlation
相関表:correlation table
共分散:covariance
相関係数:correlation coefficient