gauss ガウス分布は

で定義される。(expは指数関数である。exp(x)=ex) 前の因子は(-∞,∞)で積分した時に結果が1になるようにとられている。 パラメタx0は分布の中心に対応し、パラメタsは分布の幅に対応している。 一般に分布の最大値の半分の値の幅を半値幅(FWHM, Full Width Half Maximum)と呼ぶ。 ガウス分布について計算すると、FWHM=s √8ln2 ≈ 2.35sの関係がある。
実際のデータでは(特に測定数が少ない場合)分布がガウス分布できれいに近似できないことも多いが、 半値幅(FWHM)を利用して次の手順でパラメタsを見積もることはよく行われる。
  1. 頻度が最大となるx=x0を探す。x=x0での頻度の最大値をAとする。
  2. 頻度の値がA/2となっているような測定値xをx0の両側で二つ (x1、x2)見つける。 ちょうどA/2になっているようなxがないときには適当に補間するなどして決める。
  3. FWHM=|x2-x1|とする。
  4. s=FWHM/2.35としてsの推定値を決める

EXCELでガウス分布を計算する場合にはnormdist関数が利用できる。 (ガウス分布は統計学で正規分布として知られており、normal distributionから この名前が付いている。)
normdist関数はnormdist(x,x0,s,true/false)という形をしている。 4番目の引数はtrueかfalseと指定する。falseの場合は関数の値を返すが、trueだと -∞からxまで積分した値を返す。 (積分されたガウス関数は誤差関数と呼ばれている。)

正規分布は確率分布としても使われ、全区間での積分値が1になるように規格化されている。 また、分布をx0±sの区間で積分すると、分布の68.3%となる。 2sだと95.4%、3sでは99.7%である。 このことは例えば頻度分布の数を足し上げたり、 countif関数を用い=countif(b1:b1000,">2.1")-countif(b1:b1000,">2.5")のようにして 2.1〜2.5の範囲のデータ個数を調べることにより、確かめることができる。
物理測定では通常このx0,sを用いて測定結果をx0±sと示す が、 この誤差(s)の範囲内には測定データの約7割しか含まれていない!

実際にガウス分布をデータの頻度分布と比較するには次のようにすればよい。

  1. まず、ガウス分布のパラメタx0,sの値を上の方法で頻度分布から推定し、 適当なセルに書いておく(例では、$C$2,$D$2)。 また、分布の個数の和(1000)も書いておく($B$2)。
  2. normdist関数のxとしては、frequency関数で頻度分布を計算した際に用いた各区間の上限xを使う。 従って、
    $B$2*normdist(a3,$C$2,$D$2,true)のように計算すればよい。 (右の例ではC3セルに計算している) trueの引数を用いたので、この値はガウス分布のxまでの積分値である。
    normdist関数は積分すると面積が1であるような関数なので、 データの分布に合わせるためにデータの個数($B$2)をかけている。 $をつけて絶対参照としているのは
    オートフィルを使ってすべての区間についての計算を繰り返す際に パラメタの値が変わらないようにするためである。 これを行った結果、C列にはそれぞれのxまでの積分値が得られる。 xの最大値に対する積分値はデータの個数にほぼ等しいはずである。
  3. 測定値は各区間でのデータの個数なので、頻度分布に対応する区間の積分値を求めるために B3=C3, B4=C4-C3, B5=C5-C4,... とすればB列に各区間で積分されたガウス分布の値が得られる。 (B5以降はオートフィルを利用すればよい。) この値を実験値と比較する。
  4. パラメタx0,sの値($B$3,$B$4の値)を変えてみて分布がどう変わるか調べてみよ 。ガウス分布が頻度分布とどの程度よく合っているかを評価する方法として χ2検定という方法がある。
  5. (注)区間の幅があまり大きくない場合は2.の操作のかわりに区間の中央の値を用いて
    B4=$B$2*normdist((A3+A4)/2,$C$2,$D$2,false)
    というように計算してもよい。
    これは積分の台形近似に対応している。

© 家城和夫(2008)