2018年センター試験数学II・B を解いてみたその6【第5問】

数学 II・B も最終問題になりました。第 5 問「（確率分布と）統計（的な推測）」を解いていきます。前課程の「統計とコンピュータ」の頃から，数列やベクトルが全く手に負えなかったときの穴場のような扱われ方をしてきた面もある分野です。しかし今年の出題でいえば，数列・ベクトルは最低限の知識のみでも解ける問題がしっかり確保されているように感じ，当領域も今回は母比率推定といったかなり入り込んだところまで問うてきているので，難易度としては 3 問とも均等だったように思います。

実際の問題は下記を参照してください。

大学入試センター試験（2018年度）問題・解答速報 - 毎日新聞

第 5 問

(1)

はじめは確率分布の問題です。問題設定をしっかり理解できれば，数 A の知識でも解答できるでしょう。

2，4，6，…，2a のカードから 1 枚引く，という試行です。数字（確率変数）が偶数になっただけで，事象としては自然数の書かれたカードを引くのと変わりません。a 枚のカードから特定の 1 枚を引く確率（問題文は「X=2a となる確率」）は， $\displaystyle \frac{1}{a}$ です。

次に，a=5 のときに X（カードの数字）の期待値と分散を求めよう，という問題です。具体的に言えば，カードの数字は 2, 4, 6, 8, 10 の 5 枚，ということです。よって期待値（平均）E(X) は

$\displaystyle E(X)={1}{5}(2+4+6+8+10)=6$

です。分散 V(X) は，偏差から求めてもよいですし，2 乗平均を用いて求めてもよいでしょう。

（偏差から求める方法）

X の各偏差は －4, －2, 0, 2, 4

偏差を 2 乗して 16, 4, 0, 4, 16

和の平均が分散となるので $\displaystyle V(X)=\frac{1}{5}(16+4+0+4+16)=8$

（ 2 乗平均を用いて求める方法）

$X^2$ は 4, 16, 36, 64, 100

$X^2$ の平均は $\displaystyle V(X^2)=\frac{1}{5}(4+16+36+64+100)=44$

よって分散は $\displaystyle V(X)=E(X^2)-\{ E(X)\} ^2=44-6^ 2=8$

いずれにせよ，分散は 8 となります。

次に，変数の変換を行います。sX+t （s をかけて t をたす）という変換ですが，今回は平均と分散の値がわかっていて，そこから s と t の値を求める流れです。変換に寄る平均と分散の変化については，ここでは事実だけ確認します。

平均は，変換の四則演算がまるごと反映されるのでした。よって変換後の平均は $6s+t$ という値になります。

また，分散は乗除のみ，しかも乗じた数の 2 乗が反映されるのでした。よって変換後の分散は $8s^2$ という値になります。

以上から， $6s+t=20, \; 8s^2 =32$ を解いて， $s=2, \; t=8$ となります。

最後に，いま正体が明らかになった変換後の確率変数 $2X+8$ が 20 以上になる確率を求めます。式を作れば， $2X+8 \geqq 20$ となる確率です。これは変換前に戻せば， $X\geqq 6$ ですね。はじめの状態で X が 6 以上となる確率を求めればよいわけです。したがって X=6, 8, 10 の 3 通りがあるので，確率は $\displaystyle \frac{3}{5}=0.6$ です。

(2)

まず基本的な確率を 1 つ求めます。この後の数値にかかわってくるので正確に求めましょう。といっても，「3 枚のカードを横 1 列に並べるとき，左から小さい順に並んでいる事象 A 」の起こる確率なので，3 枚の並べ方が $3!=6$ ，確率は $\displaystyle \frac{1}{6}$ と出すのは難しくないでしょう。

「この試行を 180 回繰り返す」とあるので，反復試行です。確率変数 Y は二項分布 $\displaystyle B\left( 180,\frac{1}{6}\right)$ にしたがいます。よって Y の平均 m は $\displaystyle m=180\cdot\frac{1}{6}=30$ ，分散 $\sigma ^2$ は $\displaystyle \sigma ^2 =180\cdot\frac{1}{6}\left( 1-\frac{1}{6}\right) =25$ となります。

ここで，事象 A が 180 回中 18 回以上 36 回以下起こる確率を求めます。正確に求めると，反復試行の確率の求め方から $\displaystyle {}_{180}\mathrm{C}_{k}\left(\frac{1}{6}\right) ^k \left(\frac{5}{6}\right) ^{180-k}$ の k=18 から k=36 までを合わせた値になります。が，そんなものを求めると手間がかかりすぎるので，正規分布で近似するのですね。

Y は近似的に正規分布 $N\left( 30, 25\right)$ にしたがいます。この先はほぼアルゴリズム的なプロセスですが，順を追って見ていきましょう。

まず，正規分布を平均 0，標準偏差 1 にする（標準化する）ために， $\displaystyle Z=\frac{Y-m}{\sigma}$ という変換を行います。今回の場合 $\displaystyle Z=\frac{Y-30}{5}$ です。これを用いて Y が 18 以上 36 以下となる確率を求めていきます。Y に 18 と 36 を代入し，Z に変換した値で確率を調べます。

$\displaystyle P(18\leqq Y\leqq 36)=P\left( \frac{18-30}{5}\leqq Z\leqq\frac{36-30}{5}\right) =P(-2.40\leqq Z\leqq 1.20)$

です。すなわち，求める確率は Z が－2.40 以上 1.20 以下となる確率です。標準化した正規分布なので，ここで正規分布表を見て値を調べます。表の見方としては，「0 からその値までの範囲をとる確率」が載っているので，求める範囲によっては工夫が必要です。分布曲線は y 軸に関して対称なので，負の値であればそのまま正の値に置き換えることができます。したがって

$\displaystyle P(-2.40\leqq Z\leqq 1.20)=P(0\leqq Z\leqq 2.40)+P(0\leqq Z\leqq 1.20)$

$=0.4918+0.3849=0.8767\fallingdotseq 0.88$

と求められます。

f:id:tak119:20180210200135j:plain

なお，正規分布に近似せずに求めた確率の（真の）値も調べてみました。

Excel を使うと Combination の計算も瞬時にやってくれます（もちろん，正規分布の確率も求められます）。以下がその結果です。

f:id:tak119:20180210180638p:plain

確率は 0.90 になりました。近似で求めた値との相対誤差が 2% 以上あり，ずいぶん大きいと思うのですが，求め方はこれでいいんだよな？？

（追記）

近似精度を高めるのであれば，「半整数補正」を行う方法があります。そもそも，正規分布は連続型確率分布なので，確率変数が 1 つの値をとる確率は 0 です。そこで， $\displaystyle P(X=k)=P(k-0.5\leqq X\leqq k+0.5)$ として正規化する方法です。今回の問題は Y が 18 以上 36 以下と幅があるのですが，これも半整数補正してみると

$\displaystyle P(18\leqq Y\leqq 36)=P(17.5\leqq Y\leqq 36.5)$

$\displaystyle =P(-2.5\leqq Z\leqq 1.3)=0.4938+0.4032=0.8970$

ということで，真の値との誤差は 1000 分の 1 以下におさえられました。ただし高校数学では半整数補正を扱わないので，このより正確な求め方は「不正解」となりますのであしからず。

（追記終）

(3)

次は標本調査における母比率の推定です。集団の一部から得た比率から全体の比率を推定する際に，ある確率のもとでどのくらいの範囲に収まるか，という考察です。その場であれこれ考えてもらちが明かないので，ある程度式の形を知っているかどうかで出来具合が決まってくるでしょう。

標本は 400 人中 320 人が賛成であるということなので，標本比率は $\displaystyle \frac{320}{400}=0.8$ です。(1), (2) もそうでしたが，ちょっとした確率を 1 つ求めるだけで得点できる，という点では統計は「穴場」なのかもしれません。

さて，この比率を有権者全体で考えたときにどのくらいブレるのかを求めます。もうすこしちゃんとした言い方をすると，「有権者の中から同様に 400 人の標本調査を 100 回行った場合，95 回は比率 p が含まれると期待できる範囲」として「p に対する信頼度 95% の信頼区間」を求めます。ややこしいですね。

理屈は割愛して，範囲を算出する式は，

$\displaystyle 1.96\sqrt{\frac{p (1-p)}{n}}$

です。いま，比率 p が $\displaystyle p=0.8=\frac{4}{5}$ （計算のときは分数のほうがよい），標本の大きさ n が 400 なので

$\displaystyle 1.96\sqrt{\frac{4}{5}\cdot\frac{1}{5}\cdot\frac{1}{400}}=1.96\cdot \frac{2}{5}\cdot \frac{1}{20}=0.0392$

という値が算出されます。これが 0.8 を中心としたのいわゆる「誤差」で，信頼区間は

$\displaystyle 0.8-0.0392\leqq p\leqq 0.8+0.0392$

マークは小数第 2 位までなので

$\displaystyle 0.76\leqq p\leqq 0.84$

となります。

ちなみに，式の 1.96 という値は，標準正規分布において確率が 95% となるときの確率変数 Z の値です。平均 0 から両側の範囲なので，正規分布表では半分の 0.475 をとるときの値となります。

次に標本の大きさや比率が変わったときに，信頼区間の幅（要するに誤差）がどのように変化するかを考察していきます。いま求めた信頼区間の幅を $\displaystyle L_{1}$ ，標本の大きさは 400 のまま変えずに比率が 0.6 だったときの幅を $\displaystyle L_{2}$ ，標本の大きさを 500 にして比率が 0.8 で変わらなかったときの幅を $\displaystyle L_{3}$ としています。

さきの式に値を変えて代入しなおせばよいですね。大小関係を比べるのに，最後まで値を求める必要はありません。

$\displaystyle \frac{L_{1}}{2}=1.96\sqrt{\frac{4}{5}\cdot\frac{1}{5}\cdot\frac{1}{400}}=1.96\cdot \frac{2}{5}\cdot \frac{1}{\sqrt{400}}$

$\displaystyle \frac{L_{2}}{2}=1.96\sqrt{\frac{3}{5}\cdot\frac{2}{5}\cdot\frac{1}{400}}=1.96\cdot \frac{\sqrt{6}}{5}\cdot \frac{1}{\sqrt{400}}$

$\displaystyle \frac{L_{3}}{2}=1.96\sqrt{\frac{4}{5}\cdot\frac{1}{5}\cdot\frac{1}{500}}=1.96\cdot \frac{2}{5}\cdot \frac{1}{\sqrt{500}}$

「区間の幅」は標本比率を中心としてプラス側とマイナス側に広がるので，比べる値はそれぞれ 2 で割ってあります。異なるところだけを見比べていきましょう。

まず $L_{1}$ と $L_{2}$ です。比率だけが違っていたので， $\displaystyle \frac{2}{5}$ と $\displaystyle \frac{\sqrt{6}}{5}$ の部分が異なっています。 $\displaystyle \frac{2}{5}\lt\frac{\sqrt{6}}{5}$ なので，幅も $L_{2}$ のほうが大きいことがわかります。

次に $L_{1}$ と $L_{3}$ を比べてみます。今度は標本の大きさの部分が異なり， $\displaystyle \frac{1}{\sqrt{400}}\gt\frac{1}{\sqrt{500}}$ なので $L_{1}$ のほうが大きくなります。

以上より，大小関係は $L_{3}\lt L_{1}\lt L_{2}$ となります。感覚的には，標本の大きさが大きいほど標本は母集団に近づき，誤差は小さくなるので， $L_{3}\lt L_{1}$ はすぐわかるかと思います。比率についても， $\displaystyle p(1-p)=-p^2 +p=-\left( p-\frac{1}{2}\right) ^2 +\frac{1}{4}$ が最大になるのは $\displaystyle p=\frac{1}{2}$ のときなので，そこから離れるほど値は小さくなる，ということがわかれば式を立てずとも大小関係を判断することができます。