2018年センター試験 数学I・A を解いてみたその5【第2問〔2〕(1) (2)】

第2問後半,データの分析の内容です。

指導要領が現行のものになって,新たに数学Iに盛り込まれた単元ですが,確か今回で3回目の出題だったと思います。前2回は変量を変換した場合に相関係数はどうなるか(四則変換では変化しない,が答え)みたいな問題が出されていた記憶があります。統計量を求める,というよりは図やグラフからデータの特徴を正しく読み取ったり,値の変化を考察したりということが問われやすいようです。今年もなかなか本格的ですよ。

 

まず(1)はヒストグラムと箱ひげ図の読み取り問題です。例によって実際の問題文や図はご自身で参照してください。本稿は文字ばかりになりますので御承知を。一応試験問題のリンクを張っておきます。

大学入試センター試験(2018年度) 問題・解答速報 - 毎日新聞

 

正しいものを2つ選ぶ形式なので,それぞれの選択肢の正誤だけ判断していきます。

⓪「範囲」は最大値と最小値の差でした。箱ひげ図の方を見るのがよいです。箱ひげ図全体の幅が一番広いのは男子短距離ですね。よって誤。

①「四分位範囲」は第3四分位数と第1四分位数の差でした。すなわち箱ひげ図の「箱の幅」になります。箱ひげ図の目盛りは2cm刻みです。いずれも四分位範囲(箱の幅)は9cmもしくは10cmですので,12未満というのは正です。

②中央値が含まれる階級について問われています。正確な中央値は箱ひげ図で,階級はヒストグラムで確認するのがよいです。男子長距離の中央値は176cm。ヒストグラム(階級の幅5cm)では,最大度数の(棒が最も高い)階級は170~175ですので,誤です。

③今度は女子長距離の第1四分位数です。箱ひげ図から,161cm。ヒストグラムでは,最大度数の階級は165~170ですので,これも誤です。

④「すべての選手の中で」とありますが,最大値がはっきりと示されている箱ひげ図の方が読み取りやすいですね。ひげが最も右に伸びているのは男子短距離です。誤です。

⑤今度は低いほうなので左のひげです。一番低い選手がいるのは女子短距離ですね。誤。

⑥2つの量が併記されているので,1つずつみましょう。いずれも箱ひげ図のみ見ればよいです。男子短距離の中央値は181cm,男子長距離の第3四分位数は同じく181cm。180以上182未満を満たしているので,正です。

以上より,正しいものは①,⑥です。

 

適切な図を選んで特徴を正しく読み取れるか,ということですが,上では括弧書きで済ませた階級の幅なども大切なポイントになっていますので,確認してください。

 

続いて(2)です。さきの身長を変換した変量Xと,体重をXで割った変量Zの散布図,ならびにZの箱ひげ図が示されています。複雑な式に見えるかもしれませんが,ひるまずに必要な情報だけに着目していきましょう。

それに加えて,散布図と箱ひげ図の対応も自分で判断しなければなりません。ここでポイントとなるのが, \displaystyle Z=\frac{W}{X} という変換式です。散布図ではXを横軸,Wを縦軸に取っているので,Zはすなわち「直線の傾き」を表していることになります。4つの直線   l_i はそのために描かれているわけです。

これを見ると,たとえば   l_4 の傾きは30なので,それよりも上にある(Zの値が30を超える)点が存在しているのは男子短距離の散布図のみであり,箱ひげ図(a)に対応することがわかります。 

また,男子短距離ほど明確ではないですが, 傾き20の直線  l_2 の回りの点を比べると,女子長距離が下に点が多く集まっていることが読み取れます。このことから,箱や中央値が20未満である(d)が対応することも判断できます。

残りの男子長距離と女子短距離の判別は少し面倒ですので,後で必要な時に判断するとして,選択肢の正誤を見ていきましょう。

 

⓪「負の相関」ということは散布図で言えば右下がり傾向です。散布図はいずれも右上がりなのは感覚的に判断できるかと思います。したがって誤。

①Zの中央値は箱ひげ図を見ればすぐにわかります。(a)の中央値が最も大きいので,これは男子短距離の特徴です。誤。

②Zの範囲ということなので箱ひげず全体の幅を比べればよいです。(d)が最小なのは見てわかります。(d)は女子長距離なので,誤です。

③四分位範囲は箱の幅です。いささか微妙ですが,(c)が最小です。(c)がどのグループかははっきりしていませんが,男子短距離でないことはわかっているので,誤です。

④Zの値がすべて25未満のものは(d)ですが,これは先ほどの考察の通り女子長距離でした。正です。

⑤消去法でいけば残ったこれが正となりますが,いちおう検証しておきます。いろいろ着眼点はあると思いますが……たとえば,正確な値はわからなくても,直線との「近さ」を比べてみましょう。散布図を見ると,男子長距離には女子短距離に比べて,  l_4 により近い点があります。逆に女子短距離には   l_1 により近い点があります。よって,箱ひげ図では最大値が30に近い(c)が男子長距離,最小値が15に近い(b)が女子短距離である,と判断することができます。

少しあいまいな感じを受けるかもしれませんが,「判別が十分可能になる程度に特徴をつかむ」というのが統計学では重要になります。

 

ちょっと脱線しますが,この問いで施された変換についてみてみましょう。\displaystyle X=\left( \frac{H}{100}\right) ^2 は,身長を100で割った,すなわち単位をmに直したものを2乗した値になっています。Zはこれを体重で割って算出した値です。気づかれた方もいると思いますが,このZはBMI(Body Mass Index)の値なんですね。肥満度を表す指標で,いろいろな疾患の予防や治療の資料として利用されているものです。一般には20前後が適正,と言われていますが,今回のデータの対象はアスリートなので,男子短距離のグループが高めの傾向にあるなど,特徴がみられます。筋肉量の割合が多い分,体重も増えやすいのだろうと思います。

ところで身長は長さ,体重は質量なので,体重と同次的に相関があるのは身長の3乗ではないのか,と思っていました。いろいろ調べてみたところだと,体重は筋肉の断面積と相関が強いので,身長の2乗と比べても意味があるとのことです。

 

(3)はいろいろ語りたいことがあるので,別記事にさせてください。

 

今回のマーク解答です。

サ・シ:①・⑥(順不同),ス・セ:④・⑤(順不同)