2012年6月6日水曜日

試験を返した。

今朝は先週行われた理学療法研究論の試験結果を発表した。平均点は100点満点の42.6点。標準偏差は12.2点だった。予想していた得点レンジから10点ほど左に移動する形となったが、キレイな正規分布を描いたので、試験としてはワーク(機能)したと思う。昨年と比較すると15点ほど平
均点が下がったわけだが、十分な解答時間を与えようとして、問題数を減らしたことが裏目に出たのかもしれない(つまりは難易度の高い問題の密度が上がってしまったということだ)。

うちの大学が設定している合格点は100点満点の60点なので、平均が43点ということは、そのまんまやるとクラスの半数以上の学生が不合格ということになる。でもそこは合格水準を引き下げ、4段階(A〜D)の評価でAが20%、Bが40%、Cが30%、Dが10%くらいになるようグレーディング(grading)するわけです。この補正は英語では「curve させる」といったりします。要は絶対評価ではなく、相対評価するためのテクニックです。

このような相対評価(curving) は、アメリカの大学では教員と学生間での常識となっていますが、日本の大学、少なくとも本学(本学部?)ではまだ馴染みがないようです。教員の中には、

「60点未満は不合格です」
「大学が決めた規準と違うじゃないですか」
「いったん出た成績を統計的に操作することには疑問を感じます」

と主張する人もいますが、一口に「100点」と言ってもいろんな「100点」があるわけです。何を100点にするかのコンセンサスもなく(教員によって、また試験によって、「100点」が意味するレベルは違うはず)、60点未満、即「不合格」(あるいは60点以上、即合格)ということにはならないと、個人的には考えています。

そもそも一つのクラスにおいて、学生間における習熟度のばらつきは必ず出て来るわけで、そのばらつきを測定するというのも試験が果たす重要な役割だと思います。かなり習熟した人もほとんど習熟していない人も「習熟した」の一括りで評価されるのであれば、人は学ぶ意欲を次第に失っていくことでしょう。

僕は0点から100点までの空間を命一杯使いたいと思うのです。クラスの95%の人が60点以上になるテストを作らなければならないのであれば、活用できるレンジ(ダイナミック・レンジ)は実質60〜100点までの40点です。

その狭い範囲の中で、A〜C(A = 80点以上、B = 70点以上、C = 60点以上)までの学力差を正確に測れるテストを作成するのはかなり難しいんじゃないかと思うんですね(SATやらセンター試験やらを作っている試験作成のプロなら出来るんでしょうが。。。)。

ま、日本ではアメリカのように大学の成績(GPA)で就職先や進学先が大きく決定づけられるわけではないので、そんなに張り切って学生の本当の学力を映し出す評価法を作らなくてもよいのかもしれませんが。。。

0 件のコメント:

コメントを投稿