
日経新聞で、AIに東大入試と京大入試を解かせた共同調査の結果が出ていた。
オープンAIのモデルが文理ともに最高点を超え、京大を含めて全科類で「首席」相当の点数だったらしい。
「AIは東大に合格できるか」の記憶
正直、今の生成AIの性能を考えると、この結果に驚きはない。
むしろ、そろそろこういう結果が出るだろうな……と思っていた程度のことだ。実験に使われたのは数ヶ月前のモデルで、いまの最新世代より一段古いものである。
今春の入試問題が学習データに含まれているとは考えにくいので、少なくとも初見の問題を解いている形にはなる。それでこの点数が出るのが、現在のフロンティアモデルのおおよその実力なのだろう。
この手のニュースで自分が思い出すのは、十年ほど前に話題になった「AIは東大に合格できるか」という、ある研究プロジェクトである。
当時のAIと現在のLLMは仕組みそのものが違うので、性能を直接比較しても意味はないし、「あの時できなかったじゃないか」と過去のプロジェクトを後出しで批判するのも筋違いだろうと思う。当時の技術には当時の事情がある。
引っかかるのは「推論の鎖」のほう
自分が引っかかっているのは、もう少し別のところにある。
あのプロジェクトの成果としてまとめられた本の中では、「ビッグデータをいくら積んでも東大には合格できない」「近未来にAIは東大に受からない」という、かなり強い断定がなされていた。
これが結果として外れた、というだけなら、技術予測の話で済む。
問題は、その断定からさらに踏み込んで、AIには意味理解ができない、だから「AIに負ける子ども」が問題である、だから新しい読解テストが必要である、だから国語教育はこう変わるべきだ……という、けっこう長い推論の鎖が組み立てられ、それがメディアと教育界にかなりのインパクトを与えていったことのほうにある。
最初の前提のところで、ある一つのアーキテクチャの限界を「AI一般の限界」に拡張してしまっていたとしたら、それは議論としてかなり足元が覚束ない。
そして実際、その前提のほうがLLMの登場であっさり揺らいでしまった。前提が揺らげば、そこから引き出された結論も、別の根拠で組み直さないといけなくなる。
テストそのものと、それを支えたレトリックは分けて考えたい
ここは慎重に分けておきたい。
仮にAI観の側に過剰な一般化があったとしても、その後に展開された読解テストそのものが直ちに無効になるわけではない。
テストにはテストの実証データがあり、何をどこまで測れているのかは、AI予測の当否とは独立に検証されるべきものである。「前置きが怪しかったから測定結果まで全部無価値」というのは、こちらの側の論理としても飛躍している。
十把一絡げに否定するのはフェアではない、と思っている。
ただ、それと「そのテストや教育改革の必要性を社会に訴えるときに使われたレトリック」は別の話である。
後者はAI論を大きな梃子にしていたのだから、その梃子が傾いた以上、社会的な正当化のされ方は再点検が避けられないはずだ。
少なくとも、「AIにできないこと」を引き合いに国語教育の方向を語る、という構図は、もう自動的には成り立たない。AIにできないことのリストは、これからもどんどん書き換わっていく。
エビデンスとレトリックを区別して読みたい
こうやって整理してみると、自分が違和感を持っていたのは、プロジェクトそのものというより、その成果と教育論をつなぐ論立てのほうだったと言えそうだ。
エビデンスと教育観と政治的なポジショニング。
この三つをいったん切り分けて読む。
地味な話ではあるけれど、こういう読み方こそ、いま国語教育が大事にしたい力なのではないかなぁ……と、改めて思うのである。
そういう丁寧さを欠いている議論に国語がどれだけ振り回されてることか…。




このブログについて
