https://d1021.hatenadiary.com
http://d1021.hatenablog.com

【共通テスト1日目 Gemini成績】

満点=900点
1位:Thinking 839点/900点(93.2%)
2位:DeepThink 797点/900点(88.6%)
3位:Pro 779点(86.6%)
4位:Flash 778点(86.4%

【受験科目ごとのスコア】

(3.0 Flash/Thinking/Pro/DeepThink)
国語=186/192/144/159
英語R=91/97/95/95
英語L=73/89/76/78
政治経済=90/100/97/97
倫理=93/97/100/97
日本史探究=94/97/100/97
世界史探究=97/97/97/97
地理探究=54/70/70/77

大学入試共通テストを各社AIに単純にPDFでアップして解かせてみてるけど、圧倒的にGeminiが強い。
課金なし同士で比較しても、Geminiだけ圧倒的に速く回答し、ChatGPTに至っては共通テストのPDFすら読み込めずスタートすら出来ない。
Grokは本当にGeminiの100倍以上時間かかってGeminiより低い回答を返す。

GPQAスコアとかHumanity's Last ExamとかのAI向け試験で何点とったかも大事だが、何秒で回答したのかも各社はベンチマークとして公表すべきだとおもう。

共通テストに至っては
Gemini>>>>(時間100倍の壁)>>>Grok>>(0点の壁)>ChatGPT

#学歴厨涙目(責任ある積極財政)
#都市伝説の河童(責任ある積極財政)

#都市伝説の河童(解散総選挙

#マーケット(260118)

d1021.hatenadiary.jp