GPT-4.5関連の質問について
Created on April 17|Last edited on April 17
Comment
1. GPT-4.5の「論理的推論」について
MT-Bench Reasoningの比較: anthropic/claude-3.7-sonnet vs gpt-4.5-preview-2025-02-27
Run set
2
2. 回答の安定性について
堅牢性は以下のように評価しております。質問の聞き方を変えた場合に回答が変わってしまう場合にスコアが下がります。

以下にGPT-4.5の実際の出力例を示します。
Run set
1
Add a comment