米国のIT専門メディア「TechCrunch」は、OpenAIが最近公開した人工知能モデルの正確性が、従来モデルよりも低下していると18日(現地時間)に報じた。
OpenAIは新たに開発したモデル「o3」と「o4-mini」が、人に関する質問にどれだけ正確に答えられるかを独自の評価基準「PersonQA」で検証した。これは著名人や公的人物に関する基本情報への理解度を測るもので、「スティーブ・ジョブズが設立した最初の会社は?」といった質問が例に挙げられる。
しかし、テストの結果は予想外だった。モデル「o3」は全体の質問のうち約33%に誤った回答をしており、3回に1回は誤答していることになる。これは旧モデル「o1」(16%)や「o3-mini」(14.8%)のほぼ2倍の誤答率だ。さらに「o4-mini」は、約48%の質問で事実と異なる回答をした。
AIが実際には行っていない行動を、あたかも実行したかのように述べる「幻覚(ハルシネーション)」の事例も確認された。非営利AI研究団体「Transluce」は、実験中に「o3」が「ChatGPTの外部環境で2021年製のMacBook Proにコードを実行し、その結果をコピーしてきた」と回答したと明かした。しかし、現実には「o3」モデルにそのような実行機能はない。つまり、事実ではないことを事実のように述べたのだ。
OpenAIは誤情報が増加した原因について「正確な理由は不明」としつつ、「新モデルはより多くの情報を出力しようとするため、正解とともに誤答も増えている」と説明した。
現在、AI技術は計算やプログラミングのように明確な答えがある分野では成果を上げている。一方で、人名や歴史など事実の正確さが求められる分野では、性能が後退しているとの指摘もある。
OpenAIは、ウェブ検索機能の活用が誤情報を抑える鍵になると考えている。実際、検索機能を搭載した「GPT-4o」モデルは、簡単な質問テストで約90%の正答率を記録した。ただし、検索機能を使うとユーザーの質問が外部の検索エンジンに送信されるため、プライバシーの懸念も指摘されている。
なお、AIを業務に活用しているケースもある。スタンフォード大学の兼任教授キアン・カタンフォルシュ氏は「我々のチームではo3をコード生成に使用しており、他モデルより良い成果を得ている」と語る一方で、「存在しないウェブサイトのURLを生成する問題は繰り返し発生している」とも述べた。
Transluceの共同創業者サラ・シュヴェットマン氏は「これほどの誤答率では、現場での実用は難しい」との見解を示した。OpenAIの広報担当者は「正確性と信頼性を向上させるため、継続的に改善を進めている」とコメントした。
AI技術は日々進歩しているが、「正しい情報を確実に伝える」という基本的な課題はいまだ克服されていない。