OpenAIs neueste KI-Modelle werden zwar immer besser, halluzi­nie­ren aber deutlich häufiger als ihre Vorgänger. Bei bestimmten Tests erreichten die “Reasoning”-Systeme GPT o3 und o4-mini Fehlerraten von bis zu 79% - ein Trend, der selbst die Entwickler rätseln lässt.