Faldt over den her rammende beskrivelse af problemet med bullshit-generatorerne kaldet chatbots: De er lidt som en lommeregner der regner rigtigt 80% af tiden, så du alligevel må checke hver eneste udregning om den er korrekt.

malte@radikal.social

dupe@infosec.exchange

@malte Det er højt sat. De bedst chatbots er kun oppe på omkring 63% ift. simple regnestykker. (ChatGPT-5 er kun på 49%)
kilde: ORCA benchmark

malte@radikal.social

@dupe Du misser pointen, hvis du fikserer på tallet i den sætning. Kan du se det?