Faldt over den her rammende beskrivelse af problemet med bullshit-generatorerne kaldet chatbots: De er lidt som en lommeregner der regner rigtigt 80% af tiden, så du alligevel må checke hver eneste udregning om den er korrekt.
-
Faldt over den her rammende beskrivelse af problemet med bullshit-generatorerne kaldet chatbots: De er lidt som en lommeregner der regner rigtigt 80% af tiden, så du alligevel må checke hver eneste udregning om den er korrekt.
-
Faldt over den her rammende beskrivelse af problemet med bullshit-generatorerne kaldet chatbots: De er lidt som en lommeregner der regner rigtigt 80% af tiden, så du alligevel må checke hver eneste udregning om den er korrekt.
@malte Det er højt sat. De bedst chatbots er kun oppe på omkring 63% ift. simple regnestykker.
(ChatGPT-5 er kun på 49%)
kilde: ORCA benchmark -
@malte Det er højt sat. De bedst chatbots er kun oppe på omkring 63% ift. simple regnestykker.
(ChatGPT-5 er kun på 49%)
kilde: ORCA benchmark@dupe Du misser pointen, hvis du fikserer på tallet i den sætning. Kan du se det?