网站地图官方微信:
网站首页 画水镇 砀山县 红光 两城镇 清风乡 长顺县

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 为什么后端老是觉得前端简单? |

    目前的时代,2025年,前端比后端要麻烦,不是难,是麻烦。 ...

    查看详情>>
  • | TVB 演员陈慧珊转行当英语老师,称已拿博士学位,如何看待她的选择?为什么这么多 TVB 演员转行? |

  • | 因为媳妇纹身没跟我沟通,吵了一架,我提了离婚,是不是我小题大做了? |

  • | 前后楼怎么共享宽带? |

  • | 为什么有些人不喜欢春晚提到饺子? |

  • | 是什么原因导致HDR无法推行? |

  • | 学编程要不要买电脑? |

  • | NBA 选秀大会杨瀚森首轮第 16 顺位被开拓者选中,他的实力能在开拓者队进入轮换吗?发展前景怎么样? |

  • | postgresql能取代mongodb吗? |

  • | 月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点? |

  • | 黄一鸣为什么敢承认孩子是王思聪的? |

  • 为知友们提供更多信息: 登顶珠峰正常需40多天,有人却靠12...

    2025-06-26
  • 买一台境外的服务器,再买一台境内的服务器。 配置要一样。 ...

    2025-06-26
  • 最近陆陆续续的发布了很多的智能体,有拿Agent做唯一产品的...

    2025-06-26
  • 3个中国程序员 vs 3个美国程序员,不得不承认,差距太大了...

    2025-06-26

关注我们

添加微信好友,关注最新动态