继今年1月15日讯飞发布深度推理模型星火X1后,3月3日,星火X1迎来了升级。同时基于星火X1升级版,首发星火医疗大模型X1,在诊断推荐、健康咨询等医学任务上效果领先。
作为采用全国首个、也是目前唯一一个基于国产算力训练的深度推理大模型,科大讯飞官方称,星火X1升级版在模型参数量较少的情况下,实现了数学能力与DeepSeek R1和OpenAI o1的全面对标。
星火X1升级版的数学能力到底如何,能否真的对能标DeepSeek R1,还需要我们亲自动手验证。
下面的10道试题,涉及小、初、高及奥数。本着一视同仁的原则,每题10分,满分100,以最后得分多者为胜,看看星火X1升级版和DeepSeek R1谁才是数学殿堂里的王者。
试题1:
来源:《五年级方程超难易错题》
某班有学生45人,会下象棋的人数是会下围棋人数的3.5倍,两种棋都会及两种棋都不会的都是5人,求只会下围棋的人数。(设未知数并列方程求解)
星火X1
ChMkK2fKVbyIH1z6AADYtzRTn30AApt3wPtGXkAANjP128.jpg
DeepSeek R1
ChMkK2fKVbuIMf3cAAC81rXN3eQAApt3wPDu38AALzu906.jpg
两大模型都给出了正确答案,各得10分。
试题2:
来源:《小学奥数盈亏问题题库》
幼儿园老师给小朋友分糖果.若每人分8块,还剩10块;若每人分9块,最后一人分不到9块, 但至少可分到一块.那么糖果最多有多少块?
星火X1
ChMkK2fKVbyIZPt0AAFJUa_Fi2cAApt3wPezigAAUlp138.jpg
DeepSeek R1
ChMkK2fKVbuIDzARAACuiF4si2kAApt3wPQTiIAAK6g878.jpg
再次双赢,各得10分
试题3:
来源:《2024年重庆市中考数学试题A卷数学试题》
ChMkK2fKVbyIOWoLAADO_x4vPgIAApt3wPpIjMAAM8X128.jpg
星火X1
ChMkK2fKVbyIYNDvAAEmmE4YYA0AApt3wPp8UoAASaw505.jpg
ChMkK2fKVbyIHBElAAGAX3qa5eoAApt3wPci3AAAYB3009.jpg
DeepSeek R1
ChMkK2fKVbuIR2idAAFijPnWJvsAApt3wPEqH8AAWKk429.jpg
正确,两大模型各得10分。
试题4:
来源:《2024年重庆市中考数学试题A卷数学试题》
ChMkK2fKVbyICx34AABxPxXJ0W8AApt3wPhGrkAAHFX824.jpg
星火X1
ChMkK2fKVbuIFxO9AAE2RRqFLIkAApt3wPNShoAATZd590.jpg
DeepSeek R1
ChMkK2fKVbuIT-cTAADaQPj7OeIAApt3wPH1o4AANpY847.jpg
两大模型回答正确,各得10分。
试题5:
来源:《2024年重庆市中考数学试题A卷数学试题》
ChMkK2fKVbyIYvRYAADhu0mbzDYAApt3wPvz8UAAOHT539.jpg
星火X1
ChMkK2fKVbuIS7pwAADefk0bpq8AApt3wPJIzYAAN6W555.jpg
DeepSeek R1
ChMkK2fKVbuIcg48AACqTbUdyysAApt3wPLl5QAAKpl763.jpg
两大模型回答正确,各得10分。
试题6:
来源:《2024年重庆市中考数学试题A卷数学试题》
ChMkK2fKVbyIQpiaAAEpVMaddoAAApt3wPxbgcAASls989.jpg
星火X1
ChMkK2fKVbyIHi1NAAJSoIA7cg4AApt3wPmz3sAAlK4197.jpg
DeepSeek R1
ChMkK2fKVbuISFMdAAEOUTHbKYQAApt3wPSBj4AAQ5p662.jpg
星火X1完美给出了三小题的答案,得10分,DeepSeek给出的答案中(1)正确,(2)错误,(3)两个坐标只给出了一个,以4个答案共10分计算,每个答案分别为2.5分,因此这道题DeepSeek共得5分。
试题7:
来源:《2024年新高考数学全国一卷试卷(新高考Ⅰ)》
ChMkK2fKVbuIERwGAAAwCDA0ezwAApt3wPDPJYAADAg731.jpg
星火X1
ChMkK2fKVbyIIp9NAAEmSyx4pAUAApt3wPZKN0AASZj256.jpg
ChMkK2fKVbuIX9qNAAByOJzrgSwAApt3wPIsOYAAHJQ768.jpg
DeepSeek R1
ChMkK2fKVbyITkQuAAEXvek5iUQAApt3wPYEQgAARfV252.jpg
ChMkK2fKVbuIfYNcAABYtAXSfecAApt3wPHQ0kAAFjM416.jpg
回答正确,各得10分
试题8:
来源:《2024年新高考数学全国一卷试卷(新高考Ⅰ)》:
ChMkK2fKVbuIUJuoAAA6YanJ-7EAApt3wPHnBUAADp5132.jpg
星火X1
ChMkK2fKVbyIMP1zAAFPXQ9S2ZIAApt3wPWPMgAAU91463.jpg
DeepSeek R1
ChMkK2fKVbuIKW4OAABRLQQOAD8AApt3wPGCyMAAFFF587.jpg
星火X1给出的两小题答案全部正确,得10分;DeepSeek此轮表现不佳,0分。
试题9
来源:《初中奥数常考试题类型100例》)
已知三角形的三个内角的和是 180°,如果一个三角形的三个内角的度数都是小于 120 的质数,则这个三角形三个内角的度数分别是___。
星火X1
ChMkK2fKVbuIFYL9AADmIowIAD4AApt3wPMY-AAAOY6081.jpg
DeepSeek R1
ChMkK2fKVbuIQRRtAAEJZHhcVdMAApt3wPQ_MIAAQl8415.jpg
星火X1只给出一个答案,实际上,该题还有一个答案,即2°、89°、89°,同样也能满足题意,因为漏失一个答案,得5分。DeepSeek回答正确,得10分。
试题10:
来源:《2024年全国中学生数学奥林匹克竞赛(预赛)暨2024年全国高中数学联合竞赛一试试卷(A卷)》
ChMkK2fKVbuIWj9aAABWTAo9_fEAApt3wPLQTAAAFZk569.jpg
星火X1
ChMkK2fKVbyIC7WwAAH-0--7_FQAApt3wP01FUAAf7r087.jpg
DeepSeek R1
ChMkK2fKVbyIHzKBAAGruUXJhZQAApt3wPrF_oAAavR657.jpg
星火X1回答正确,得10分;DeepSeek回答错误,不得分。
小结:
上面我们对刚升级的讯飞星火深度推理大模型X1做了简单的测试,从它和当前热度很高的DeepSeek的PK情况来看,星火X1的表现很出色,10道题仅错了半题,总得分95分,相比之下,DeepSeek表现略差,错了两题,半错一题,总得分75分。
此外,在使用过程中我们还发现,DeepSeek广被诟病的服务器繁忙、无法回答问题的情况仍然存在。
ChMkK2fKVbyIaaJUAADCKSztCkEAApt3wPeC-cAAMJB628.jpg
此次评测大约用去5个小时,其中约有一大半时间是浪费在反复发送问题,等待DeepSeek的回复上,徒耗了精力,一定程度上拉低了使用体验。 |