AI大模型这阵风刮的有一段时间了,只可惜一直没有各家的体验账号,难以进行对比测试,好在今天同时获得了百度和阿里的体验账号,不妨来个小PK。
Round 1,用一个ChatGPT 3.5 刚推出来时经常犯的一个错误来试一下,那就是用不同时期的历史人物来对比,最初版ChatGPT无法分清这些历史人物的来历,会胡乱编造一番,例如闹出过林黛玉倒拔垂杨柳的笑话,后来4.0版修复了此问题。我们使用比较冷门的不同时期历史人物来试探一下百度阿里的两位AI大模型晚辈小少侠,让他们回答一下:“柳如是打得过梁红玉吗?”
阿里通义千问
百度文心一言
从回答情况来看,两位少侠都已经填平了ChatGPT早期历史知识的坑,能够正确区分历史人物的朝代关系,不再胡编乱造扯关系了。这一局,两者平手。
Round 2,考完历史我们来考数学,让两位少侠来计算一下光从太阳照到地球再反射到月亮,需要多长时间?
阿里通义千问
百度文心一言
他们的回答都是错误的,阿里只考虑月亮到地球的距离是 384,400公里,而没有考虑太阳距离地球多远。百度只考虑了太阳到地球的距离是1.5亿公里,却没有考虑地球到月亮的距离。正确的计算公式应该是 1.5亿/30万 + 38万/30万 = 500秒,约8分多钟。这说明做复杂一点的数学应用题,暂时还是别指望AI大模型了。这一局,两者仍然是平手。
Round 3,该考语文了,来改写一首古诗吧,我们加点难度,把李白送别好友孟浩然的黄鹤楼改成送别妻子的情景,让AI来改写后两句。
阿里通义千问
百度文心一言
阿里这个没有理解续写后两句是啥意思,感觉是改写了李白的前两句。而百度理解比较到位,续写的后两句很押韵,“相思”体现出了相公送别妻子的情景。这一局,文心一言略胜。
Round 4,接下来考外语啦,我们来考一句顺口溜:扁担长,板凳宽,板凳没有扁担长,扁担没有板凳宽。
阿里
百度
两者给出的句子都是正确的,唯一的区别在于用哪个英语单词来描述板凳和扁担,他们用的词虽然不一样,但意思基本都是OK的,两者外语成绩相当。
Round 5,最后看看谁的编程水平更高。我们直接来个难的,结合浏览器内核工作原理的,写一段python代码,实现浏览器cache缓存过期刷新机制。
阿里
百度
两者在访问cache文件并判断是否过期上都是OK的,阿里对刷新做了处理,即时间过期时会删掉缓存。而百度对url做了处理,更符合浏览器访问网页的场景,两者虽然都没能100%符合预期,但各有所长,基本平局。
经过这5轮对决,阿里通义千问和百度文心一言不相上下,语数外历史及编程水平都比较高,但也看得出来各自都还有一些瑕疵,仍然还有努力的空间。我们作为普通人,学会使用AI大模型来帮助处理日常工作生活中的问题尤为重要,多了一个免费的精通天文地理的虚拟秘书,谁不开心呢?
虚拟秘书
