“AI六小虎”首个IPO要来了!我们测了测智谱智能体
AutoGLM沉思会成为潜力股吗?
作者/ IT时报记者 孙永会
编辑/ 潘少颖 孙妍
证监会网站显示,4月14日,智谱披露IPO辅导备案报告,由中金公司担任辅导机构,预计今年10月完成辅导计划。智谱与百川智能、零一万物、月之暗面、阶跃星辰和Minimax被称为“AI六小虎”,这六家是最早完成10亿美元以上融资规模的大模型创业公司。
这标志着,“AI六小虎”首个IPO即将来临。
近期的智谱有些活跃,其智能体新品AutoGLM沉思亦受到关注和讨论。
据智谱CEO张鹏介绍,AutoGLM沉思是首个集深度研究能力和操作能力于一体的免费Agent,能一边思考,一边执行操作。它的技术演进路径为:GLM-4基座模型→GLM-Z1推理模型→GLM-Z1-Rumination沉思模型→AutoGLM 模型。其中核心链路的模型和技术,已于4月14日开源。
每个人心中都有一款理想的AI Agent,在没有智能体之前,要完成一篇科普文往往要经过以下步骤:首先,搜索查找相关文章或书籍,厘清思路,完成文章大纲;其次,再根据大纲完成撰写和调整;最后还要在标题上下功夫,吸引眼球。
有了智能体后,这个扮演“助理”角色的AI能够帮助人们完成诉求,省心省力。
那么,智谱AutoGLM沉思的思考能力究竟如何?有科技博主用“一个肯干活、不摆烂但有点‘笨手笨脚’的实习生”形容它。《IT时报》记者就多个场景进行体验和测试。
场景一 耗时约5分钟 完成旅游攻略
“当前处于实验阶段,请实时监控AutoGLM沉思的每一步操作行为。”在PC端让AutoGLM沉思执行任务时,页面显示的这句话似乎意味着它还“不太灵”。
目前,用户可以在智谱清言网页端开启“深思”模式,也可以在App最新版中进行体验。此外,用户还可以下载智谱清言PC桌面客户端,在最新版本的谷歌浏览器中添加清言浏览器插件,发起指令。
“安排一个十天的西南自助游,路过重庆、贵州和四川,家庭三人行,给出大概的预算方案和小吃清单。”《IT时报》记者首先让AutoGLM沉思完成一份旅游攻略,该智能体从全网搜索到给出具体的旅游方案,共耗时4分15秒。
“我需要多轮搜索和深入阅读来完成这个任务。”从思考过程来看,AutoGLM沉思搜索了西南自驾游的基本路线和推荐景点、三个地方的主要美食、住宿选择和价格范围等。每搜索一次,它都会由浅入深地体现自身思考的次序和逻辑,比如呈现初步获得的信息,再基于所得信息提炼关键点后进入下一轮检索。
就这份旅游攻略,它前后思考了17次,关键词搜索法是该智能体搜索的方式,例如“四川特色美食小吃”“贵州特色美食小吃”和“重庆主要景点和特色”等。便捷的地方在于,它会附上所参考的文章链接,以便使用者查看原文。
点评:从攻略结果来看,整体较为完整,包括引言、行程概览、每日路线、总预算、小吃清单、注意事项和结语。一方面,AutoGLM沉思追求面面俱到,经过多轮搜索后,展示充足的信息量;另一方面,能够标注原始出处和参考资料,让用户有章可循,而非“胡言乱语”。但也存在待优化之处,比如思考的重复性和冗余度,让用户等待时间过久;其次方案虽然完整,但内容仅作简单罗列,在呈现形式上较为单一。较之于结果,思考过程似乎更具有参考价值。
场景二 分析剧集 重复性问题明显
除了制定攻略方案,AutoGLM沉思“号称”还能够在金融、学术、创作和生活等方面提供自己的思考,其创作能力如何?
“尽管夏天多变,日子还是会继续,被夏天台风吹垮的草和树,最终还是会再站起来……”近期热播的韩剧《苦尽柑来遇见你》金句频出。
“请分析和研究韩剧《苦尽柑来遇见你》是如何表达和演绎女性角色觉醒的,提供一份剧评大纲,不要泛泛而谈。”输入指令后,AutoGLM沉思共计耗时6分多钟完成这个任务。
“从百度百科信息可知”“从网易文章中了解到”……和前述的攻略制作一样,AutoGLM沉思制定了一份研究计划,然后开启了多轮检索。每搜索一回,便会提炼和罗列获得的基本信息,然后再执行下一步操作,该任务的搜索次数达13次。
创作结果包括引言、女性角色设定与背景、女性角色的觉醒与成长、女性角色觉醒的表达与演绎,以及女性角色觉醒的社会意义和结语等方面。
点评:AutoGLM沉思的分析过程整体令人满意,例如它梳理了女主觉醒的具体表现,其一是对文学梦想的坚持,其二是对婚姻和家庭的自主选择,第三个方面是对子女教育的重视。此外,也分析了剧集如何进行叙事,如柑橘的“酸涩”隐喻、海女的形象象征等。整体来看,AutoGLM沉思并非只提供一个结果,还有较具说服力的思考过程。
但显见的问题是,除了和做旅游攻略一样思考时间较长,它似乎还不太“听话”,并未按照《IT时报》记者的指令提供剧评大纲,只有一份分析结果。与此同时,无论是分析过程还是结果,逻辑感不足,重复性问题比较突出。比如在多达十余次的搜索中,会将相同或者相近的信息进行梳理和凝练,让人看起来有重复之感,时代和时间背景等信息也多次重复交代。在行文过程中,AutoGLM沉思并不会注意某些内容的先后出场顺序,有“想讲什么就写什么,只要不跑题就行”的感觉。
场景三 电脑选购方案完整 推荐品牌较为单一
“我想买一台7000元—10000元的笔记本电脑,为我设置一套选购方案,要有具体的品牌推荐。”接到指令后,AutoGLM沉思再度进入较长的搜索过程。
从搜索渠道来看,AutoGLM沉思在不同网站上进行搜索,包括京东、淘宝等购物网站以及知乎、小红书等社交媒体平台,共搜索了10次,既包括选购要点、价格配置,还有品牌推荐的“集合”。
最后,AutoGLM沉思给出了一份较为全面的指南,包含笔记本电脑市场特点,汇总了今年全国已经上线国家补贴政策信息的地区。此外还有这一价位主流品牌的分析,比如联想、华硕等品牌。让人满意的是,它还把购买者分成游戏党、设计创作者、商务办公族等不同类型,提供个性化的选购参考,具有指引性。
点评:较之于写剧评和制定旅游计划,AutoGLM沉思给出的笔记本购买方案结果更令《IT时报》记者满意,它起到了实际参考价值,比如消费者可以关注某一品牌、需注意国补等政策。但品牌数量比较局限,从结果来看,联想和华硕被多次提及,事实上,符合7000元—10000元的电脑品牌较多,最后呈现的效果应该更全面。
希望AutoGLM沉思的功能更加完善和优化,“沉思”时长更短,更具逻辑感,并降低重复程度。
排版/ 季嘉颖