输入“/”快速插入内容

【智谱AutoGLM】深度体验报告及原理分析

2024年10月29日修改
⏰ 发表时间:2024-10-29
原创:ElliotBai ,产品白苏GLBai
前言
随着AI Agent技术的发展,如何让其真正落地应用一直是业界关注的焦点。本文通过对智谱AI最新发布的AutoGLM进行深度测试,探讨其在实际应用场景中的表现,并深入分析其技术实现原理。
我不常写智谱,因为智谱总是默默地在埋头研究技术,也不给商单。上一次写还是在一年前 GLMs 发布的时候,结果那篇文章写的是GLMs,最先做出来的却是Coze。
AI Agent要做好的核心是 Tools ,如果想让 Agent 变得有用,用户想要用,那么核心要解决的其实是Tools的问题,把跟用户日常使用、常用的东西都做成工具接入到 Agent 里,它才能变得有用和好用。但是这个事情基本不可能,微信会给接口么?淘宝会?还是美团点评小红书会? 都不会
要么各大内容平台自己下场做,字节做了,支付宝也做了(小程序),微信不知道会不会,但他们也只能在是自己的生态中去做,其它的厂家可能都比较难。不过其实还有另外一种通过类似 RPA 的方式去做,比如荣耀的手机自动驾驶,智谱的AutoGLM,模拟人类操作,不用跟应用厂家去直接对接,你省事我也省事,拒绝无障碍服务的话可能又会误伤其它用户,厂家也会掂量掂量。
不过真的想把这个事情做好,其实挺难,在智谱的AutoGLM发布前,我看过了很多实现甚至自己动手做过,不管是Paper、PPT还是Demo都没一个能打的。AutoGLM两天的深度测试下来,虽然还有许多不完美的地方,但我仍旧愿意写一篇文章来夸它,因为它的确让很多人对 AI Agent 落地可用重新燃起了希望,迈进了很大的一步。
下来就让我一遍分享测试过程,一遍试着分析实现原理,带大家一起来体验一下AutoGLM。
注册&权限
AutoGLM 目前还处于内测阶段,申请入口在智谱清言APP中,直接跟AutoGLM内测申请小助手对话提交申请即可。(智谱把传统表单的提交通过Tools的方式做到了对话中,体验提升很多,顺便赞一个。我们以前在做拟人客服的时候也用到了这样的思路,对话式的交互,从自然语言中提取信息并通过Tools提交,更像是跟人类在交流,而不是冰冷的表单。)
目前只能在安卓设备上使用,iOS应该很长时间内都不会支持。
因为数据的获取和操作,都是通过安卓的无障碍权限来控制的。 无障碍服务(AccessibilityService) 是一套可以模拟操作的系统级别的API。用户同意我们的应用获取无障碍服务的权限之后就可以模拟操作,来控制用户的手机。无障碍被广泛用于抢红包、自动回复、一键获取权限等应用中。但是开启了无障碍服务之后,因为需要实时监控手机,理论上是会引起手机的卡顿的,另外一个就是隐私问题。
所以在登录AutoGLM后的第一件事情就是引导你去开启无障碍权限和悬浮球权限,不然就没有办法继续体验。在权限授权正常之后,你就会进入到首页。