斯坦福华人创业团队研发边缘设备模型数千条样本就能在特定领域比肩GPT-4

来源:爱游戏网址登录    发布时间:2024-06-21 19:25:57

  据介绍,自动化工作流和 AI Agent,有望极大提升人类生产力。而函数调用,则是自动化工作流和 AI Agent 的核心能力。

  尽管基于云端的大型语言模型,在函数调用等任务中展现出非凡的能力,但它们往往伴随着高昂的成本、隐私泄露的风险、以及对于网络资源的高需求。

  现有的 on-device 模型虽然能在某些特定的程度上解决这样一些问题,但在准确性和响应速度上还有很大提升空间。

  为此,美国斯坦福大学团队开发出一款名为 Octopus 的模型,让边缘设备上的语言模型,在函数调用的准确性和延迟上得以超越 GPT-4,同时还能大幅度降低计算开销。

  这让边缘设备能够轻松拥有“超级 AI Agent”的能力,从而能为边缘设备语言模型和 AI Agent 的研究提供新思路,推动 on-device AI agent 的进一步发展。

  据介绍,Octopus 模型的最终目标旨在实现一个真正的“超级 AI 代理”。

  它不仅能像 Siri 那样完成简单的查询任务和控制任务,还能按照每个用户指令自动地调用各种 APP 的应用程序编程接口(API,Application Programming Interface),从而执行更为复杂的工作流。

  从长远来看,这项技术有望改变人机交互的方式,让普通用户也能轻松“编程”,让手机、电脑、电器等设备变得更智能化。

  对于 APP 开发者而言,他们能够利用 Octopus 实现应用的全自动化,从而大幅度的提高用户体验。

  对于智能手机、智能家居等消费电子科技类产品来说,Octopus 则有望成为它们的“标配”,让设备真正懂得客户的真实需求,并能帮助用户完成工作,而不是仅仅语音对话。

  “从长远来看,Octopus 有望成为通用AI的重要里程碑,让语言模型能真正行动起来,感知、理解和改造世界。”研究人员表示。

  与此同时,Octopus 代表着 AI 代理技术的新方向,即“云-边-端协同”。

  其中,云端大模型负责知识的学习和积累,边缘设备模型负责实任务的实时执行,再辅以个人终端设备提供人机交互。

  通过三者的分工和协作,既能发挥云端算力的优势,又能兼顾隐私保护,还能提供较低的延迟、以及较低成本的交互体验。

  在这样的背景之下,像 Octopus 这样的轻量化、本地化的 AI 技术,有望成为每个人的“贴身秘书”。

  更重要的是,使用 Octopus 的时候全程都在用户设备上完成,无需将数据上传到云端。

  “我们的目标是用 AI 来赋能每个人,而不是侵犯他们的权益。”研究人员表示。

  其表示:“刚踏进拉斯维加斯会展中心,就被各种五光十色的展台和嘈杂的人群淹没了。”

  “作为来自勇于探索商业模式的公司的与会者,我们白天在 CES 逛展,晚上还得回旅馆加班。才逛了一天,大伙儿已经有点累了,商量着是不是逛完 AI 展区和 SaaS 展区就回去。”研究人员继续表示。

  幸好大家还是决定留下来多看看。其中,虚拟现实/增强现实展馆让他们大开眼界,虽然这个区域的展品所使用的 AI 技术还比较初级,但是那股把 AI 运用到各种设备和软件中的劲头感染了他们。

  汽车展馆更是未来科技的缩影,无人驾驶、车载 AI 助手......处处都是 AI 的身影。

  研究人员表示:“逛着逛着我们意识到,把端侧 AI 和 AI 代理结合起来,将是一个大有可为的方向。更重要的是,各行各业似乎都需要这种技术。”

  回来之后,他们启动了 Octopus 项目。期间,他们设计了训练数据集,确保模型能够理解各种真实世界的函数调用意图。

  然后,其使用 Google 的 Gemini 模型自动生成大量(query,函数)数据,再通过人工方式剔除不合理的结果。

  这种“用大模型训小模型”的思路很有效,只需数千条样本,就能让 Octopus 在特定领域达到甚至超越 GPT-4 的表现。

  随后,他们先后尝试了多种模型架构和训练方法。其中一个关键创新是引入了“functional token”的概念。

  通过将每个 API 函数映射到一个独特的 token,模型可以直接预测该调用的函数,从而无需生成函数的完整名称。这不仅提高了预测准确性,还大幅度减少了计算开销。

  而为了全面评估模型性能,该团队构建了大规模的真实场景数据集。他们发现仅需数千条样本,Octopus 就能在特定领域达到甚至超越 GPT-4 的表现。

  研究人员还针对不一样硬件平台做了适配和调优,最终实现了在手机上的流畅运行。

  其表示:“当第一次看到 Octopus 在手机上流畅运行,并且速度如此快的情况下,准确度又如此之高。我们很的惊讶,甚至以为是实验哪里出错了。”

  但是,之后的反复验证证明:此次推出的 functional token 的确能轻松实现如此强大的函数调用能力。

  NEXA AI 创始人兼首席科学家陈伟(斯坦福博士生)、NEXA AI 联合发起人兼首席技术官李志远(斯坦福毕业生)担任论文作者。

  目前,Octopus 模型已能适配 Android 系统,涵盖打电话、发短信、设置闹钟、拍照等数十个常用功能。

  同时,他们也在探索多模态交互,让 Octopus 不仅能听懂语音指令,还能通过图像、视频等方式感知用户需求。

  从更长远来看,他们盼望让 AI Agent 走进各个行业和每个端设备。而这要进一步赋予模型以学习、推理、规划等高层次能力,这也将是他们下一步的努力方向。

  01/ 澄清170多年学术争论:北大团队获得六角冰表面原子级分辨图像,刷新对于冰表面的传统认知

  02/ 科学家研发种子筛选AI模型,预测准确性超过90%,实现高效数字化的抗病品种筛选

  03/ 两百多年的物理效应迎新进展:中美联合团队发现低温莱顿弗罗斯特效应,在130℃下观察到液体悬浮

  04/ 科学家研发数字非福斯特电路,功率解决能力提高3个数量级,能用于远距离声通讯或无线/ 清华团队远赴云南养蚊子,借此发现新型抗病毒细菌,为蚊媒传染病防控提供有力方案