当前位置:首页 > 快手 > 正文内容

快手Agents系统、模型、数据全部开源!

早间资讯网5个月前 (12-27)快手37

机器之心专栏

机器之心编辑部

快手联合哈尔滨工业大学研发的「KwaiAgents」,使7B/13B模型也能达到超越GPT-3.5的效果,并且这些系统、模型、数据、评测都开源了!

7B 大小的模型也能玩转 AI Agents 了?近期,快手开源了「KwaiAgents」,问它周末滑雪问题,它不但帮你找到场地,连当天的天气都帮你考虑周到了。

大家都知道大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但即使是当前最强的 GPT-4,单独使用的情况下,依然会一本正经地胡说八道,无法跟世界保持实时的交互。AI Agents 就是解决这个问题的道路之一,通过激发大模型任务规划、反思、调用工具等能力,使大模型能够借助现实世界工具提升生成内容的准确性,甚至有能力解决复杂问题。这一次,快手联合哈尔滨工业大学研发的「KwaiAgents」,使 7B/13B 的 “小” 大模型也能达到超越 GPT-3.5 的效果,并且这些系统、模型、数据、评测都开源了!

技术报告:

项目主页:

从「KwaiAgents」的 Github 主页中可以看到,本次开源内容包含:

系统(KAgentSys-Lite):轻量级 AI Agents 系统,并配备事实、时效性工具集;

模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其训练数据;

评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

系统

KAgentSys 系统,是基于大模型作为认知内核,配以记忆机制、工具库,形成的迭代式自动化系统。其主要包含:

记忆机制:包含知识库、对话、任务历史三类记忆,依托于混合向量检索、关键词检索等技术的检索框架,在每一次规划路径中检索所需的信息。

工具集:包含事实性增强工具集,异构的搜索和浏览机制能够汇集网页、文本百科、视频百科等多个来源的知识;包含日历、节日、时间差、天气等常见的时效性增强工具集。

自动化 Loop:在一轮对话中,用户会给予一个问题,可选知识库及额外人设整体进行输入,系统会先进行记忆的更新和检索,再调用大模型进行任务的规划,如果需要调用工具则进行调用,如果不用则进入总结阶段,大模型综合历史的信息给出符合预期的回答。

本次开源 KAgentSys 的部分能力,系统将逐步进行升级和开放。

模型

为了避免训练中单一模板引起的过拟合问题,团队提出 Meta-Agent Tuning (MAT) 的方法,通过在训练数据中引入更多 Agent Prompt 模板,从而提升大模型在 Agent 能力上的通用性,并提升了效果。

Meta-Agent Tuning (MAT) 分为两阶段:

模板生成阶段:通过设计 Meta-Agent,对特定问题集合,生成实例化的 Agent Prompt 模板(上右图为一个例子)候选;并在相同的实验环境下,生成模板产出的候选结果,与开源模板(如 ReAct,AutoGPT 等)产出的高置信结果,用打分模型进行对比打分,从而筛选出高质量的 Agent Prompt 模板库。通过引入这些多元的模板,能够显著降低模型微调时对模板的依赖,提纯更本质的 Agents 在任务规划、工具使用、反思等能力,从而提高模型的泛化性和有效性。

指令微调阶段:基于上万的模板,构建了超过 20 万的 Agent 调优指令微调数据。团队调优了一些热门开源模型如 Qwen-7B、Baichuan2-13B 等,供大家使用和参考,后续还会陆续放出其他热门模型。

评测

KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下各方面的 Agents 能力。

如上图所示,在 KAgentBench 中,会对不同种类的能力构造输入,每个 query 配备多个模板和多个人工编辑的真实回答,旨在综合评测准确性和泛化性,下表显示了经过 MAT 调优后,7B-13B 模型各项能力的提升,且超越了 GPT-3.5 的效果:

同时,该研究还请人类标注者在 200 个事实性和时效性的问题(如 “刘德华今年几岁了”),对不同的大模型和 Agent 系统进行了交叉评估,可以看到 KAgentSys 系统和 MAT 之后模型提升显著(百分号前为正确率,括号内为 5 分制均分)。

通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到 “安东内拉比梅西大多少天?” 这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而 KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用 time_delta 时间差工具算出年龄差,就能精准回答这个问题了。

团队表示,AI Agents 是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面也会积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。

免责声明:本站部分内容来自网友自行上传或转自网路,如有侵犯您的利益请联系我们。我们会尽快处理并致以最深的歉意。邮箱:marssir@vip.qq.com

本文链接:https://news.zaojiaoguan.com/news/25759.html

分享给朋友:

“快手Agents系统、模型、数据全部开源!” 的相关文章

快手CEO程一笑:预计泛货架将成为快手电商全新增长点

快手CEO程一笑:预计泛货架将成为快手电商全新增长点

8月23日消息,快手科技日前发布2023年第二季度业绩,总营收同比增长27.9%至277.4亿元,二季度快手电商交易总额(GMV)同比增长38.9%达2655亿元。业绩电话会上,快手科技创始人兼首席执行官程一笑表示,“长期来看,我们将结合直播内容场,在商城等泛货架场域重点做好复购等强购物心智的承接,...

国美电器宣布入驻快手本地生活

国美电器宣布入驻快手本地生活

7月11日,国美电器宣布旗下百家自营门店正式入驻快手本地生活,将通过到店团购、直播带货等方式进一步联动线上平台和线下门店,为消费者带来从购买到售后的一站式服务。据悉,快手将为国美提供流量扶持、商品补贴、投流返点等助力国美快速成长。数据显示,今年上半年,快手本地生活发展迅猛,GMV月均增长率接近50%...

2023快手酒水饮料行业数据报告

2023快手酒水饮料行业数据报告

2022年1月至2023年3月期间,快手日均观看食品饮料视频用户超过2亿,2023年Q1同比增长4.8%;月均观看食品饮料直播用户数超3亿,观看食品饮料直播用户在春节前一个月达到峰值。人均每天在快手观看食品饮料相关视频时长总体呈增长趋势,2023年Q1同比增长19.4%,同时2023年Q1期间人均每...

快手:将逐步开放「0元开店」

快手:将逐步开放「0元开店」

鞭牛士 8月31日消息,快手电商日前公告称,为进一步降低商家的入驻门槛和经营成本,提升开店效率,平台拟新增《0元开店试运营规则》。规则于2023年8月30日发布,于2023年9月6日至2023年9月13日逐步放量生效。 “0元开店”是指快手电商为了帮助中小商家更低成本的快速开通店铺开启经营,平台针对...

高中数学解析几何10类大题型及3大模型梳理(附直播预告)

高中数学解析几何10类大题型及3大模型梳理(附直播预告)

需要打印版的老师和家长 长按下方二维码在对话框回复“打印”(非私信) 教你打印! 建议只打印所需要内容 需要电子版的老师和家长 长按下方二维码在对话框回复“电子版”(非私信) 教你下载 温馨提示 1.阅读文章后,记得点击“在看”;2.点文首☞进入老师吧公众号,点右上角●●●,把“老师吧”设为星标🌟;...

又有两大美女模型曝光,和云曦是同族,被称为天人族三大明珠

又有两大美女模型曝光,和云曦是同族,被称为天人族三大明珠

哈喽,大家好,我是木子。 随着《完美世界》动漫的更新,元天秘境的剧情也都进展到了最高潮的阶段,很快石昊就要得到又一种十凶宝术雷帝宝术。在石昊获得雷帝宝术之后就会离开元天秘境,而在元天秘境的事情结束之后又会是另外一段高潮剧情的开始,这段剧情已经被宣布做成了特别篇,这段剧情就是石昊万里护送云曦回天人族的...

同程旅行与快手本地生活合作,满足用户多元化旅行需求

同程旅行与快手本地生活合作,满足用户多元化旅行需求

9月14日,同程旅行宣布与快手本地生活达成合作,共同为用户提供多元化的旅行内容和产品。双方将利用各自优势,不断提升优质的旅行内容和产品供给,满足用户愈发旺盛的出游需求。未来,同程旅行提供的旅行产品将通过快手本地生活触达和服务更广泛的用户人群。 根据双方合作,同程旅行将为快手本地生活提供景区门票等优质...

快手-WR(81024.HK)9月15日收盘涨0.08%

快手-WR(81024.HK)9月15日收盘涨0.08%

截至2023年9月15日收盘,快手-WR(81024.HK)报收于60.5港元,上涨0.08%,换手率0.0%,成交量1400.0股,成交额8.42万港元。 资金流向数据方面,9月15日快手-WR无主力资金净流入,无超大单资金净流入,无大单资金净流入,中单资金净流入1.26万港元,无小单资金净流入。...