您好,欢迎进入开云·真人「中国」官方网站!

咨询热线:

400-823-3268

开云真人官网国内AI大模型综述:ChatGPT取得突破性进展国内大模型争相发布

发布时间:2024-04-17 01:15人气:

  开云真人官网国内AI大模型综述:ChatGPT取得突破性进展国内大模型争相发布AI 大模型是实现通用人工智能(AGI)的重要方向。AI 大模型是基于海量多源数据打 造的模型。AI 大模型具备通用、可规模化复制等诸多优势,是实现 AGI(通用人工智 能)的重要方向。AI 大模型当前包含自然语言处理(NLP)、计算机视觉(CV)等,统 一整合的多模态大模型等。 ChatGPT 推出两个月 MAU 突破 1 亿,是自然语言处理领域突破性的创新,进一步理解 了人类语言。大语言模型(Large Language Model,LLM)是一种使用了大量数据训练 的深度学习算法,构建出一个能够理解人类语言并自动生成语言的模型。ChatGPT 在 2022 年 11 月底推出后,2023 年 1 月的月活跃用户数已达 1 亿,成为历史上用户增长 最快的应用。ChatGPT 的自然语言处理能力超越了以往的自然语言处理模型,可以应 对各种自然语言处理任务,包括机器翻译、问答、文本生成等。

  大模型借助“预训练+精调”等模式,用相比较大模型更少量的数据即可对下游应用赋 能。预训练大模型基于海量数据的完成了“通识”教育。在具体应用场景下,借助“预 训练+精调”等模式,应用模型用相比较大模型更少量的数据即可进行相应微调,高水 平完成细分应用的任务。

  大模型增强机器理解力,优化人类与机器交互方式,提升信息处理效率。 1)自然语言类大模型:人类可以用自然语言方式,与机器形成交互。ChatGPT 为自然 语言方面的大模型应用,语言文本处理是人类世界最重要的工作内容之一,如果 AI 能够懂的人类自然语言,并与人类形成交互,将协助人类大幅提升语言文本处理效率, 带来生产力效率提升。例如,ChatGPT 可以依托人类自然问答的方式,帮助人类完成 回答问题、虚拟助手(计划旅行、预定餐厅、购买产品等)、创作、文本、编程、摘 要等工作。

  我们也可以通过语言类大模型调用机器工具,大模型相当于人类助手。根据微软论文 《Sparks of Artificial General Intelligence: Early experiments with GPT-4》, GPT-4 能够根据人类指令推断出需要哪些工具,有效地解析这些工具的输出并适当地 做出回应,而无需任何专门的训练或微调。2023 年 3 月 23 日,OpenAI 宣布推出插件 功能,帮助 ChatGPT 访问最新信息、进行计算或使用第三方服务。据 OpenAI 官网,第 一批支持 ChatGPT 第三方插件的网站共 11 个,包含电商、预定航班、订购食材、检索 实时信息、检索知识库信息等领域开云真人平台

  2)视觉类大模型:与语言模型类似,视觉类模型需要完成对图片的理解。2023 年 4 月 6 日,MetaAI 在官网发布了基础模型 Segment Anything Model(SAM)并开源,其 本质是基于 Transform 模型架构,可以对图像中的一切对象进行分割。交互方面,SAM 可使用点击、框选、文字等各种输入提示,指定要在图像中分割的内容。精准分割为 大模型图像理解的基础。图像理解可以在智能驾驶、图像识别、安防(人脸识别)等 方面进行利用。

  3)多模态融合:多模态为语言、图片、音频等多个模态的感知和认知融合。多模态大 模型能够让机器结合环境因素来模拟人与人之间的交互方式,让图像、文本、语音等 模态之间的统一表示和相互生成。多模态融合也是各大模型着重努力的方向。 当前,已有的大模型可在文本、图像等方面赋能,已有的渗透应用包括搜索引擎(Bing 等)、办公工具(Microsoft 365)、企业服务应用、垂直领域应用(金融、电商等) 等等。根据 2023 阿里云峰会,阿里巴巴集团董事会主席兼 CEO 张勇表示“所有行业、 所有应用、所有软件、所有服务都值得基于新型人工智能技术、基于 AIGC 各方面技术 支撑、大模型支撑重做一遍”。

  大模型是“大数据+大算力+强算法”结合的产物。 1)算力是 AI 发展的基础设施,芯片至关重要。算力的大小代表着对数据处理能力的 强弱。芯片性能越好,大模型的处理能力越快。比如,黄仁勋在 2023 年 2 月财报会中 表示“过去十年,通过提出新处理器、新系统、新互连、新框架和算法,并与数据科 学家、AI 研究人员合作开发新模型,已使大语言模型的处理速度提高了 100 万倍。” 2)算法是 AI 解决问题的机制,源于算法理论发展、迭代优化。不同算法可以看做解 决问题的不同路径,算法的优劣可以用空间复杂度与时间复杂度来衡量。例如,GPT 是在 Transformer 模型基础上发展的,Transformer 由 GOOGLE 在 2017 年提出。 Transformer 相比于传统的循环神经网络(RNN)或卷积神经网络(CNN),在处理长 文本时具有更好的并行性和更短的训练时间。

  3)数据是算法训练的养料,前期需要给模型喂养大量数据,形成模型理解能力,中后 期数据质量决定了模型精度。机器学习中要用标注好的数据进行训练,数据标注对未 经处理的初级数据进行加工处理, 转换为机器可识别信息,只有经过大量的训练,覆 盖尽可能多的各种场景才能得到一个良好的模型。

  当前,数据的丰富度和量对大模型的训练至关重要,只有大量数据的训练,大模 型才有理解能力涌现的可能。当前训练数据集来源多为公开数据,比如根据 Alan D. Thompson 文章,列举的大模型的数据集包括维基百科、书籍、期刊、Reddit 链接、Common Crawl 和其他数据集等。 中后期,高质量数据将提升模型的精度。比如更加事实性的数据将提升模型准确 性,更加通顺的中文语言将提升模型理解中文语言能力。另外,高质量反馈数据 也可提高模型性能,比如 ChatGPT 采用人类强化学习 RLHF,通过更专业的问题、 指令、人类反馈排序等加强模型理解人类语言逻辑。最后,也可以通过更精准的 垂类数据,完成部分更细分领域模型搭建。

  我们从以上三个维度,分析当前发布的部分大模型: 1)算力:算力布局主要来源于芯片的采购布局,算力基础设施的投入阻挡了部分小公 司的入局。当前数据训练需要较高性能的芯片完成对整体模型神经网络的训练构建, 供应厂商包括英伟达等。应用层面只需调用整体大模型里的部分神经网络,故对芯片 要求没有训练模型时那么高。 2)算法:OpenAI 仍有先发优势,GPT-3 之后并未开源。每家公司都有自己实现大模型 的路径算法,由于 GPT 在成立之初就坚持自己的算法路径(采用单项 Transformer 架 构等),并在此基础上运用大量数据训练使得模型产生的涌现能力,取得了一定的成功, 拥有先发优势。自 GPT-3 开始(2020 年),OpenAI 便不再公布大模型相关训练及技 术细节。虽然当前 OpenAI 的成功提供部分借鉴,但其他公司仍需时间去研发追赶并进 行模型迭代。

  除此以外,部分公司在特定领域拥有算法积累的先发优势,比如搜索类公司对语料的 切割和识别有先发优势,视觉类公司在图像领域识别有先发优势。 3)数据:当前中文语料规模与质量上不如英文语料。根据 W3Techs,中文网站占全球 网站数 1.3%,英文网站占比 63.6%。除此以外,由于中国移动互联网发展较为成熟, 大量的中文数据资源被存于各家企业或机构里,较难共享。

  目前,国内已有百度、阿里巴巴、腾讯、华为等公司对 AI 大模型进行开发,各模型系 列主要的 NLP 语言大模型、CV 大模型、多模态大模型也已推出并实现部分应用落地。 此外,据 36 氪消息,字节跳动也在语言和图像大模型上有所布局,预期将于今年年中 推出字节自研大模型。具体来看: 百度在 AI 方面布局多年,具有一定大模型先发优势。当前,申请文心一言 API 调用服务测试的企业已突破 6.5 万。在行业大模型上,已经与国网、浦发、吉利、 TCL、人民网、上海辞书出版社等均有案例应用。

  阿里通义大模型在逻辑运算、编码能力、语音处理方面见长,集团拥有丰富的生 态和产品线,在出行场景、办公场景、购物场景和生活场景均有广泛应用。 腾讯混元大模型已经在广告投放、游戏制作投入使用,目前集团在研究对话式智 能助手,预计投入使用后将对 QQ 和微信生态有一定优化。 华为与 B 端合作紧密,预计未来应用以 ToB 为主。此外,华为在算法、算力上储 备较为丰厚。比如“鹏城云脑 II”获全球 IO500 排行五连冠,拥有强大的 AI 算 力和数据吞吐能力。华为云 ModelArts 平台的高效处理海量数据能力,7 天完成 了 40TB 文本数据处理。盘古大模型最早已经在 2021 年 4 月正式发布,当前盘古 大模型训练文本数据高达 40 TB(GPT-3 为 45 TB)。

  文心大模型拥有多个 AI 应用场景,文心一言是基于文心 NLP 大模型的对话式产 品。根据官网介绍,文心大模型包含 NLP 大模型、CV 大模型、跨模态大模型、生 物计算大模型、行业大模型等,分别可用于语言、图像、跨模态、生物、细分行 业等。2023 年 3 月 16 日,百度正式官宣全新的生成式 AI 对话应用——文心一 言,是文心 NLP 模型应用下的产品。其能够与人对话互动,回答问题,协助创作。

  百度 NLP 核心是 ERNIE 模型。文心 NLP 大模型面向语言理解、语言生成等 NLP 场景。百度文心 NLP 大模型打造了 ERNIE 模型系列,ERNIE 问世于 2019 年,目前 发展至 3.0 版本。其中语言理解和生成包含 ERNIE 3.0 Tiny、ERNIE 3.0 、鹏城 -百度.文心、ERNIE 3.0 Zeus,另外文心 NLP 大模型包含医疗、金融等细分领域 ERNIE 模型。 ERNIE 3.0 Tiny(轻量级):可用于通用语言理解。 ERNIE 3.0(百亿级):可用于智能创作、摘要生成、问答、语义检索、情感 分析、信息抽取、文本匹配、文本纠错等各类自然语言理解和生成任务。 鹏城-百度·文心(千亿级):模型参数规模达到 2600 亿(GPT-3 1750 亿), 可用于舆情分析、智能创作、文本解析等。

  文心大模型在国内市场格局中较为领先。根据 IDC 发布《2022 中国大模型发展白 皮书》,百度文心大模型在市场格局中在产品能力、生态能力、应用能力等方面 在国内较为领先。 文心一言核心优势是对中文的理解。百度作为中国语境的搜索龙头,拥有有更多 的中文语料数据参与训练。比如,文心一言可以针对“洛阳纸贵”这种容易产生 歧义的成语,给出较为贴切的解释。可以用成语写出藏头诗,用四川话读出文章。

  百度已经推出对话式产品文心一言。文心一言可通过对话模式,帮助用户文学创 作开云真人平台、商业文案创作、数理推算、中文理解、多模态生成等。例如文心一言发布会 上案例,文心一言可以生成 2023 世界智能交通大会海报,解答“智能交通最适合

  模型toB应用:开放 API 接口赋能企业,精调行业模型 目前,百度开放大模型 API 接口,在文案、AI作画、开放域对话方面赋能开发者 和企业。百度文心大模型开放了 NLP 大模型 ERNIE3.0、ERNIE-ViLG 文生图、对话 大模型 PLATO。 ERNIE 3.0 提供文案改写、开放问答、摘要、文案创作、小说创作、文本补 全等文本理解与创作能力。 ERNIE-ViLG 提供基于文本描述的 AI 作画能力。 PLATO提供生成式开放域对话服务,逻辑清晰、知识多元、情感丰富,闲聊 能力接近真人水平。 当前已经有 650家企业宣布接入文心一言生态,还有更多的企业在排队。据百度 介绍,申请文心一言 API调用服务测试的企业已突破 6.5 万。

  对于具体行业来说,百度也推出文心.行业大模型,进行行业精调。行业大模型 是在百度通用大模型的基础上学习行业特色数据与知识,建设行业 AI 基础设施。

  百度文心行业大模型以“行业知识增强”为核心特色。目前百度文心行业大模型 在能源、金融、航天、制造、传媒、城市、社科以及影视等领域,与国网、浦发、 吉利、TCL、人民网、上海辞书出版社等均有案例应用。我们以五个行业场景举例: 在燃气行业,“深燃-百度·文心”在环境巡检、安全监控等领域落地,有效 解决了场景繁杂、识别困难等难题; 在汽车行业,“吉利-百度·文心”应用于售后服务和汽⻋领域知识库构建等 场景; 在保险行业,“泰康-百度·文心”应用于医疗单据识别等任务,平均字段识 别错误率相对下降;在电子制造行业,“TCL-百度·文心”改变了传统质检算法流程,大幅提升 了模型研发与运营效率,实现降本增效;在社科行业,“辞海-百度·文心”用于版权保护、词条管理和知识挖掘等方 面。

  通义大模型最早发布于 2022 年 9 月 2 日,在阿里达摩院主办的世界人工智能大会 “大规模预训练模型”主题论坛上。通义大模型实际上是由一系列模型组成,包 括统一底座“M6-OFA”,三大通用模型“通义-M6”“通义-AliceMind”“通义- 视觉大模型”,以及行业层面的不同垂直领域专业模型。通义系列前身为 M6,是阿里达摩院研发的通用性多模态大模型,特点是训练能耗 显著降低。M6 自 2020 年初正式启动研发,于 2021 年 1 月/3 月/5 月分别发布百 亿/千亿/万亿参数多模态预训练模型。2021 年 10 月发布十万亿参数模型,并且 支持使用 512 GPU 在 10 天内即训练出具有可用水平的 10 万亿模型,同等参数下 相较于 GPT-3 能耗降低 99%。

  M6 融合语言模型和视觉模型,形成当前的通义系列大模型。2022 年 1 月,阿里 M6 发布了统一大模型 M6-OFA,可以实现不同模型之间的模态表示、任务表示、模 型结构的统一。以 M6-OFA 为统一底座,阿里巴巴将另外两大模型“AliceMind” “视觉大模型”与 M6 进行融合,形成了当前的通义系列架构。其中,通义 -AliceMind 为深度语言模型体系,包含了通用语言模型 StructBERT、生成式 PALM、结构化 StructuralLM、超大中文 PLUG 、多模态 StructVBERT、多语言 VEC 等多个不同模型,具有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种 能力;通义-视觉大模型包括文本到视觉生成、语言和视觉的模态映射两大基础模 型,可以提供文生图等能力。

  硬件终端方面:天猫精灵基于通义大模型推出拟声助手“鸟鸟分鸟”。4 月 4 日, 脱口秀演员鸟鸟在微博发布了一条关于天猫精灵的演示视频。根据公司和鸟鸟的 介绍,“鸟鸟分鸟”是天猫精灵联合阿里达摩院,基于通义大模型,对鸟鸟录制 的一个多小时音频进行学习训练而成。从形态上看,“鸟鸟分鸟”本身是一个对 话机器人,具备多轮对话能力,并且还能利用搜索引擎等工具。个性化是“鸟鸟 分鸟”最大特点,具备拟人化的音色、语气、表达方式。我们推测,这意味着通 用大模型将有可能在表达方式层面实现较低成本的定制化。

  对话式通义千问已经开始内测,包含 9 款“百宝袋”小应用。4 月 7 日,阿里云 宣布大模型“通义千问”上线,并定向邀请企业用户进行测试。测试版的通义千 问与 ChatGPT 和文心一言在界面上相似,都是采用问答对话的形式。此外,通义 千问在对线 款称为“百宝袋”的小应用,可以分为三类:1) 效率类:写提纲、SWOT 分析、商品描述生成;2)生活类:会放飞的菜谱、小学 生作文、然后呢;3)娱乐类:彩虹屁专家、写情书、为你写诗。我们认为,未来 阿里大模型有望添加至阿里系电商和钉钉等场景中,带动用户体验和效率的提升。

  “混元”AI 大模型由 TEG 数据平台部和机器学习平台部联合主导,涵盖计算机视 觉、自然语言处理、多模态内容理解、文案生成、文生视频等方向。“混元”AI 大模型由腾讯 17 级研究员/杰出科学家(腾讯史上最高专业职级)张正友博士带 队,2022 年 4 月公司首次披露研发进展,目前已更新至 2.0 版本。 性能上看,“混元”大模型在文字、视频等多个领域表现优异。其中 HunYuan-tvr 模型 在文字 和视频在全球 最具权威的 MSR-VTT,MSVD,LSMDC,DiDeMo 和 ActivityNet 五大跨模态视频检索数据集榜单排名第一,实现该领域的大满贯; HunYuan-NLP 1T 模型在 CLUE(中文语言理解评测集合)总榜、分类榜和阅读理解 榜排名第一。

  技术上看,“混元”大模型基于腾讯太极机器学习平台研发,通过改进模型与算 法,大幅降低训练成本。HunYuan 利用千亿小模型帮助万亿大模型完成启动,相 较从 0 启动耗时短耗能低,仅用 256 卡,最快一天内即可完成万亿参数大模型 HunYuan-NLP 1T 的训练,整体训练成本仅为直接冷启动训练万亿模型的 1/8。

  腾讯广告业务:腾讯在广告业务中应用 AI 模型开云真人平台,助力广告主提升广告创作效率、 提升广告推荐系统的内容理解能力,大幅提升了广告效率,实现降本增效。在混 元 AI 大模型基础上建立“巨阙”广告内容理解、“乾坤”广告智能创作、“神针” 广告智能审核、“天印”广告指纹系统等四大技术平台,提升了广告系统的理解 能力,让系统更加智能,从而提高用户体验以及广告转化效果与广告制作效率。

  内容创作:腾讯智能创作助手文涌(Effidit)主要用途是帮助创作者开阔思路、 提升创作后的文本水平和质量等,目前已经发布 2.0 版本。据官方介绍,文涌融 合了知识抽取、文本理解、文本生成、大规模预训练模型、经典语言模型、搜索 等技术,部分功能的实现使用“混元”系列 AI 大模型作为底层预训练模型。

  游戏业务:腾讯近日提出基于 AI Bot 与 AIGC 两大方向的自研 3D 虚拟场景自动 生成解决方案,帮助游戏开发者以更低成本创造风格多样、贴近现实的虚拟城市, 大幅提升 3D 虚拟场景的生产效率。以 3D 虚拟城市道路布局设计为例,现有技术 生成的路网通常横平竖直、风格单一,要实现不同城市风格必须手动设计和反复修改,耗时至少一周。腾讯解决方案只需用户输入城市主干道和海岸线 分钟内即可填充合理、多样的路网细节并支持微调操作,相比现有技术下效率提 升近 100 倍。

  对话式智能助手:腾讯集合集团内资源与顶尖人才,正在全力打造类 ChatGPT 对 线 氪旗下媒体消息,腾讯类 ChatGPT 对话式产品项目组——腾讯混 元助手项目组(HunyuanAide)于 2023 年 2 月已经成立。该项目组联合腾讯内部 多部门构建大参数语言模型,目标是通过性能稳定的强化学习算法训练,完善腾 讯智能助手工具,打造腾讯智能助手,并能成为国内的业界标杆,我们预计未来 AI 只能助手将广泛应用于腾讯系社交产品和办公产品等。

  “盘古”大模型由计算机视觉(CV)大模型、科学计算大模型、自然语言处理(NLP) 大模型、多模态大模型组成,该模型由华为云人工智能领域首席科学家田奇带领 的华为云 EI 盘古团队主导设计。“盘古”项目自 2020 年 11 月起立项,2021 年 4 月在华为开发者大会上首次正式发布,2023 年 4 月 8 日,团队介绍了盘古模型的 应用进展,包括模型在物流、药物研发、气象预测等领域的落地。 盘古模型基于华为一站式 AI 开发平台 ModelArts 进行研发。ModelArts 是华为开 发的 AI 生产线,具备持续构建大模型训练及推理加速能力、分布式训练能力等, 并提供数据处理、算法开发、模型训练、模型管理、模型部署等 AI 应用开发全流 程技术能力。

  模型性能优异,NLP 大模型是首个千亿参数级中文大模型,2021 年位列 CLUE 榜 单三项第一。2021 年 4 月华为云盘古 NLP 大模型发布,这是当时业界首个 2000 亿参数的中文预训练模型。在 2021 年,盘古 NLP 模型在中文语言理解评测基准 CLUE 榜单中总排行榜及分类、阅读理解单项均排名第一,刷新了三项榜单世界历 史纪录。 盘古 CV 大模型是业界最大的 CV 预训练模型。盘古 CV 大模型包含了 30 多亿参数 和 10 亿级别的图像,已经在 100 多个场景中得到了验证。在 Image Net 1%、10% 数据集上的小样本分类精度上均达到业界最高水平。

  NLP 大模型、CV 大模型等都是华为 L0 级别的基础大模型,往上则是 L1 级别的行 业大模型和 L2 级别的细分场景模型。 具体而言,盘古 CV 大模型目前覆盖了工业质检、物流仓库监控、时尚辅助设计等 行业和领域;盘古 NLP 大模型覆盖了智能文档检索、智能 ERP 和小语种大模型; 盘古科学计算大模型则应用于气象预报、海浪预测等方面。

  物流仓库监控:在物流场景,华为盘古团队为浦发银行构建了“物的银行”—— 普慧云仓。相比于传统的数字银行,它能够更彻底的做到业务流程的线上化,进 一步提升效率。华为数据显示,在人员行为、货物检测方面,“物的银行”可以 实现 5%到 10%的性能提升。 新药研发:传统模式下,新药研发有周期长、投入大、成功率高的难题,盘古药 物分子大模型是专门面向药物研发领域推出的模型,可以帮助医药公司进行 AI 辅助研发,使得先导药研发周期从数年缩短到 1 个月,极大改善了新药研发过程 的效率。

  气象预测:盘古气象大模型的研究团队通过 3D Earth-Specific Transformer 的 方式处理复杂的不均匀 3D 气象数据,提高 AI 大模型的预测精度。盘古气象大模 型能够提供秒级的全球气象预报,其气象预测结果包括位势、湿度、风速等,其 精度首次超过了欧洲气象中心的数字分析的方法,并且预测速度提升了 1 万倍以 上。

  字节跳动 AIGC 大模型将从语言和图像两种模态发力。根据 36 氪消息,字节跳动在大模型上已有所布局,分别在语言和图像两种模态上发力,预期是在今年年中 推出大模型。 字节跳动 AIGC 大模型尚在初期探索阶段,有一定 AI 基础。根据 36 氪,在 ChatGPT 公开前,字节跳动对大模型的投入存疑。但字节跳动在工程团队和云服务团队方 面并无短板。 1)算力:字节并不缺 GPU。字节旗下的企业技术服务平台火山引擎,在 2021 年 正式进军基础云市场(IaaS 层),为大模型所需的算力奠定了基础。4 月 18 日, 火山引擎发布自研 DPU 等系列云产品,并推出新版机器学习平台:支持万卡级大 模型训练、微秒级延迟网络,弹性计算可节省 70%算力成本。同时,火山引擎宣 布与字节跳动国内业务并池,抖音等业务的空闲计算资源可极速调度给火山引擎 客户使用。

  2)算法:阿里巴巴 M6 大模型的原带头人杨红霞现已加入字节 AI Lab(人工智 能实验室),参与语言生成大模型的研发。 模型应用:可用于图文、视频内容生成等,飞书将推出智能 AI 助手“My AI” 抖音、今日头条基于 AIGC 生成图文内容。在 AIGC 的加持下,用户上传照片后, 短时间内系统即可自动生成不同风格的图片。例如,抖音上线该“漫画脸”特效 后,吸引了大量用户,据抖音平台数据显示,截至 2022 年 12 月 6 日,该特效已 经超 2428 万人使用,并迅速飙升至特效潮流榜 TOP1。

  剪映提供 AI 生成视频功能。剪映的创作者可以通过几个关键词或一小段文字,生 成一段创意小视频。除此以外,剪映可以根据文字描述智能匹配视频素材,将视 频包装为更垂直的内容作品,包括财经、历史、人文等类别。飞书将推出智能 AI 助手“My AI”。4 月 11 日字节跳动飞书宣布将推出智能 AI 助手“My AI”,My AI 将包括自动汇总会议纪要、创建报告、优化和续写文字内 容,在飞书 app 中,My AI 也可以通过对话形式,帮助用户自动创建日程、搜索 公司内部知识库等功能。


400-823-3268