看好中国发展，亚马逊生成式AI加速行业落地_新浪财经

转自：北京日报客户端

基础模型搭建完成后，行业对生成式AI的建设关键来到数据层面。

“我们在中国致力于本地数据中心的建造和服务的拓展，并对中国的长期发展抱有充分的信心。”日前，在亚马逊云科技数据技术媒体沟通会上，亚马逊云科技大中华区产品部总经理陈晓建接受记者采访时表示，将联手众多合作伙伴，共同帮助中国客户在海外发展和中国本地发展，利用生成式AI 技术助力企业创新成为重要方向。

在采访中，陈晓建抛出一个独特的行业观点：数据是企业在生成式 AI 时代取得成功的关键。“企业需要的是懂业务、懂用户的生成式AI应用，而打造这样的应用需要从数据做起。”陈晓建说，每个公司都能访问相同的基础模型，但那些能够利用自己的数据构建具有真正商业价值的生成式AI应用的公司，将会是成功的公司。

“生成式AI基础模型诞生于大规模、高质量数据集。如果一本书按500KB算，现在的500T参数的模型已经有332亿本，相当于现存每个人类拥有4本书。”陈晓建表示，用企业自身的数据去差异化生成式AI应用，通过数据定制基础模型的方式主要分为三大类：检索增强生成（RAG）、微调和持续预训练，这三种方式适用不同的应用场景。

具体来看，RAG、微调和持续预训练需要的数据规模、数据来源和技术要求各不相同。其中，RAG的数据来源是企业内部文档库、数据库、数据仓库、知识图谱；微调数据来源为私域知识；持续预训练数据来源为公开的数据集或企业各部门的数据。

“用户期待生成式AI给出高质量答案，但简单的对话背后蕴藏着复杂的提示工程。”在陈晓建，通过提示工程获取模型介绍，从企业数据库获取用户背景信息，从RAG获取上下文，最后才是用户的问题及问题相关的提示词。

他举例称，以知识图谱为例，它被广泛应用于制造业当中。知识图谱擅长结构化知识，并能够确保数据准确，劣势在于不能理解自然语言，只能做严格推理。基础模型和知识图谱正好相反，能理解自然语言但缺乏专业知识。两者结合可以获得更精确专业的信息以减少幻觉，也可以对不准确的回答进行溯源和纠偏。

“数据，模型，应用程序，是生成式AI的数据飞轮。”陈晓建说，希望企业在生成式AI时代打造坚实的数据基础，这样可以高效安全地将海量的多模态数据和各种基础模型结合在一起，创建出一系列具有独特价值的生成式AI应用程序并受到终端用户的欢迎，进而产生更多数据。这些新数据又会继续提升模型的准确度，创造更好的用户体验，从而实现生生不息的正向生成式AI数据飞轮，带动企业业务走向成功。