百度的大规模预训练模型如ERNIE-ViLG等具备多模态理 冰岛手机号码数据 解和生成能力,服务于搜索、广告、地图等多种场景。 六、大模型训练数据付费:数据价值提上新高度 年年末,OpenAI与AxelSpringer签订的一个协议表明,人工将需要向媒体品牌付费,这意味着AI大模型向数据提供方的知识产权付费或将成为行业趋势。 年,国内多地出台促进 AI 技术发展的政策文件,如北京市促进通用人工智能创新发展的若干措施和深圳市加快推动人工智能高质量发展水平应用行动方案,其中均提到“ 高质量数据集”。 此外,国家网信办等七部门联合发布的生成式人工智能服务暂行管理办法规定了生成式 AI 服务提供者不得侵害他人知识产权。
可见,当前 AI 政策密集出台,高质量数据集和训练数据版权问题得到重视,未来优质训练数据库的价值将得到凸显。 目前在大模型训练过程中,特别是在深度学习领域中,针对大规模数据的管理和访问效率,一些向量数据库以及分布式存储系统表现较为突出,例如腾讯云推出的向量数据库服务和阿里云分布式NoSQL数据库等等。 此外,数据问题不单纯是数据库的问题,在年一些关于数据的隐私保护和确权问题也更将浮上水面:比如AI大模型厂商到底可以使用怎样的数据进行训练,专有数据集的来源在哪里,以及如何通过标注等获得更好的数据集,甚至基于AI大模型产出的产品,版权到底属于谁?