2024年7月26日
By 何塞Puga 首席执行官Imaginario
博客

分享还是不分享:关于人工智能训练数据共享的争论和新方法

人工智能(AI)继续以极快的速度发展, 以及它对大量训练数据的依赖, 特别是在大型语言模型(LLMs)和生成式人工智能领域, 继续引起传媒业对专有知识产权(IP)使用的严重关切。. 换句话说, 人们越来越担心，人工智能公司正在借助第三方抓取的数据，建立数十亿美元的估值，并占领现有市场, 通常不补偿原始内容所有者.

一方面, 有一系列备受瞩目的诉讼将塑造该行业和创作者经济中被认为是最佳实践的模式. 例如，纽约时报, 越来越多的新闻出版商和著名的作家起诉OpenAI和微软涉嫌使用他们的版权内容来训练人工智能模型, 包括ChatGPT和Copilot. 这些诉讼认为，人工智能模型会逐字存储和复制文章的大部分内容, 从而侵犯了他们的版权. 在声明中, 《欧洲杯在线投注赔率》指出, “这起诉讼将是人工智能在版权法领域面临的第一次重大考验.杰出的法律专家同意.

然而，这些最佳实践也可能需要数年时间才能被更广泛的行业定义和采用. 与此同时, 采用人工智能解决方案的公司, 例如，用于流媒体服务上的内容发现或促进后期制作工作流程, 是否已经释放出显著的生产力提高和成本降低. 在过去的三年里，我们开发了 Imaginario人工智能平台和API，解决商业和法律的复杂性. 在这里, 我分享了利用我们的人工智能技术获得运营收益的客户的观点和见解, 除了我们对行业未来方向的共同担忧之外.

分享数据的主要风险是什么?

让我们从最基本的开始:内容所有者面临的风险是什么? 以下是负面影响的非详尽清单:

潜在的市场损失: 人工智能生成的和逐字逐句的内容有可能取代原创作品, 导致原创者的收入损失. 例如, 如果人工智能可以生成摘要, 新闻文章, 基于现有作品的剧本或b-roll片段, 这可能会减少对原创内容的需求，因为点击率会降低，因此收入也会降低.
准确性、偏见和幻觉: 人工智能模型有时会产生不准确或有偏见的内容, 哪些可能会被错误地归咎于原始出版商.
AI作为署名作者，生成内容作为源材料; 在某些司法管辖区，人工智能可能被认为是未来的唯一创造者. 如果原创内容创作者不参与创作过程, 他们也不会得到承认, 工作机会, 和版税.

启用人工智能的主要优势是什么?

尽管存在风险, 人工智能在媒体工作流程中的应用已经被证明可以增加相当大的价值, 整个媒体供应链的成本节约和收入机会. 根据各种报告，实施“超级思维”技术(这是麻省理工学院创造的一个术语，指的是人工智能和人类智能的结合) 在许多行业的范围从20%到接近70%.

例如, 人工智能正在显著改变流媒体体验, 增强个性化内容发现并为观众提供上下文广告. 人工智能也在优化视频问答, 监控, 后期制作工作流程(包括搜索), b卷生成和再利用), 以及本地化服务.

等待太久，当你的竞争对手优化他们的工作流程时，你将错过人工智能的列车. 操之过急，你可能会因为有限的上行空间而放弃太多数据.

训练数据的类型

熟悉有助于训练模型理解的数据类型是很重要的, 分类信息, 生成内容和/或个性化体验. 以下是一些与媒体行业相关的例子:

视听资产
照片
录音
脚本和故事板
转录，字幕和封闭字幕
文章，意见片段，评论，如何指导，和其他文本数据
资产层面的元数据
视频标签和元数据
用户参与/人工输入和输出数据(提示、点击和响应)
用户人口统计和行为信息
用户参与
回放
内容推荐和搜索

培训及合理使用/公平交易的主要申索

现在我们已经熟悉了高水平的风险, 人工智能模型使用的机会和数据类型, 现在是时候分析一下现有人工智能公司的主要论点了: 合理使用 (美国)和公平交易 (UK). 免责声明:我不是律师，以下不是法律建议.

美国的合理使用和英国的公平交易, 尽管不同的, 为防御提供类似的框架, 主要考虑:

使用特点: 被指控侵权的作品是否具有变革性或仅仅是对原作品的复制.
原创作品性质: 具有高度创造性且表达意义重大的作品更难被认定为合理使用.
数量和实质: 原始作品被使用的程度——无论是一小部分还是整个作品.
对商业市场的影响: 衍生作品是否取代原作品或影响其市场潜力. 据专家介绍，这是最重要的因素.

合理使用允许批评、评论、新闻报道、教学、奖学金或研究. 与此形成鲜明对比的是, 英国的公平交易包括非商业研究, 私人研究, 批评与检讨, 新闻报道, 报价, 以及教育用途.

这意味着，即使现有的人工智能公司可能无法存储和使用完整的新闻广播, 电影, 书, 更多的是用来训练他们的模型, 他们可以使用更小的部分，辩称这是没有实质性的工作. 除了, 摘要, 来自模型的分析和输出数据可能构成高度创造性和变革性的作品，而不是复制原始作品的表达. 这在美国和英国的法院仍有待讨论.

行业方法和新举措

与值得信赖的合作伙伴一起拥抱人工智能，谨慎行事; 像Getty Images这样的公司现在正在与英伟达(Nvidia)这样的人工智能公司合作，在可控参数下采用生成式人工智能. Getty承诺为商业用途提供全额赔偿，并与将图像用于训练数据集的贡献者分享收入.
可解释性和数据透明度确保用于训练人工智能模型的数据的透明度变得至关重要. 这包括详细说明数据的来源(来源)。, 它是如何清洗的, 带注释的, 形状的, 和更新, 以及训练过程中包含的主要数据集.
授权数据正在探索许可协议，以确保原创内容创作者在其数据用于人工智能培训时获得补偿. 例如, OpenAI已经与内容提供商签订了数百万美元的许可协议，将他们的数据用于培训目的，包括美联社, Reddit, 新闻集团, 阿克塞尔斯普林格公司.
护栏和控制措施人工智能公司正在引入护栏，以防止有害或误导性内容的产生. 例如, 盖蒂图片社已经采取措施阻止产生具有政治危害性的深度造假, 确保人工智能生成的内容不会在未经许可的情况下产生可识别的人物或品牌.
选择退出一般模型和微调:一些公司更愿意选择不训练通用模型，而是决定在安全的云生态系统中使用专有数据训练自己的人工智能模型(例如.g. AWS、GCP、Azure)或本地服务器. 这种方法最大限度地降低了知识产权侵权的风险, 确保符合法律标准，并根据客户的用例提供更好的结果.

结论

关于在人工智能训练中使用第三方知识产权的争论远未解决. 随着人工智能技术的不断进步, 尤其是OpenAI和微软这样的老牌公司, 创新和保护知识产权之间的紧张关系可能会在未来几个月和几年加剧. 然而, 通过采取注重数据透明度的新举措, 选择, 合同方法, 和许可, 行业可以朝着平衡AI开发者和内容创作者利益的更公平的解决方案迈进.