分享还是不分享:关于人工智能训练数据共享的争论和新方法
人工智能(AI)继续以极快的速度发展, 以及它对大量训练数据的依赖, 特别是在大型语言模型(LLMs)和生成式人工智能领域, 继续引起传媒业对专有知识产权(IP)使用的严重关切。. 换句话说, 人们越来越担心,人工智能公司正在借助第三方抓取的数据,建立数十亿美元的估值,并占领现有市场, 通常不补偿原始内容所有者.
一方面, 有一系列备受瞩目的诉讼将塑造该行业和创作者经济中被认为是最佳实践的模式. 例如, 纽约时报, 越来越多的新闻出版商 和 著名的作家 起诉OpenAI和微软涉嫌使用他们的版权内容来训练人工智能模型, 包括ChatGPT和Copilot. 这些诉讼认为,人工智能模型会逐字存储和复制文章的大部分内容, 从而侵犯了他们的版权. 在声明中, 《欧洲杯在线投注赔率》指出, “这起诉讼将是人工智能在版权法领域面临的第一次重大考验.杰出的法律专家 同意.
然而,这些最佳实践也可能需要数年时间才能被更广泛的行业定义和采用. 与此同时, 采用人工智能解决方案的公司, 例如,用于流媒体服务上的内容发现或促进后期制作工作流程, 是否已经释放出显著的生产力提高和成本降低. 在过去的三年里,我们开发了 Imaginario人工智能 平台和API,解决商业和法律的复杂性. 在这里, 我分享了利用我们的人工智能技术获得运营收益的客户的观点和见解, 除了我们对行业未来方向的共同担忧之外.
分享数据的主要风险是什么?
让我们从最基本的开始:内容所有者面临的风险是什么? 以下是负面影响的非详尽清单:
- 潜在的市场损失: 人工智能生成的和逐字逐句的内容有可能取代原创作品, 导致原创者的收入损失. 例如, 如果人工智能可以生成摘要, 新闻文章, 基于现有作品的剧本或b-roll片段, 这可能会减少对原创内容的需求,因为点击率会降低,因此收入也会降低.
- 准确性、偏见和幻觉: 人工智能模型有时会产生不准确或有偏见的内容, 哪些可能会被错误地归咎于原始出版商.
- AI作为署名作者,生成内容作为源材料; 在某些司法管辖区,人工智能可能被认为是未来的唯一创造者. 如果原创内容创作者不参与创作过程, 他们也不会得到承认, 工作机会, 和版税.
启用人工智能的主要优势是什么?
尽管存在风险, 人工智能在媒体工作流程中的应用已经被证明可以增加相当大的价值, 整个媒体供应链的成本节约和收入机会. 根据各种报告,实施“超级思维”技术(这是麻省理工学院创造的一个术语,指的是人工智能和人类智能的结合) 在许多行业的范围从20%到接近70%.
例如, 人工智能正在显著改变流媒体体验, 增强个性化内容发现并为观众提供上下文广告. 人工智能也在优化视频问答, 监控, 后期制作工作流程(包括搜索), b卷生成和再利用), 以及本地化服务.
等待太久,当你的竞争对手优化他们的工作流程时,你将错过人工智能的列车. 操之过急,你可能会因为有限的上行空间而放弃太多数据.
训练数据的类型
熟悉有助于训练模型理解的数据类型是很重要的, 分类信息, 生成内容和/或个性化体验. 以下是一些与媒体行业相关的例子:
- 视听资产
- 照片
- 录音
- 脚本和故事板
- 转录,字幕和封闭字幕
- 文章,意见片段,评论,如何指导,和其他文本数据
- 资产层面的元数据
- 视频标签和元数据
- 用户参与/人工输入和输出数据(提示、点击和响应)
- 用户人口统计和行为信息
- 用户参与
- 回放
- 内容推荐和搜索
培训及合理使用/公平交易的主要申索
现在我们已经熟悉了高水平的风险, 人工智能模型使用的机会和数据类型, 现在是时候分析一下现有人工智能公司的主要论点了: 合理使用 (美国)和 公平交易 (UK). 免责声明:我不是律师,以下不是法律建议.
针对人工智能训练的主要索赔涉及未经授权复制受版权保护的材料和衍生作品的生成, 包括逐字. OpenAI, 例如, 辩称他们对抓取数据的使用属于“合理使用”,一种法律原则,允许有限度地使用受版权保护的材料,而无需获得版权所有者的许可 在某些条件下.
美国的合理使用和英国的公平交易, 尽管不同的, 为防御提供类似的框架, 主要考虑:
- 使用特点: 被指控侵权的作品是否具有变革性或仅仅是对原作品的复制.
- 原创作品性质: 具有高度创造性且表达意义重大的作品更难被认定为合理使用.
- 数量和实质: 原始作品被使用的程度——无论是一小部分还是整个作品.
- 对商业市场的影响: 衍生作品是否取代原作品或影响其市场潜力. 据专家介绍,这是最重要的因素.
合理使用允许批评、评论、新闻报道、教学、奖学金或研究. 与此形成鲜明对比的是, 英国的公平交易包括非商业研究, 私人研究, 批评与检讨, 新闻报道, 报价, 以及教育用途.
这意味着,即使现有的人工智能公司可能无法存储和使用完整的新闻广播, 电影, 书, 更多的是用来训练他们的模型, 他们可以使用更小的部分,辩称这是没有实质性的工作. 除了, 摘要, 来自模型的分析和输出数据可能构成高度创造性和变革性的作品,而不是复制原始作品的表达. 这在美国和英国的法院仍有待讨论.
行业方法和新举措
为了应对这些挑战, 行业中出现了采用人工智能技术的新举措. At Imaginario人工智能, 我们正在实施这些举措,因为我们相信它们在保护版权所有者和开发真正有用的产品之间提供了最佳平衡.
- 与值得信赖的合作伙伴一起拥抱人工智能,谨慎行事; 像Getty Images这样的公司现在正在与英伟达(Nvidia)这样的人工智能公司合作,在可控参数下采用生成式人工智能. Getty承诺为商业用途提供全额赔偿,并与将图像用于训练数据集的贡献者分享收入.
- 可解释性和数据透明度确保用于训练人工智能模型的数据的透明度变得至关重要. 这包括详细说明数据的来源(来源)。, 它是如何清洗的, 带注释的, 形状的, 和更新, 以及训练过程中包含的主要数据集.
- 授权数据正在探索许可协议,以确保原创内容创作者在其数据用于人工智能培训时获得补偿. 例如, OpenAI已经与内容提供商签订了数百万美元的许可协议,将他们的数据用于培训目的,包括 美联社, Reddit, 新闻集团, 阿克塞尔斯普林格公司.
- 护栏和控制措施人工智能公司正在引入护栏,以防止有害或误导性内容的产生. 例如, 盖蒂图片社已经采取措施阻止产生具有政治危害性的深度造假, 确保人工智能生成的内容不会在未经许可的情况下产生可识别的人物或品牌.
- 选择退出一般模型和微调:一些公司更愿意选择不训练通用模型,而是决定在安全的云生态系统中使用专有数据训练自己的人工智能模型(例如.g. AWS、GCP、Azure)或本地服务器. 这种方法最大限度地降低了知识产权侵权的风险, 确保符合法律标准,并根据客户的用例提供更好的结果.
结论
关于在人工智能训练中使用第三方知识产权的争论远未解决. 随着人工智能技术的不断进步, 尤其是OpenAI和微软这样的老牌公司, 创新和保护知识产权之间的紧张关系可能会在未来几个月和几年加剧. 然而, 通过采取注重数据透明度的新举措, 选择, 合同方法, 和许可, 行业可以朝着平衡AI开发者和内容创作者利益的更公平的解决方案迈进.
上下文搜索. Imaginario人工智能可以跨视觉发现特定场景, 重新利用社交媒体的语音和声音, 日常与合规. (点击图片查看完整尺寸)
社交媒体剪辑. 调整大小,添加字幕,并为TikTOk、Instagram Reels和YouTube Shorts标记你的视频. (点击图片查看完整尺寸)
Chapterization. Imaginario人工智能将你所有的长篇视频分解成包含标题和简短总结的章节. (点击图片查看完整尺寸)
[编者注:这是来自 Imaginario. 流媒体接受供应商署名完全基于它们对我们读者的价值.]
相关文章
免费的风景, 广告支持流媒体电视(FAST)频道在过去12个月里发生了重大变化. 曾经由小众内容提供商主导, 该市场见证了大型工作室和广播公司的活动激增. 优质节目的涌入使竞争达到了一个新的水平, 迫使FAST频道调整和优化他们的产品以维持运营.
2024年7月11日
维克多雅科夫列夫, 副主任, 产品营销, PubMatic, 讨论了目前数字营销领域有两个正在崛起的超级大国, 他们没有竞争. 他们正在融合,他概述了为什么这对营销人员来说是一个极好的消息.
2024年5月31日
虚拟产品植入(VPP)是一种优秀的新型CTV和流媒体广告植入. Stephan贝灵哲酒庄, miriad的首席执行官, 讨论了广告商应该遵循的最佳实践,以使其发挥良好的作用.
2024年2月28日
Alliant的Mitch Eisenberg讨论了一项35年前的立法——《欧洲杯在哪投注app最新版下载》(VPPA)——是如何在CTV和视频广告领域引发诉讼和混乱的, 他还概述了一些安全实用的策略,营销人员可以采取这些策略来驾驭VPPA,并接触到对他们最重要的受众.
2024年1月3日
提及的公司及供应商