涉17万个视频，英伟达等巨头被曝违规使用YouTube数据训练模型具体是什么情况呢

2024-07-17 14:20:12

导读【涉17万个视频，英伟达等巨头被曝违规使用YouTube数据训练模型】!!!今天受到全网的关注度非常高，那么具体的是什么情况呢，下面大家可以一...

【涉17万个视频，英伟达等巨头被曝违规使用YouTube数据训练模型】!!!今天受到全网的关注度非常高，那么具体的是什么情况呢，下面大家可以一起来看看具体都是怎么回事吧！

1、科技巨头被曝使用未经授权的YouTube内容训练AI（人工智能）模型。

2、当地时间7月16日，据外媒报道，包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司，被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。

3、这些公司使用了一个由第三方提供的数据集，其中包含从YouTube上抓取的大量视频字幕文本，违反了YouTube禁止从平台上未经许可抓取内容的规定。

4、报道指出，这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles（YouTube字幕）”的数据集，大小为5.7GB，包含4.89亿个单词，来自Youtube上超过4.8万个频道中的17.35万个视频。

5、该数据集由视频字幕的纯文本组成，包括视频博主上传的部分和Youtube自动转录的文本，除了英语外，通常还附带日语、德语和阿拉伯语等语言的翻译。

6、（澎湃新闻）。

以上就是关于【涉17万个视频，英伟达等巨头被曝违规使用YouTube数据训练模型】的相关消息了，希望对大家有所帮助！

标签：

涉17万个视频，英伟达等巨头被曝违规使用YouTube数据训练模型 具体是什么情况呢