1. Google 和 OpenAI 利用他们的机器人(GoogleBot 和 GPTBot)从互联网上收集数据,但最近的版权法对他们的数据抓取工作提出了障碍。
2. AI 模型需要人类生成的内容来提高,但公司应该支付还是从互联网获取这些内容是一个问题。
3. OpenAI 已经开始使用由 ChatGPT 创建的数据集来训练 GPT-4,但仅依赖这些数据可能导致模型崩溃。
8月11日 消息:Google 和 OpenAI 正面临着版权法在其 AI 训练数据收集方面的限制。随着 ChatGPT 和 Google 的 Bard 等生成式 AI 系统的普及,对更多数据的需求不断增长。
这些AI系统需要大量的文本、图像和视频进行训练。OpenAI 强调 GPT-4是通过经过批准和公开可用的数据源进行学习的。然而,由于对互联网抓取数据的担忧,OpenAI 和 Google 在数据获取方面面临公众的反对。