东谈主工智能考验数据耗尽了何如办?开云kaiyun官方网站
近日,马斯克在搪塞平台 X 上的一场直播对话中暗示,东谈主工智能考验数据依然耗尽:
"咱们基本上依然用尽了东谈主类常识的蓄积总数来进行 AI 考验,这种情况约莫在客岁就依然发生了。"
马斯克的不雅点与前 OpenAI 首席科学家 Ilya Sutskever 殊途同归。客岁 12 月,Sutskever 在机器学习会议 NeurIPS 上暗示,AI 行业依然达到了他所谓的"数据峰值",考验数据的短少将迫使 AI 模子的成就面孔发生转变。
不外,濒临数据耗尽的逆境,马斯克建议了一个可能的料理决策:
"唯独的补充花样是使用合成数据,即由 AI 模子我方生成的数据。通过合成数据,AI 将对自身进行评分,并资格一个自学习的经过。"
事实上,包括微软、Meta、OpenAI、Anthropic 等在内的科技巨头依然初始使用合成数据来考验 AI 模子了。据信息本事商榷和参谋人公司 Gartner 料到,2024 年用于 AI 考验和分析名标的数据中,有 60% 是合成的。
微软最近开源的 Phi-4 模子即是使用合成数据和实在寰宇数据共同考验的。谷歌的 Gemma 模子、Anthropic 的 Claude 3.5 Sonnet 系统以及 Meta 最新的 Llama 系列模子也齐继承了肖似的花样。
分析师暗示,使用合成数据进行考验还概况温和老本。AI 初创公司 Writer 宣称,其真的透顶使用合成数据源成就的 Palmyra X 004 模子仅破费了 70 万好意思元,而比拟之下,OpenAI 同等鸿沟模子的成就老本料到为 460 万好意思元。
不外需要介怀的是,使用合成数据也存在一些潜在风险。一些商榷标明,合成数据可能导致模子崩溃,即模子的输出变得不够"立异"开云kaiyun官方网站,反而愈加偏颇,最终严重影响模子的功能。由于合成数据是由模子生成的,若是用于考验这些模子的数据自己存在偏见和局限性,那么它们的输出也会受到相同的影响。