CommonCrawl里洗出来了240T数据，这给scaling law信奉者带来了福音

LLaMA3告诉大家一个悲观的现实：模型架构不用动，把数据量从2T加到15T就可以暴力出奇迹。这一方面告诉大家基座模型长期来看就是大厂的机会；另一方面，考虑到scaling law的边际效应，我们想继续看到下一代模型能够有GPT3->GPT4的提升，很可能需要再洗出少说10个数量级的数据（e.g., 150T）

给力的来了，近期DCLM [1]的团队真从CommonCrawl里洗出来了240T数据，这给scaling law信奉者带来了福音：数据是不缺的，你有卡么？其实在数据这块，暴力scale up固然重要，如何scale down（同时把单位数据质量提升上去）也很重要。模型智能由数据的压缩而来；反过来，模型将会重新定义数据的组织形式

这其中最简单的方式是用模型来过滤噪声数据。例如(1) PbP[2]用小模型的ppl来filter数据，这样造出来的数据能够显著提升大模型的效果/收敛速度；(2) DeepSeek用fastText清洗高质量数据，在Math [3]和Code [4]场景下效果拔群；(3) DCLM[1]做了更细致的ablation study，发现fastText效果是最优的（相比于BGE embedding、perplexity等）。这些工作都有类似的发现，就是清洗后的干净数据+更小的模型能够更加逼近脏数据+大模型的效果。从这个角度上来说，scaling model size本质上能够让我们看到脏数据训练出来的模型能力上限，可以理解为大模型用更冗余的参数在训练阶段自动完成了降噪过程，但如果预先做好了数据降噪，实际能够表征这些数据的模型参数量不需要很大。同样可以得出，通过数据调优把小模型打磨得很好不意味着训个大模型效果就会更好，毕竟干净数据+大模型和脏数据+大模型的效果也不会有差别

总结一点，前scaling law时代我们强调的是scale up，即努力追求数据压缩后的模型智能上限，后scaling law时代大家比拼的是scale down，即谁能训练出“性价比”更高的模型

目前主流的数据scale down手段就是基于模型的数据去噪，近期也有工作开始用训出来的模型改写预训练数据[5]。这个过程既要注意在改写过程中不能让模型hallucinate，又要高效地清除数据中自带的噪声。Phi-2 / Phi-3 [6] 的成功也验证了这一点，如果能机造pre-training级别的数据，以小博大其实是很容易的。当前的方法仍然聚焦在单条数据的质量增强上，未来一个更重要的研究方向是如何做多条数据语义级别的去重/合并，这块很难，但是对数据scale down意义重大
[1] https://arxiv.org/abs/2406.11794
[2] https://arxiv.org/abs/2405.20541
[3] https://arxiv.org/abs/2402.03300
[4] https://arxiv.org/abs/2406.11931
[5] https://arxiv.org/pdf/2406.14491
[6] https://azure.microsoft.com/en-us/products/phi-3

文章的主要意思：
数据的重要性：

LLaMA3指出，通过增加训练数据量（如从2TB增加到15TB），可以显著提升模型性能。这意味着未来的大模型可能需要数百TB的数据。
DCLM团队已经从CommonCrawl中提取了240TB的数据，证明了获取大规模数据的可行性。
数据清洗的重要性：

在扩展数据量的同时，提高数据质量也是至关重要的。
高质量的数据能让较小的模型达到类似大模型在大量“脏”数据（未清洗数据）上训练的效果。
模型智能与数据压缩：

模型智能来源于对数据的压缩。通过清洗数据，可以减少模型参数的冗余。
大模型在训练过程中自动进行了某种程度的降噪，但如果预先清洗数据，小模型也能达到相似效果。
scale down的重要性：

在后scaling law时代，焦点将转向如何通过数据清洗和优化，训练出“性价比”更高的模型。
数据去噪的方法，如使用小模型的perplexity或fastText进行数据过滤，已经证明了效果。
未来研究方向：

当前方法多关注单条数据的质量提升，未来需要研究如何在语义级别上去重和合并多条数据。
这种语义级去重对数据scale down非常重要但也非常困难。
大模型训练中需要注意的要点：
数据质量与规模：

虽然扩大数据规模可以提升模型性能，但同样重要的是确保数据的高质量。
数据清洗和优化可以显著提高训练效率和模型效果。
模型参数的冗余：

大模型在处理大量“脏”数据时可能包含大量冗余参数，这些参数在训练阶段用于降噪。
如果数据在预处理阶段已经被清洗，小模型可以达到类似效果，参数不需要太冗余。
数据去噪技术：

使用模型来过滤和优化数据，例如PbP、DeepSeek等方法，已经显示出显著的效果。
不同的数据去噪技术（如fastText、BGE embedding、perplexity等）的优劣需要通过细致的实验来确定。
预训练数据的改写：

新兴的方法开始用已经训练好的模型来改写预训练数据，这需要在避免模型hallucinate的同时，清除数据中的噪声。
这类方法如Phi-2和Phi-3已经显示出潜力。
语义级去重：

在未来，如何在语义级别上去重和合并数据将是一个重要的研究方向，尽管这非常具有挑战性。
总结：
scale up 和 scale down 是两种提升模型性能的策略，前者通过增加数据量和模型参数，后者通过提高数据质量和优化数据。
随着数据获取变得越来越容易，研究重点将逐渐转向如何有效地清洗和优化数据以提升模型性价比。
未来的研究将集中在更高级的数据去噪技术上，包括语义级别的数据去重和合并。

CommonCrawl里洗出来了240T数据，这给scaling law信奉者带来了福音

By 车车

Related Post

发表回复取消回复

分类目录

CommonCrawl里洗出来了240T数据，这给scaling law信奉者带来了福音

By 车车

Related Post

Qwen2-VL – 阿里巴巴达摩院开源的视觉多模态AI模型 | AI工具集

本地配置开源大模型实现混合智能体，MoA+ollama打造真正超越gpt4o的AI agent

扣子Coze聊天机器人已成为我们生活一部分

发表回复 取消回复

发表回复取消回复