
Criteo数据集的含义
2025-03-10 23Criteo数据集是由全球知名的广告技术公司Criteo实验室提供的一个经典数据集,广泛应用于点击率(CTR)预测和推荐系统的研究与开发。该数据集因其规模大、特征丰富,成为机器学习和深度学习领域中常用的基准数据集。
一、数据集的结构与特点
1. 数据规模
Criteo数据集包含数百万条展示广告的点击记录,具体分为训练集和测试集。训练集包含约4000万条记录,测试集包含约600万条记录。
2. 特征组成
- 标签(Label):表示广告是否被点击,1表示点击,0表示未点击。
- 数值特征(Numerical Features):共有13个数值特征(I1-I13),主要为计数特征。
- 分类特征(Categorical Features):共有26个分类特征(C1-C26),这些特征的值被哈希到32位以进行匿名化处理。
3. 数据格式
数据以制表符分隔,每一行代表一次广告展示,格式为:`<标签> <数值特征1> ... <数值特征13> <分类特征1> ... <分类特征26>`。
二、数据集的应用
1. 点击率预测(CTR Prediction)
Criteo数据集是点击率预测领域的经典数据集,被广泛用于评估和比较不同CTR预测模型的性能。
2. 推荐系统研究
该数据集也常用于推荐系统的研究,帮助研究人员和开发者构建和优化推荐算法。
3. 机器学习与深度学习模型训练
Criteo数据集被广泛用于训练和验证各种机器学习和深度学习模型,如DeepFM、Wide & Deep等。
三、数据预处理与使用
1. 数据预处理
- 缺失值处理:数值特征缺失值通常填充为0,分类特征缺失值填充为-1。
- 特征编码:分类特征通常使用Label Encoder进行编码,数值特征进行归一化处理。
2. 数据划分
数据集通常被划分为训练集、验证集和测试集,以支持模型的训练和评估。
3. 模型训练与验证
Criteo数据集被广泛用于训练和验证各种CTR预测模型,如DeepFM、Wide & Deep等。

跨境大卖交流群
领取亚马逊、独立站、外贸等领域学习资料包 每月3~4次免费KOL跨境培训课程
关联词条
SHEIN平台卖家入驻和自营供应商入驻的区别
SHEIN为商家提供了两种主要的入驻方式:平台卖家入驻和自营供应商入驻。平台卖家入驻是指商家通过SHEIN的开放平台,自主开设店铺并直接面向消费者销售商品。这种方式类似于传统的电商平台模式,商家拥有较高的自主性和灵活性。而自营供应商入驻则是...
沃尔玛关门时间
了解沃尔玛的关门时间对于消费者合理安排购物行程至关重要。无论是日常采购还是临时需求,提前知晓关门时间能避免“扑空”,确保购物体验顺畅。 一、沃尔玛常规门店关门时间 沃尔玛常规门店的关门时间因地区和门店类型而异。在工...
TikTok Shop食品
在电商领域,食品类目一直是热门赛道之一。随着短视频和直播带货的兴起,TikTok Shop凭借其强大的流量优势和独特的社交属性,为食品电商带来了新的机遇和挑战。 一、TikTok Shop食品的市场现状 (一)全...
TikTok Shop 饰品
在当今数字化浪潮的推动下,电商领域正经历着一场前所未有的变革。TikTok Shop 作为新兴的电商平台,以其独特的社交属性和强大的流量优势,迅速在时尚界崭露头角,尤其是饰品板块,更是成为了时尚达人们追逐潮流的热门之选。今天,就让我们一起深...









LoveAd爱竞
公司总部位于上海,在深圳、合肥、郑州、杭州、广州等城市均设有分公司,14年专注海外广告投放业务(谷歌开户、Bing开户等),提供一站式出海营销方案

