淘宝用户行为分析

目录项目背景和数据数据来源数据描述分析维度分析流程提出问题理解数据数据清洗构建模型数据可视化问题及解决方法这个CSV数据3.4G,行数1亿多,这个数据如何导入MYSQL?
目录项目背景和数据数据来源数据描述分析维度分析流程提出问题理解数据数据清洗构建模型数据可视化问题及解决方法这个CSV数据3.4G,行数1亿多,这个数据如何导入MYSQL?

项目背景和数据

通过此项目学习电商数据分析的指标与数据分析的基本方法。

数据来源

阿里云天池数据库

数据描述

数据集介绍

文件名称 说明 包含特征
UserBehavior.csv 包含所有的用户行为数据 用户ID,商品ID,商品类目ID,行为类型,时间戳

UserBehavior.csv

本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
时间戳 行为发生的时间戳

用户行为类型共有四种

行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品

关于数据集大小的一些说明如下

维度 数量
用户数量 987,994
商品数量 4,162,024
商品类目数量 9,439
所有行为数量 100,150,807

分析维度

根据现有数据及分析目的,从四个维度进行分析:

# 第一个维度:用户购物情况整体分析
以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯

# 第二个维度:商品购买情况分析
从成交量、人均购买次数、复购率等指标,探索用户对商品的购买偏好,了解商品的销售规律

# 第三个维度:用户行为转化漏斗分析
从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析

# 第四个维度:参照RFM模型,对用户进行分类,找出有价值的用户

分析流程

提出问题——理解数据——数据清洗——构建模型——数据可视化

提出问题

用户最活跃的日期及时段
用户对商品有哪些购买偏好
用户行为间的转化情况
用户分类,哪些是有价值的用户

理解数据

见数据说明

数据清洗

包含数据导入(采用SQLyog)、缺失值处理、一致化处理、异常值处理(2017.11.25到2017.12.3日内的数据)

构建模型

数据可视化

问题及解决方法

这个CSV数据3.4G,行数1亿多,这个数据如何导入MYSQL?



初晨暖阳,夜落星河。
少年披梦,远方有歌。
红黄之上,春夏晚风。
闲肆游走,人群熙攘。