《十周成为数据分析师》笔记——业务线第七节亚马逊Kindle电子书商业分析

项目四亚马逊Kindle电子书商业分析

1、商业分析相关知识与概念
- （1）商业分析的概念
- （2）数据化商业分析与传统的行业研究区别
- （3）业务分析偏向于战术指导，商业分析偏向于战略指导
2、变量与多元线性回归概念
- （1）0-1变量（定性）
- （2）时间序列变量（定量）
- （3）多变量线性回归
3、亚马逊Kindle书籍多渠道商业分析项目背景及电子书相关数据介绍
- （1）数据集情况
- （2）项目背景
4、数据处理分析思路
5、python处理
6、电子书对实体书销量的影响程度
- （1）6种渠道发售策略下不同因素对电子书销量的影响
- （2）6种渠道发售策略下“参考价格”相关要素对电子书销量的影响
- - （3）总结：亚马逊电子书多渠道管理应用
- （4）解释review评分为何对销量的影响是不确定的
7、不同Kindle书籍聚类分析方法

1、商业分析相关知识与概念（1）商业分析的概念

商业分析，是识别业务需求和确定业务问题解决方案的研究学科。通常包括战略规划、流程改进、组织变更、以及通过数据分析等手段来研究解决问题。
应用：

产品开发。数据分析是针对已经存在的产品产生的数据进行分析，来进行产品优化；商业分析需要对市场所有的调研进行分析，更加宏观
渠道管理。在不同渠道上架是否冲突，何种最有利，将产品无脑投放至各个渠道，是错误的。需要考虑到更宏观的东西，做是与否的判断。
投资管理。市场宏观动态分析。

（2）数据化商业分析与传统的行业研究区别

（3）业务分析偏向于战术指导，商业分析偏向于战略指导

战术指导的经典方法——四象限分析法，适用于多维度比较分析的复杂业务环境决策

市场及用户现状调研——行业生命周期分析、行业上下游分析（如服装行业的上下游：棉花→衣服，上游会影响下游）
用户画像调研——性别分布、学历分布、地域分布……
用户核心诉讼及产品细分——需求核心属性分析、多属性波士顿矩阵分析（对于宏观分析定位即可，对于微观就变成了四象限分析是动态的）
案例：
（1）用户生命周期分析：二次元手游，在2013年属于萌芽期，此时市场特别小，2015-2015属于发展期，国内推出自演的二次元游戏，有了标杆产品，2016年进入爆发期，出现了核心向IP和包括IP，市场规模在逐步扩大。
（2）行业厂商分析（游戏的上下游）：开发商——分发平台（渠道、平台）——运营商（哔哩哔哩游戏、腾讯游戏等）
（3）用画像调研（不是只针对一个游戏，而是多种游戏头部市场）：性别分布、年龄、地域分布、学历分布、职业分布、收入分布
（4）呵护核心诉求及产品划分——需求核心属性分析。多属性波士顿矩阵分析，以二次元内容量、可玩性为横纵轴，互粉出四个象限，划分用户

2、变量与多元线性回归概念（1）0-1变量（定性）

分类变量（categorical variable）是说明事物类别的一个名称，其取值是分类数据。0-1变量属于分类变量的一种类型。
是离散变量，例如：性别、职业、年龄段

（2）时间序列变量（定量）

时间序列（或称动态数列）是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
例如，股票，全球温度异常值的时间序列数据

（3）多变量线性回归

多元线性回归模型的数学形式：
真实值：
预测值：
误差：
与非线性回归相比，线性回归关系可以解释过去，少部分可以预测未来趋势（不能精准预测），非线性回归的预测可能更加精准（但也可能存在过拟合），但很难解释

3、亚马逊Kindle书籍多渠道商业分析项目背景及电子书相关数据介绍（1）数据集情况

H-hard cover 精装书
K-Kindle 电子书
P-paperback 平装书
每个文件夹代表不同的渠道发售顺序，每个文件夹下对应多个数据文件，每个文件名对应每本书的ASIN
每个文件数据字段包括：日期、电子书排名、平装本排名、精装本排名（均为一天内的平均排名）、电子书价格、平装本价格、精装本价格、电子书/平装本/精装本排名数据最早日期（上架时间）、不同评分review数量、review总数与review平均评分、电子书、平装本、精装本的发售天数、电子书参考价格相关数据指标

（2）项目背景

Kindle电子书很畅销/kindle阅读器适合阅读小说/小说是所有书籍类别的主要组成部分
在美国市场，拥有电子阅读器和平板电脑的成年人比例增长很快，普及较广
利用抓取程序或第三方采集器，爬取亚马逊前台的kindle小说电子书数据，包括Product details中的ASIN信息、出版（上架）时间信息、排名信息（最新）、review信息以及listing详情页中的review信息（包括review生成时间和评分）

4、数据处理分析思路

根据Kindle电子书上架时间与平装本书籍上架时间差异的分布图，在平装本发售三年后电子书的发售量增加，可能解释：通过数据分析，平装本发售3年后发售电子书能增加销量提高利润。
思路：数据采集→数据清洗→数据分析

从亚马逊的第三方工具/第三方平台获取历史价格和排名数据。
从亚马逊平台获取历史review数据。
清除数据集中的无效数据。
使用线性回归分析模型中每个变量的参数大小和统计显着性，并找出哪些变量会影响小说电子书的销售。
对回归结果的自序列相关性和异方差性进行检测，通过改进计算方法提升回归有效性。

5、python处理

（1）多批量文件/数据读取，Dictionary→Dataframe数据转换代码
（2）将读取的数据在Python中转变成适合分析的形式（数组形式）
（3）数学建模，确立因变量与自变量的数学形式

RP：参考价格
AP：第t天所有电子书的平均价格
H_BP：与小说电子书i对应的精装书价格
P_BP：与小说电子书i对应的平装书的价格
H_t：与小说电子书i对应的精装书发行时间
P_t：与小说电子书对应的平装书的发行时间

H_t和P_t比较短时，用户的参考价格会提高，大多数情况下，实体书价格高于电子书价格。当一本小说只有电子书时，其价格只取决于市场上电子书的平均价格。实体书销售时间足够长，参考价格就逐渐不被实体书价格影响（有便宜的二手书了）。
（4）对数组形式的数据使用Python进行多元线性回归分析

调整后的R平方：0.299，自变量可以解释29.9%的因变量
F值很大：自变量和因变量有关系
P值都接近于0：回归系数都是显著的
回归的前提：误差符合正态分布且均值为零，互相之间没有相关性
（5）评估回归质量与有效性，检查自序列相关性问题与异方差性问题
自序列相关：残差不应该具备自序列相关，即前一个残差与后一个残差之间不应该有关联性，之间没有任何关系，进行回归分析的系数为0。自序列相关表现为前后一并增长或一并下跌，似乎前一个数值会对后一个数值产生影响。
可以用Durbin-Watson检验，数值在0~4之间，接近于0或者接近于4都说明有自序列相关性，1.5到2.5之间属于正常。
解决自序列相关性：差分法
解决了自序列相关的问题
使用差分法后会减少一个数据通过差分
改善回归有效性，DW test数值改善
使用差分法后的数学模型1：

使用差分法后的数学模型2：

模型1没有加入模型2的两个变量，即消费者心理预期价格和参考价格与实际价格之间的差距，在进行回归时用来评估消费者心理预期价格和参考价格对于电子书销量排名的影响。

异方差性：
案例：在一定阶段内，收入随着受教育程度逐渐增加，进入高等教育后，收入分散程度增大，即方差增大，边际效应越明显

对OLS的残差进行回归（将因变量变成残差，自变量不变），通过n*(R^2)的数值来判断异方差性，其中n是数据量，（将得到的数值进行卡方检验）结合变量数量和数据数量查卡方表，如果这个数值与表中的数值差距很大，则回归存在异方差性
对所有残差进行可视化，如果残差比较稳定，没有明显的变化趋势，则没有异方差性。如果在一定范围内稳定，之后有明显增大或者变小，则有异方差性。
解决办法：将原来的线性回归变为加权回归，根据经验法则给每一个自变量设置一个权重，一般取每个残差的分之一

加权法：给两部分回归分配一个权重，在前部分（没有异方差性）对数据分配一个高权重，在后部分给予一个低权重（有一定参考性，但并没有那么强的参考性）
做法：残差取绝对值，然后取这个残差绝对值的分之一作为权重，再次进行回归

处理序列自相关性（差分法）和异方差性（加权回归）后，DW值为2.441，符合正常区间表明解决了序列自相关性，P值均为0，表明相关系数均显著，F值很大，表明自变量和因变量确实是相关的，使用的是WLS模型，Adjusted R²只有5%，因为是个市场类的数据分析问题，所以Adjusted R²不会特别高，5%也是可以接受的。
如果Adjusted R²比较低，且所有自变量系数显著，且F值很大，即自变量与因变量之间有很明显的关系，则可以结合系数进行定性分析：系数为正，则为正相关关系；系数为负，则为负相关关系
如果Adjusted R²很高，则可以做定量分析：自变量数值是多少会影响到具体因变量的变化。

6、电子书对实体书销量的影响程度（1）6种渠道发售策略下不同因素对电子书销量的影响

星号数量越多，越显著，3个以上表明在95%以上。

通过图表，可以得到讯息：

InPRICE的系数在6种发售策略中，除了k-h-p和h-k-p外，都是正值，符合常规逻辑。一般而言，价格越高，需求越少，销量越少，排名数值就越大，所以价格与排名正相关，InPRICE与排名正相关。k-h-p和h-k-p两种策略具有极其特殊性，即kindle和hardcover最先发售，通常精装本（hardcover）在三种类型中价格最高，精装本优先平装本发售一般而言是非常冒险的行为（通常是将平装本和kindle优先发售，最后发售精装本），表明出版商对书籍的内容质量及其自信。当一本书的内容质量非常高时，容易造成供不应求的情况，用户对电子书的参考价格会相对较高。
InNREVIEW（review数量）的系数在6种发售策略中都是负数，review数量越多，排名值越小。因为销量越大，排名值越小，review才会越多，所以review数量与排名是负相关。
InREVIEW（评分）的系数在6种发售策略中，只有一个为负，其他均为正，正相关意味着评分越高，排名越大。上述情况发生的原因在于，review存在刷评（虚假评论）的情况，用户对虚假评论具有主观判断能力，所以review的高低对排名销量的影响更具有不可测性。
TIMEInPRICE意味着时间越长，价格弹性的变化（TIMEInPRICE与InPRICE同号表示随时间变化价格弹性越来越大，异号表示越来越小）。k-p-h策略中，随着时间变长，InPRICE系数为0.326，TIME*InPRICE系数为-0.0003，时间只要够长，发现价格弹性减小；p-h-k发售策略中，价格弹性越来越大；p-k-h策略中，价格弹性越来越小；k-h-p策略中，价格弹性越来越大；h-p-k策略中，价格弹性越来越大；h-k-p策略中，价格弹性越来越小。所以价格弹性的变化也是不一定的。
SUB_BEST（1表示对应的实体书为畅销书，0表示不是畅销书）的系数在6种策略下都是很显著的，并且与排名都是负相关关系，即如果电子书对应的实体书是畅销书，则销量会增加，排名会靠前，即排名数值会减小。

（2）6种渠道发售策略下“参考价格”相关要素对电子书销量的影响

RP（参考价格）的系数都是负值。消费者的参考价格越高，内心对电子书的预期价格越高，利于电子书的销售，电子书的销量会增加，排名的值会变小。
InDPR（预期参考价格与实际价格差值）的系数，在k-p-h策略中为正值，在p-h-k策略中为负值，在p-k-h中为正值，在k-h-p策略中正值，在h-p-k策略中为正值，在h-k-p策略中为负值。表明预期参考价格与实际价格差值大小对电子书销量排名的影响是不确定的。
在p-k-h和h-k-p两种策略下，InPRICE与kindle销量排名是负相关关系，这在两个模型中具有一致性，可以为后面的商业分析/产品策略提供一个参考。
review和review数量与销量排名之间的关系在两个模型中也具有一致性。

（3）总结：亚马逊电子书多渠道管理应用

①由于消费者对电子书的价格弹性会随着时间的推移而降低，因此电子书零售商可以缓慢提高价格并获得更多利润。——（大多数情况下）随时间推移，电子书的价格变化对销量的影响会降低。
②当与电子书相对应的精装本或平装书刚刚发行时，电子书零售商可以利用消费者参考价格的变化来增加电子书的利润。——参考价格越高，电子书销量会越高，而参考价格由实体书决定。
③当电子书和精装书为最早发售的两个渠道时，这说明电子书具有较高的内容质量，因此电子书零售商可以逐步提高电子书的价格。——质量够好，提价并不影响销量。

（4）解释review评分为何对销量的影响是不确定的

抓取亚马逊dress”品类下各商品的review评分，并计算各商品的累计平均评分，作折线图：

随着排名数的增加，review评分累计平均数越来越小。搜索结果页越往后翻，排名越往后，说明产品可能刚刚上架，因此可能没有评分，也就是0，所以计算的累计平均分就会越来越小。
取前500个商品的review评分累计平均数作折线图：

发现一开始几个商品的评分在3.95左右，比较小，然后突然提升到4.1，之后又突然降低到3.95到4之间的水平，随后再慢慢往上提升。
转折出现的原因：虚假评论。在销量排名靠前的商品中，许多都是靠“刷单”刷上去的，一方面也包括刷评论。销量排1-40名的产品出现上述强烈的波动，说明有部分商品是通过运营者大规模的“刷单”的虚假评论”把评分提高了。后面又降下来的原因，从长期来看，平台都会给产品的综合表现来给定一个稳定的搜索排序，排序稳定下来后，长期评论会回归到产品质量上。
基于上述原因，前述回归结果中出现了评分与销量排名间的不确定性。

7、不同Kindle书籍聚类分析方法

聚类方法：K-Means聚类算法（非监督的学习算法）

算法过程：
①从n个样本数据中随机挑选k个对象作为初始的聚类中心。
②分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚类中。
③所有对象分配完成后，重新计算k个聚类的中心。
④与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，转至步骤2，否则转至步骤5。
⑤当质心不发生变化时，停止并输出聚类结果。

算法目的：
同一聚类内部距离最小化，不同聚类组间距离最大化

使用霍普金斯统计量来判断是否可以进行聚类分析
如果霍普金斯统计量接近于0.5，表明数据完全随机，聚类没有意义；接近于1，表示可以聚类，是有意义的

案例：
选取：ASIN、评分、评分数量、电子书排名最高提升值、平装书排名最高提升值、精装书排名最高提升值、电子书价格、平装本价格、精装书价格
得到3个聚类：

第一类：0分评价0个review，说明是历史销量糟糕，没有评价的书籍
第二类：中长尾书籍，review评分和数量都还不错，kindle销量排名增长最快，电子书价格比较便宜，平装本稍贵，精装本最贵。
第三类：畅销书，review数量特别多，排名绝对值较小，波动不大，电子书价格高于平装版。

《十周成为数据分析师》笔记——业务线 第七节 亚马逊Kindle电子书商业分析

大数据系统相关栏目本月热门文章

《十周成为数据分析师》笔记——业务线第七节亚马逊Kindle电子书商业分析