用数据对女生胸围来次一本正经的探索吧!—20171105早读课

  • A+
所属分类:产品分析
摘要

关爱女性健康,从我做起!

用数据对女生胸围来次一本正经的探索吧!—20171105早读课

小早说:关爱女性健康,从我做起!

一、缘起

心血来潮,突然想爬取天猫内衣的购买信息记录,来对中国广大女性的胸围情况来次认真地探讨(很认真的那种)。

爬取内容为评论里的信息,包括尺码,颜色以及评价。

数据获取过程如下:

1. 习惯性打开开发者工具,果不其然,评论信息是动态生成的。

2. 所以就要到 network 去抓包,数据是 json 格式的。

3. 搞到评论的具体网址后分析下各参数,用 list 迭代岂不美滋滋?

4. 第一次迭代爬取 10w 条评论后用 set 去重后只剩下 1000 多条???

5. 经分析,它每隔几页评论就会弹出一个反爬虫连接验证登录,而且靠后一点,如 100 页后的数据显示的总是重复,经优化后一个商品差不多能爬到 4000 条不重复的评论。

6. 也可能是我技术还不到家吧,能力不够,努力来凑。

7. 我就爬取了不同的约 50 件商品的记录,得到了 20w 条评论信息(样本容量还是有点小,不过取样的范围广一点)。

二、前言

前言首先,得对内衣的尺码有所了解,为此我专门查了一下,在这里给对这个还不熟悉的男同胞们科普一下。

胸围分为上胸围和下胸围。

如何测量下胸围尺码?

水平围绕胸部乳房底部一周的长度,即为胸部下围尺寸,单位:CM。

如何测量上胸围方法?

水平围绕胸部最高点(乳.头)一周的长度,即为胸上围尺寸,如测量尺寸时遇到小数,测量时建议采用进一法,例如 72.1 公分,计算为 73 公分。

还不知道怎么测量,看图。

用数据对女生胸围来次一本正经的探索吧!—20171105早读课

如何计算罩杯的大小?

罩杯的大小就是上胸围减去下胸围的差。

根据步骤一测量的结果,用胸围尺寸 - 下胸围尺寸的差,即确定罩杯号型,对应罩杯参考。
用数据对女生胸围来次一本正经的探索吧!—20171105早读课

本来以为 A 已经够优秀了,没想到还有 AA 的,比优秀还优秀。

加油,摸摸大! 接下来就是确定具体尺码了,尺码有两种,英式尺码和国际尺码。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

不能再描述下去了,再描述下去成BRA科普文了,上酸菜,啊不,上正文~~

三、正文

有了这些基本概念后,我们再来看看这具体的 20w 条数据能告诉我们什么。

颜色

对颜色进行分词统计词频,清理数据后共有 136 个,对 top20 生成条形图。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

肤色 黑色 粉色 在第一梯队,遥遥领先。

灰色 白色 卡其色 紫色 蓝色 浅紫色 红色 贵族黑 浅蓝 处于第二梯队,贵族黑和黑色有什么差别?黑得若隐若现?

薄杯,薄款,厚款,超薄 按厚度来,厚款 > 薄款 > 薄杯 > 超薄 ?

广大女性对薄款还是更多钟爱的,是因为现在夏天薄的比较凉爽吗?还是薄的性感一点?

具体 top60如下:

肤色, 67861

黑色, 48686

粉色, 15788

钢圈, 14846

薄款, 11928

薄杯, 9874

单件, 7109

灰色, 6486

白色, 6345

套装, 6228

卡其色, 5745

紫色, 5540

蓝色, 5333

厚款, 5126

浅紫色, 4336

红色, 4322

贵族黑, 4285

拉丝, 3793

浅蓝, 3667

超薄, 3627

下厚, 3459

上薄, 3459

绑带, 3236

酒红, 3215

肤嫩色, 2804

三排, 2543

亮面, 2403

纯色, 2205

轻肤, 2189

蕾丝, 2102

银灰色, 1979

藕荷色, 1802

玫红, 1781

宝蓝色, 1681

纯洁, 1659

全光肤, 1642

银灰, 1636

咖啡色, 1587

光面, 1548

段染, 1547

虾粉, 1546

水晶, 1371

亚光版, 1262

藏青, 1211

轻粉, 1185

绿色, 1113

浅绿色, 1074

粉红色, 1056

全光, 1053

金肤色, 1006

豆沙, 870

典雅, 788

果绿, 722

冰沙粉, 699

紫颜色, 678

经典, 649

蓝边, 643

奶白色, 621

浅粉, 563

薄荷绿, 556

才知道原来颜色可以有这么多种,长姿势了...

土豪金 静谧蓝 个性黑 挺别致的,蕾丝 好像也深受喜爱,最后来个词云。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

尺码

这 20w 条数据中,下胸围范围为 [ 70cm - 90cm ],罩杯范围为 [ A - E ]。

先来看看总体的胸围情况。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

总体上呈现先升后降的趋势,以 75cm 为分界点开始下滑。

总体范围还是在 70cm - 85cm, 95cm 的基本上已经很少了。

一是可能爬取的内衣商品里面有的没卖 95cm 的,二是这胸围的本来就少...

下胸围对应的总体比例。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

再来看看总体的罩杯情况。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

也是先升后降的趋势,这个是以 B 罩杯为分界点开始下滑,但是这个滑得明显比较陡峭一点,E 罩杯 只有可怜的 155。

哎!现实太骨感了,还是理想丰满一点。

罩杯对应的总体比例。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

看完总体看具体,以罩杯为横坐标,绘制出各胸围对应的罩杯情况。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

基本上都是先升后降,75cm 80cm 85cm 的是以 B 罩杯为分界点变换趋势,只有 70cm 的是一路向下滑。

90cm 和 95cm 由于量不足,在这个图里基本上已经贴着 X 轴了,把这两个单独拉出来看看。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

这下就明显很多了,这两个是以 C 罩杯为分界点变换趋势的,因为毕竟胸围大,罩杯大的几率会大一点。

值得注意的是,95cm 是没有 A 罩杯和 E 罩杯的。

95cm 的胸围 A 的罩杯,这太可怜了吧,95cm 的胸围 E 的罩杯,那也是强得不敢想象。

以胸围为横坐标,绘制出各罩杯对应的胸围情况。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

这个的趋势就比较有趣了,A 罩杯和 B 罩杯以 75cm 为分界点,开始下降。

A 罩杯降得比 B 罩杯稍微平缓一点,C 罩杯的波动就平缓很多,可能也是总体的量偏少,加上图表比例的关系。

至于 D 罩杯和 E 罩杯,还是贴地了,我也把它俩单独拉出来。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

可以看到 D 罩杯是呈现梯状的,E 罩杯由于量实在少,基本上毫无波动。

再详细看看数据集中的范围吧。

胸围范围为 [ 70cm - 85cm ],罩杯范围为 [ A - C ],其对应的比例分别如下。

70cm 的情况,A > B > C用数据对女生胸围来次一本正经的探索吧!—20171105早读课

75cm 的情况,B > A > C用数据对女生胸围来次一本正经的探索吧!—20171105早读课

80cm 的情况,B > A > C用数据对女生胸围来次一本正经的探索吧!—20171105早读课

85cm 的情况,B > C > A用数据对女生胸围来次一本正经的探索吧!—20171105早读课

70cm 的小胸围罩杯比例 A > B > C,小胸围的本身应该就是偏瘦,瘦的话罩杯也是偏小。

75cm 和 80cm 的 B 罩杯的比例都要稍大于 A 罩杯的。

85cm 的 C 罩杯已经反超于 A 罩杯了,毕竟胸围大,罩杯也不会小到哪里去。

评价

一样的套路,分词然后统计词频,进行数据的清理。

其中有 42321 条评论用户是没有填写评论的,这个不进行处理。

由于评价没有统一规范,这个统计出来的词就多了去了,由 top20 生成条形图。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

舒服 不错 喜欢 满意 可以 好评 合适 这些都是不错的评价,聚拢 ?显得大一点吗?

展示一下 top60,如下。

 舒服, 39425

不错, 38335

质量, 27383

喜欢, 21841

穿着, 19816

内衣, 18281

宝贝, 17377

非常, 16812

聚拢, 14919

收到, 14881

满意, 14558

效果, 12684

可以, 11989

好评, 11520

合适, 10705

购买, 10254

没有, 9114

就是, 8807

有点, 8658

特别, 8455

真的, 8105

感觉, 7927

小, 7347

颜色, 6945

下次, 6876

这个, 6557

物流, 6517

起来, 6279

好看, 6250

还会, 5864

夏天, 5585

以后, 5472

值得, 5457

尺码, 5453

第二次, 5415

价格, 5378

舒适, 5369

不会, 5169

还是, 5080

而且, 5052

适合, 5041

卖家, 4964

一样, 4834

钢圈, 4756

东西, 4711

客服, 4696

一下, 4638

大小, 4591

面料, 4531

试穿, 4476

挺舒服, 4468

推荐, 4383

很快, 4037

便宜, 3996

一次, 3843

但是, 3717

已经, 3714

超级, 3692

衣服, 3621

一个, 3476

第二次都出现了 5415 次,看来是回头客了。

来看一下没有排上 top60 的其他词,来个有趣一点的。

哈哈, 989

哈哈哈, 554

哈, 318

哈哈哈哈, 170

所以,哈多少个是看心情决定的吗?

便宜, 3996

实惠, 3216

方便, 1708

性价比, 1662

货比三家,上网买东西图的就是一个方便和便宜。

其他的就不再详细分析了,还是老规矩,上个评价的词云。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

四、最后

最后看我用散点图画出一个内衣。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

什么?不喜欢这火辣的红色,那来个性感的黑色。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

用散点图表白也不是说不行,诺!用数据对女生胸围来次一本正经的探索吧!—20171105早读课

最后一张图引用我心目中永远的大神 Linus 的一句话。用数据对女生胸围来次一本正经的探索吧!—20171105早读课

Talk is cheap,show me the data!

 

作者:chenjiandong。作者授权早读课发表,转载请联系作者。

微信号:数据虫巢(ID:blogchong)

编辑:早读堂-刘小妹

 

欢迎投稿到早读课,投稿邮箱:mm@zaodula.com

用数据对女生胸围来次一本正经的探索吧!—20171105早读课

如果看到这段文字,证明您已经看完这篇文章了,有什么收获有什么感想有什么不赞同,我们期待您的留言评论,并诚挚邀请您加入“互联网早读课”QQ群,一同交流每天文章的心得并结识同行。官方11群:477502397,加群密码“城市+职业+姓名”,否则不予通过,入群后请修改群名片。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: