千万知乎用户数据分析报告

NBA篮球联赛06
千万知乎用户数据分析报告
导读: 最近爬取了知乎1000万的用户数据,耗时一周。 使用 ElasticSearch + Kibana 实现数据存储,可视化。 数据爬取时间为 2019年7月 (3-9)日 抓到的数据大部分都是资料不完善,以下分析会过滤掉资料为

最近爬取了知乎1000万的用户数据,耗时一周。

使用 ElasticSearch + Kibana 实现数据存储,可视化。

数据爬取时间为 2019年7月 (3-9)日

抓到的数据大部分都是资料不完善,以下分析会过滤掉资料为空的那部分。

涉及到性别:-1:未知,0:女, 1;男

本文思路参考 这里

可以看到北京上海用户数量领跑其它城市,所有城市都是男用户稍占多一点。出现了深圳,深圳市 还有 广州,广州市,因为在知乎的个人资料中,居住地这个选项是手动填写而不是选择。

(这里由于kibana用的不熟,暂时不知道怎么把合并,欢迎知道的朋友告知)

可以看出互联网行业一骑绝尘,领先第二名一倍;而第二名计算机软件也是兄弟行业。比较有意思的是以行业划分的话,有比较多行业女性数量占优(高等教育、临床医学、创意艺术、财务、法律、基础教育、教育、广播电视、广告、培训)。而反观计算机软件、电子游戏、机械设备、电子电器、计算机硬件这些行业男性数量大幅占优。比较意外的是有这么多人从事电子游戏行业,超过了很多传统行业(当然有可能这个职业的人在知乎上比较活跃)。

有了行业分布,我们顺便再看看按照职业划分如何。与参考文章不同的是,现在知乎上学生占比最多,可能是知乎当前目标群体为学生,加大校园推广力度。这里我理解是资本入股后的营收压力,使知乎选择了这样的战略。(另外软件工程师,前端,程序员和算法工程师那夸张的男女比例是什么鬼==)

可以看到各高校间的差距并不是特别明显,跟现居城市相对应,北京的清北在前三占据两个席位。杭州在城市中排第三,浙大的学子功不可没。比较有意思的是 克莱登大学(“克莱登大学”原本是钱钟书先生小说《围城》里虚构的骗子学校),另外 中国传媒大学 是前50里边唯一女生数量比男生多的学校。

看完学校,我们最后来看一下专业分布。计算机相关行业占据绝对优势,我想到原因有二:近年来市场对计算机相关人才需求巨大;同时计算机相关人员玩知乎占比较大。法学在前排是让我比较意外的。

看了那么多各种类型的分布,我们来关注一些不一样的

这里列出了关注者数量前30的用户,之一知乎日报应该是知乎官方推荐的账号,张佳伟,丁香医生紧随其后。刘看山也是知乎官方账号,关注者数量似乎还在猛涨,从拉取数据到我写此文几天时间,关注数量涨了20w。轮子哥惊人的22k+回答数显得格外活跃(或许是机器人回答的,谁知道呢。另外经统计轮子哥是目前知乎上回答数量最多的)。

再来看一下被赞的数量最多的有哪些人

可以看到张佳伟,丁香医生还是前排,轮子哥屈居第三。后面又好多用户回答数量并不多,同样收获了好多赞。看看这里面有没有你关注的人吧~

再来对比一下哪些高校被赞数量最多。可以看出清北,浙大,复旦,上交,武大等Top N 学校影响力还是比较大的。另外克莱登大学很顽皮的排到的第三。

看了那么多柱状图,搞个饼图来看一下被关注者数量分布,看看自己在知乎属于什么水平

可以看到大部分知乎用户是没人关注的,如果你拥有一个以上关注者,那么恭喜你打败了7537%的知乎用户。看来还是很多人跟我一样,是一个知乎小透明~

来一个具体的表格

数据里边有个is_active字段,看起来是一个时间戳。我猜这个字段记录的是用户最后一次登录时间,就这么拿来用咯。

这里从红色开始,逆时针依次是10天,一个月,三个月,半年,一年,两年,三年以上。

可以看出三个月内活跃用户大概占比30%,另外有30%用户近三年没登录过了。

最后我们以一张词云结束本文,大伙可以看看自己专业在图中什么位置

截止目前抓取了 9433740 条数据。今天7小时抓了不到5k条数据,数据增长已经非常缓慢了。带宽占用有10M左右,说明还是在不停的爬取,只是爬到的重复率已经很高了。余下的用户可能在不同的一片森林里,与目前爬取数据没有交集,或者根本就是0关注;也有可能数据接近爬完了。目前程序占了6G内存。今晚再观察一下,如果增长速率还是如此缓慢,明天就把它停掉了~

想了解更多爬取心路历程 请看这篇

这是我之一次搞数据爬取,不足之处 请各大神多多指导 。另外关于数据分析,各位可以想想更多不同的维度,得更有多有趣的内容。结尾附上一条抓取的数据样本。

以上,完

知乎查看通讯录好友 *** 如下:

1、打开知乎,点击“我的”,打开知乎设置列表。

2、滑动滑块打开“可通过手机号找到我”。

3、返回到“我的”界面以后找到“关注”按钮并点击。

4、打开“我关注的”,点击“用户”。

5、打开“用户”分类界面,然后点击“通讯录好友”,这样我们就可以打开“通讯录好友”界面了,在这里便可以找到知乎通讯录好友了。

知乎是一个真实的 *** 问答社区,社区氛围友好与理性,连接各行各业的精英。用户分享着彼此的专业知识、经验和见解,为中文互联网源源不断地提供高质量的信息。

1、知乎是中文更大的知识内容平台,22亿用户,互联网内容平台中的独角兽,佼佼者。

2、9年的深耕和沉淀,聚集了大量的“优质用户”和“优质内容”,产生强用户黏性和信任,对用户能够产生更大的影响力。

3、与微博、抖音不同,知乎的大量内容非时效性的,而是能够长期传播和沉淀,很多内容可能是三年前产生的,但是今天你还是会觉得它对你很有帮助,所以知乎本身是具有积累性的。

4、内容营销对很多企业来讲,更大的难题就是“写什么?”。知乎是一个问答平台,在各个领域会发现很多提问、讨论群。在写文章、专栏之前,回答问题其实是非常好的“练笔”的开始,也是文章素材和灵感的来源。

5、知乎的文章是可以被百度等一些平台搜索到的,这样除了平台流量也增加了外来搜索流量的可能性。但是这方面微信公众号和今日头条都不具备,所以知乎在这方面是可以增加内容营销的滚雪球效应。

最近写了个爬虫,将知乎 3W 核心用户的公开资料爬了下来。虽然知乎声称注册用户有 6500 万,日活跃用户有 1850 万,但其中很大一部分用户是三无用户。由于该部分用户公开的数据并不多,再且新版知乎服务器对于单 IP 更大请求量有限制(大概每秒一次左右),所以我只爬了最核心的 3W 用户。

我的爬虫规则是这样的:从关注量上万的知乎大 V 中随机抽取 10 个作为种子,依次爬取其关注的人,再从其关注的人爬取关注的人的关注的人,如此递归。也就是说爬虫的规则保证了进入数据库的每一个人至少有一个关注者。以下的数据分析均来自于爬虫所得到的资料,所以要是报道上面出了偏差,还请大家见谅。

首先是对知乎用户的职业描述进行词云分析,列出前一百的高频词,结果如下。

在职业描述中进行高频词分析,“互联网”以 4552 次频率完胜,然后是”大学“紧随其后,其频率是 2163 。这和我们平时所看到的互联网从业者和名校学生占领内容输出的主力一致。这一百个高频词也囊括了知乎用户的兴趣,居住地等信息,不过这些我们以后还会仔细分析。

我们先来看看知乎的各种“最”。更高赞同数,最多关注者,写得最多答案,分别是哪些呢?

首先是更高赞同数的排行榜。

在赞同数上面, @张佳玮 老师以一己之力超越了第二名一倍不止,可谓是稳拿的冠军。然后前五名是 @肥肥猫 ,@朱炫 ,@唐缺 ,@马前卒 。轮子哥排在了第六名。

然后我们来看最多关注者排行榜。

在关注者排行榜上, @张佳玮 老师还是遥遥领先于 @李开复 老师。再往后走就是知乎的大佬 @黄继新 和 @周源 ,再往后是 @yolfilm 。

我们再来看写的答案最多排行榜。

@Phil 以极高的产量勇夺答案数更高 Top1,而素有”轮带逛“之称的 @vczh 只能屈居第二。排行前五的有 @王若枫 、@柴健翌 、@zhen-liang 等大 V 。

再来看看提问最多排行榜。

@David Chang 以 2684 个提问排行之一,以未来知识图谱闻名的 @图灵Don 排行第二。排行前五的还有 @歆盐 , @程瀚 、 @张亮 。

然后是 BAT 三厂的员工数量比较,这个比较基于爬取到的的用户职业描述词频进行统计。

可以看到鹅厂员工在知乎比例更高,阿里次之(词频: 0004554 ),熊厂稍稍落后。

都说知乎是 985 / 211 满天飞的地方,那么清北复交浙到底哪家强呢?

可以看到北京大学和清华大学的词频不相上下,后面那三位还需加把劲啊。

在移动智能时代,Android 、iOS 、WEB 前端工程师在当今软件开发中简直大放异彩。那么知乎哪一种程序员最多呢?

结果是前端词频远高于 Android 和 iOS ,其实差那么一点点就是 Android 和 iOS 的和了。这么说吧,你可能是坚定乔布斯 less is more 信念的果粉,也可能是拥抱开源的 Android 粉,可是所有人都需要浏览网页,不是吗:)

然后我还比较好奇知乎用户的普遍兴趣爱好是什么。

结果发现健身独占鳌头般占领榜首。看来知乎上还是普遍推崇健身提高颜值提高自身吸引力。可是为什么阅读的比例是更底的呢?为此我只能假设知乎上的同学学习效率都比较高,在完成基本的阅读任务后去了另外的领域探索更大的世界。又或者说阅读,相对于旅游健身摄影来说,对于提升自身的价值性价比并不是很高,因而大家更倾向于去健身房,去旅游,去拍照吧。

知乎用户地域分布。

词频集中分布在北上广深杭四川浙江江苏等地方。和个人的主观印象是相似的。毕竟以上颜色较深的都是互联网行业比较发达的省份。

然后就是大家最关心的知乎男女比例问题了。

在爬到的用户数据中,男性比例占了678%,女性只占了322%。也就是说男女比例比2:1还要大。

看到这里,你可能会反驳我说知乎初始用户的性别就是男性啊,这样子搞个大新闻是不行的。我也觉得挺有道理的,于是进一步筛选了核心中的核心部分用户,筛选条件为粉丝数大于200且赞同数大于400的用户,这下采样应该准确了吧。然后有了下图。

女性的比例降到了301%,男性比例相应为699%。这个数据比之前的数据更为不平衡。所以说女性用户在知乎更为稀缺,也显得更为珍贵。

所以,与其说知乎是一个高质量的问答社区,还不如说:

作者:彭家进 来源:知乎

1第六次人口普查各地常住人口

22017年知乎用户基本信息

1知乎用户地区分布状况,筛选知友数量分布top20地区。

2结合常住人口数据,统计出知友密度更高的top20地区。

3根据关注情况,查看各大学校友相互关注的程度。

知乎用户数据有缺失值需要清洗,另外 居住地 字段不包含“省”、“市”字样。这里留意,后面会提到。

定义函数data_cleaning(df),对缺失数据填充,对于“object”类型字段填充“缺失数据”字样,其他类型一律填充0

设置自定义函数 standard(df,col) ,并返回一个新生成的标准化处理后的字段col_std。运行两次函数,并查看函数运行后的合并列表。

为每个柱子上添加字符,该字符是保留两位小数后的对相应字段标准化处理后的结果。

关注者 人数表示某校用户的个人粉丝数, 关注 人数表示某校用户所关注的人数。按照 教育经历 即用户所在学校名称分组,并对粉丝数和关注人数求和。然后按照"关注","关注者"两个 字段降序,根据输出的结果将其中不合适的行删除。

点的大小用粉丝数量衡量,点越大,粉丝数越多。

颜色深浅表示关注人数的多寡。

红绿辅助线分别标出粉丝数和关注人数的平均数。

由上图可得出结论:浙大用户的粉丝数最多。武汉大学的用户关注他人最多,华中科技大、北大、浙大次之。

知乎看用户ID的 *** 如下:

1、打开知乎后点击我的,然后点击右上角的设置小图标。

2、滑到下方点击账号与安全。

3、进入界面后就可以查看了。

知乎是 *** 问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。准确地讲,知乎更像一个论坛:用户围绕着某一感兴趣的话题进行相关的讨论,同时可以关注兴趣一致的人。对于概念性的解释, *** 百科几乎涵盖了你所有的疑问;但是对于发散思维的整合,却是知乎的一大特色。2017年11月8日,知乎入选时代影响力·中国商业案例TOP30。2019年10月21日,胡润研究院发布《2019胡润全球独角兽榜》,知乎排名第138位。