爬完简书50w+条数据之后

Python 爬虫

如有侵权请告知删除

最近学习 Python ,第一个练手的项目就是简书(源码后面会放,先容我逼逼叨)

本次爬取的思路是想通过获取简书平台上所有分类、作者及文章数据,分析如下几点问题

  • 哪些人在用简书
  • 简书上什么类型的文章比重高
  • 是否可以靠简书创作维生
  • 简书最火的分类、作者和文章

爬取完数据之后,文章数据 476568 条,作者信息 115445 条,专题信息 865 条 先说明一下,目前获取的数据并非简书平台完整数据。简书对专题下文章的获取有限制,翻页只能获取前200页的数据,而每页返回10条数据,那么每个专题下只能获取到最多 2000 条文章信息。也就是说最多可以爬取 2000 * 865 = 1730000 条文章数据。由于同一篇文章可以被不同的专题收录,导致中间会出现大量重复数据,可以看出。实际获取的文章数据只有 476568 条,与理论值还是相差甚远

先看一下列出的统计数据

根据专题信息进行词频统计绘制的词云

专题下文章数量平均值为 6682.452

简书专题下文章数量占比

文章数量最多的专题排行前十

专题名称文章数量
首页投稿(暂停使用,暂停投稿)374466
每天写1000字334612
264035
散文随笔237942
简诗204124
青春194478
故事178920
读书172451
今日看点158923
连载小说142922

作者排名前十

作者文字数量粉丝数量喜欢数量
刘淼42300831094723012
阿里云云栖社区316453729120124499
Sir电影5633989286116113564
简书版权中心38639727727730321
电影聚焦16732152748325669
简书播客2395372575696813
太湖浪子54795321820542533
简书大学堂47201121297912226
江昭和94243420308235054
简宝玉8043719040914397

文章阅读排名前十

文章阅读数量
让我来一次性告诉你,空气炸锅究竟好不好用1213082
越是难熬的日子,越要让自己有事可做945236
Markdown——入门指南918540
我可以不上班,你不行!887105
献给写作者的 Markdown 新手指南806548
微信平台全面封杀UBER的24小时里,优步做了什么771078
中国最美现代诗,你知道这十首就够了607625
提高情商,我推荐这5本书498615
你在星巴克喝馥芮白了没?444697
iOS和Android的app界面设计规范437309

文章打赏排名前十

文章打赏数量
怀念我的妻子顾琪1553
报名截止,活动结束 - 零基础入门简笔画507
王佩写作私密群招募(第二期在招)|来聊聊“好中文的样子”347
招募截止丨一日一绘之21天手绘挑战营333
【报名截止,招募结束】零基础入门简笔画之小插画——21天训练营第三期305
因为并不聪明,所以努力把这些习惯坚持了7年270
微信平台全面封杀UBER的24小时里,优步做了什么264
没有婚姻,我拿什么保护你?我的爱人226
对啊,就是嫌你穷才分手的啊188
别学东学西了,先建立自己的知识体系吧182

文章付费排名前十

文章价格付费数量
看了那么多写作课,你为什么还没写作挣到钱(纯干货)¥5.211056
(经验分享)我是如何靠写作赚钱年入十几万的?¥4.991015
分享干货版︱如何通过写作开启斜杠人生,赚取写作的第一桶金?¥2.99652
写出爆文有套路,这七条经验让你成为简书大V(干货)¥5.21403
我是如何用49天从懒癌晚期成功逆袭,兼职收入十几万的?¥2.99310
想赚点稿费,又不知道往哪里投怎么办?来这里告诉你!¥3.50299
如何在简书出版一本书(之一)¥3.99215
短篇小说丨杀人犯 援交女与热带风暴¥2.99156
我也不是生来就是流浪狗¥2.99140
穿越言情系列小说《心归何处》|轮回¥2.99114

哪些人在用简书

根据词云图可以大致了解到,简书中的专题大部分与 IT 从业者相关

简书上什么类型的文章比重高

从词云中看,好像 IT 行业中,写技术、运营和产品相关的文章占比会比较大,但是请先明白,词云只是做了 基于专题标题 的词频统计,而专题的创建是面向用户开放的,可想而知,有一帮 IT 从业者在使用简书记录,并想从中建立自己的流量池 别急,再看看文章阅读、赞赏和付费的排行 这里给出了前十的数据,3个排行中从标题来看,与 IT 行业好像没太大关系

是否可以靠简书创作维生

分析该问题需要参考赞赏和付费排行 赞赏只能看看最多的是帮助我们了解上面类型的文章是简书用户所喜爱的,这是方向,而具体有没有干货,这个还需要看作者的实力了 而从付费排行中可以看出,付费数量最多的文章 看了那么多写作课,你为什么还没写作挣到钱(纯干货),看标题就知道,一片纯干货,夺得付费排行第一,而售价 ¥5.21,可以算出一篇文章让作者赚了 ¥5501.76,这里暂不考虑平台的抽成成或税务情况,还是个可观的数字。同时观察了一下该作者,共发布 3 篇收费文章,而综合看下来,从第一篇收费文章到最后一篇收费文章,对应的时间是 2018.03.27~2018.05.10,其中 2018.03.27 发布的便是这里列出的干货文章,成了爆文。但是后面发布的两篇文章的收益截止目前分别为 ¥2198.62 和 ¥522.69,从第一篇爆文发布至今 88 天,通过付费文章获益 ¥8223.07。

当然,这个是个案分析,如果希望追求准确度,建议有兴趣的朋友可以分析一下前10、50、100的收入排行数据,这样会更准确,也更直观

简书最火的分类、作者和文章 分类、作者和文章排行前面已经给出了,请参考上面的表格

我并不是上面专业的数据分析师,对数字的敏感度也不高,分析的并不全面,有需要的朋友可以下载源码后自行爬取

源码地址:https://github.com/hongquan66/jianshu_spider

目前爬虫的效率非常低,跟爬取机制有非常大的关系 最近准备加入 redis 缓存待分析的文章链接,然后单独使用一条线程,用协程的形式进行文章数据分析 这样的话效率应该会提高很多,请关注

最后修改:2018/06/23 17:56
如果觉得我的文章对你有用,请随意赞赏

2 条评论

  1. _

    alert(1);

  2. 杨群

    aaa啊啊啊OωO

发表评论

颜文字