大案牍术——从微博评论看林志玲同胞的众生相

前段时间林志玲在微博发布了结婚喜讯,评论居然有38万多条,随手翻了翻热门评论,侮辱性言辞居多。这就奇了怪了,怎么别人嫁个日本男性也能被喷?我寻思这婚姻法也没有中国女性不允许嫁给日本男性这一条呀。我又翻了十几页的评论,除了林志玲圈内好友的祝福外,绝大部分路人都是污言秽语,所以我打算看看这些评论观点的整体风向。

说干就干,Chrome F12 大法启动,先分析一波请求。瓦特?竟然这么简单?说好的大厂风范呢?说好的高端技术呢?居然就是这么直白一个请求:

1
https://weibo.com/aj/v6/comment/big?ajwvr=6&id=4380261561116383&page=1

还连 Cookie 都不带变的,一个静态 Cookie 随便用。渣浪技术时至今日已经落魄至此了吗?

再来看一波返回的数据,居然是已经生成好的DOM结构。那就只能召唤 JSoup 大法先 Parse 再select 一波了。一顿操作猛如虎,一看数据稳如狗。万事俱备,线程池就位、日志就位、for 循环创建2W 页的采集任务,Run。

此刻的夜已是万籁俱静,今夜没有风也没有月,只有昏黄的路灯照着晚归的行人。我倒了杯 82 年的柠檬味无糖苏打水,看着屏幕上滚动的日志,心里不由得升起了一丝不安,渣浪的数据就这么轻易的进了我的数据库?

这个世界上不只女人有第六感,程序猿也有,而且都很准。终于在日志显示采集第 1001 页数据时,一个 ERROR 日志像冷冷的冰雨在我脸上胡乱的拍。我仿佛看见渣浪的研发抓着我的衣领,龇牙咧嘴的问我还敢不敢小瞧他的反爬技术。

但我毕竟是在离黄浦江只有2公里的市价上千万的豪宅里写过代码的人,和世界500强的各路大佬也曾谈笑风生,这点小风小浪,毛毛雨的啦。Chrome F12 大法再次启动,让我看看渣浪搞了什么鬼。诶,1000 页之后的 URL 里面怎么突然多了好几个参数?瓦特法克,每次请求还在变?

我默默告诉自己,不要慌,要镇定,拿出你的推理能力和数理基础来,刚他。大脑飞速运转,尝试了十几种方式,突然我的耳边想起了我高中数学老师对我的谆谆教诲,「你要是数学能考及格,我手心煎鱼给你吃」。哎,算了算了,我就分析前 1000 页的数据吧。

首先让我们看看有哪些积极发言的朋友。

1
2
3
4
5
6
7
8
9
10
11
12
SELECT   
author AS 微博名称,
COUNT(author_id) AS 回复次数
FROM
comments
GROUP BY
author
HAVING
回复次数 >= 10
ORDER BY
回复次数
DESC

我筛选了发言超过10次的用户,看看谁是这条微博下的 KOL。

有28位小老弟成功入选,他们总计贡献了403条评论内容,我们再看看排名第一的这位 「小丑王00000000」的发言内容。

这些积极发言的小老弟里面也有几个是脑子好使的,用自己的绵薄之力想对举着民族大义的小老弟的脑子力挽狂澜,不过效果并不明显。

最后我把这些评论生成了词云,看看这些评论的基调如何。

看着这个词云也不知道该说啥,「黑泽志玲」四个字就像是狠狠扇在基础教育脸上的一个巴掌。还好正面的声音依然存在且坚定,有他们在,就有这个国家和民族的未来在。

同样的基础教育体系,为什么有的人能从历史的国仇家恨里学到进步、学到教训、学到反思,而有的人却只会记住这些仇恨,并盲目肆意的攻击一切和日本有关的人和事物。

如果林志玲嫁给日本人是数典忘祖、背叛民族和国家,那用着携带日产电子元器件手机和其他电子产品的人是不是就属于给日本提供子弹的人?这些 KOL 的收入可能连个税起征点都达不到,却用着自己浅薄狭隘的知识指点别人的生活,不知这是其个人的悲哀还是基础教育的悲哀。