算法识别不了你的盟友
前言
这篇博客从一次大数据推荐流的意外开始。
我在 B 站,就是那个“你所热爱的就是你的生活”的 Bilibili 的首页,连续几天,大数据给我推送了明显属于 OD 圈 (Overdose) 的内容。
最初我的情绪反应挺大,不是震惊(我早就听说过 OD),也不是举报(有可能间接导致他们进一步自伤),而是,气笑了。
我一向、自认为、自己非常自律。我不吸烟,酒仅止于浅尝,晚上可能 2 点睡,睡足 7 小时,睡前一定吃一颗甘氨酸镁补剂,一觉睡到天亮。好吧不背诵 JOJO 梗了。总之,我从未接触过任何成瘾品,我只喝咖啡。我知道这种东西存在,但是谢了,我足够强大,我选择清醒地直面自己惨淡的人生。
笑完以后,我的好奇变成了,为什么是我?作为一个并不属于也从未向往那个圈子的人,我却不断收到那个圈子的内容。
如果算法是错的,为什么错得这么稳定?如果算法是对的,到底是在我身上看到了什么?
算法眼中的“我”究竟是谁
这里先不讨论,我是谁、以及我的自我认知的问题,我们先讨论算法能看到我什么。
首先,Bilibili 的后台数据库看不见我的工作内容,不知道我的朋友是谁,不知道我的真实立场,只能看见一串行为记录:
- 我是一个 Lv6 用户
- 我深夜在线
- 我还长时间在线
- 我关注边缘群体议题
- 我对药理学、有机化学讨论感兴趣
- 我会因为社会议题停下来读很久
- 我会点开评论区
- 我会研究小众但在青少年中流行的圈子
如果从这个角度看,算法看到的我,和它看到的 OD 教程的目标用户,其实已经很接近了。
“我”究竟哪里长得像“他们”
这里就比较有趣了,如果把我自己当成一个用户画像样本来分析,该用户感兴趣的标签有:
- ACGN 等亚文化兴趣
- 跨性别议题
- 青少年时尚
- 心理健康议题
- 偏好长文本、长视频
- 对执法、法律、风险的关注
- 对社会边缘现象的关注
这些东西单独看都没什么,放在一起,就会慢慢靠近某种奇妙的邻域。
不过,事实上,数学中的邻域不等于身份,研究者不等于成员,观察者不等于参与者,我是 X 的盟友也不等于我是 X 或我属于 X,但推荐系统不会在乎这些区别。
算法其实也误解了他们
这是我后来产生的一个意外发现。由于我实在是好奇心旺盛,我真的去看了几个科普药理学,药代动力学,甚至是教你怎么组合用药以缓解副作用的这种灰色地带“教学”视频。
我原本以为药物滥用的目标是追求刺激。中国禁毒教育给我的印象是,毒品会让你爽一次然后毁掉你的一辈子。后来看美国警察执法视频,又知道另一些毒品会带来强烈致幻、抹杀判断力、屏蔽疼痛感知和神经反射,结果一样,毁掉一个人,以更大的负外部性。
再后来,我发现中文互联网中,会过量使用镇痛药、止咳药等依赖性药物的群体,他们追求的用药体验,和中国美国传统的禁毒教育宣传中,对硬毒品效果的那一套描述,是完全不同的。OD 圈子内的人更多的会把那种感受描述为:逃离、麻木、做梦、解离、停止感受现实。
于是我突然意识到:算法不光误判了我,其实我也误判了他们。
推荐系统把我归进了一个边缘群体,而我又把那个群体归进了另一个刻板印象,我和机器学习都在用相似度和特征代替理解。
从机器学习角度看,这不是 Bug
这里简单讲讲主流互联网应用中的推荐系统。截至目前,主流视频网站的推荐算法依然基于机器学习,技术上,这套机制叫 collaborative filtering 和 embedding retrieval,核心思路是把用户行为和内容编码成向量,按相似度匹配。
视频推荐系统并不需要知道你是谁,也不需要你的全部信息,只需要知道你像谁,给你先查成分,再扣帽子,然后按照这个帽子给你推送戴着同一组帽子的人都在看什么。所以,如果你和某类用户的用户画像足够接近,那么你就会开始收到他们看的内容。
推荐算法优化的是相关性,不是身份认定,更不是社会学分类。
问题在于,我和大多数人都会把推荐理解为归类。在这个把我气笑了的故事里,“B 站居然给我推了这个”变成了“B 站的系统居然认为我是这种人”,所以我又生气又好笑。
事实上推荐系统既没有这么聪明,也没有这么愚蠢,只是在没有感情地合并同类项。
算法识别不了盟友
我真正想说的是,其实,围绕很多弱势群体和小众群体,一般可以分为四种人: 身处其中的成员、社会科学研究者、记者(有时这里也包括猎奇人士)、和盟友。他们都会阅读同样的内容,使用相似的语言,关心相似的问题,行为轨迹高度重叠,身份立场却完全不同。
如果一个边缘群体的相关人群中,某种身份的总数量实在是样本数太少,推荐系统没学出来,所有人就会被压缩,归类进同一个类别。
再举一个例子,经常嗑 CP 的朋友都知道,同人女嗑 AB 时一直被推 BA,也是同一个机制的受害者。算法看到的是同一对 CP、同一个 fandom、同一群用户,分不清攻受这种在推荐系统眼里完全不重要的细节。
这也不是恶意,只是数据世界里的盟友太少,少到无法形成一个独立聚类。
结尾
我最终没有对那几条内容做什么。我没有举报,我也不可能加入,我只是滑走了,move on 到下一组推荐。因为我突然发现:推荐系统并不是认错了人,它只是发现我离那些人其实很近。而在中文互联网里,有时候“离得很近”和“就是他们”对算法来说是同一个意思,对人来说却不是。
但我也不得不承认,算法虽然没能把我和他们区分开,却让我看见了一件我原本不会注意到的事:我们之间不只有一堵墙,其实他们极有可能只是一个没有那么幸运的版本的我。
我关心的那些问题——为什么有人想停止感受现实,为什么有人小小年纪活得这么辛苦,为什么有人选择这样的方式逃离,和他们正在经历的东西,其实站在同一片土地上。
算法识别不了盟友。但有时候,它能让盟友意识到自己原来是盟友。