算法识别不了你的盟友

前言

这篇博客从一次大数据推荐流的意外开始。

我在 B 站，就是那个“你所热爱的就是你的生活”的 Bilibili 的首页，连续几天，大数据给我推送了明显属于 OD 圈 (Overdose) 的内容。

最初我的情绪反应挺大，不是震惊（我早就听说过 OD），也不是举报（有可能间接导致他们进一步自伤），而是，气笑了。

我一向、自认为、自己非常自律。我不吸烟，酒仅止于浅尝，晚上可能 2 点睡，睡足 7 小时，睡前一定吃一颗甘氨酸镁补剂，一觉睡到天亮。好吧不背诵 JOJO 梗了。总之，我从未接触过任何成瘾品，我只喝咖啡。我知道这种东西存在，但是谢了，我足够强大，我选择清醒地直面自己惨淡的人生。

笑完以后，我的好奇变成了，为什么是我？作为一个并不属于也从未向往那个圈子的人，我却不断收到那个圈子的内容。

如果算法是错的，为什么错得这么稳定？如果算法是对的，到底是在我身上看到了什么？

算法眼中的“我”究竟是谁

这里先不讨论，我是谁、以及我的自我认知的问题，我们先讨论算法能看到我什么。

首先，Bilibili 的后台数据库看不见我的工作内容，不知道我的朋友是谁，不知道我的真实立场，只能看见一串行为记录：

我是一个 Lv6 用户
我深夜在线
我还长时间在线
我关注边缘群体议题
我对药理学、有机化学讨论感兴趣
我会因为社会议题停下来读很久
我会点开评论区
我会研究小众但在青少年中流行的圈子

如果从这个角度看，算法看到的我，和它看到的 OD 教程的目标用户，其实已经很接近了。

“我”究竟哪里长得像“他们”

这里就比较有趣了，如果把我自己当成一个用户画像样本来分析，该用户感兴趣的标签有：

ACGN 等亚文化兴趣
跨性别议题
青少年时尚
心理健康议题
偏好长文本、长视频
对执法、法律、风险的关注
对社会边缘现象的关注

这些东西单独看都没什么，放在一起，就会慢慢靠近某种奇妙的邻域。

不过，事实上，数学中的邻域不等于身份，研究者不等于成员，观察者不等于参与者，我是 X 的盟友也不等于我是 X 或我属于 X，但推荐系统不会在乎这些区别。

算法其实也误解了他们

这是我后来产生的一个意外发现。由于我实在是好奇心旺盛，我真的去看了几个科普药理学，药代动力学，甚至是教你怎么组合用药以缓解副作用的这种灰色地带“教学”视频。

我原本以为药物滥用的目标是追求刺激。中国禁毒教育给我的印象是，毒品会让你爽一次然后毁掉你的一辈子。后来看美国警察执法视频，又知道另一些毒品会带来强烈致幻、抹杀判断力、屏蔽疼痛感知和神经反射，结果一样，毁掉一个人，以更大的负外部性。

再后来，我发现中文互联网中，会过量使用镇痛药、止咳药等依赖性药物的群体，他们追求的用药体验，和中国美国传统的禁毒教育宣传中，对硬毒品效果的那一套描述，是完全不同的。OD 圈子内的人更多的会把那种感受描述为：逃离、麻木、做梦、解离、停止感受现实。

于是我突然意识到：算法不光误判了我，其实我也误判了他们。

推荐系统把我归进了一个边缘群体，而我又把那个群体归进了另一个刻板印象，我和机器学习都在用相似度和特征代替理解。

从机器学习角度看，这不是 Bug

这里简单讲讲主流互联网应用中的推荐系统。截至目前，主流视频网站的推荐算法依然基于机器学习，技术上，这套机制叫 collaborative filtering 和 embedding retrieval，核心思路是把用户行为和内容编码成向量，按相似度匹配。

视频推荐系统并不需要知道你是谁，也不需要你的全部信息，只需要知道你像谁，给你先查成分，再扣帽子，然后按照这个帽子给你推送戴着同一组帽子的人都在看什么。所以，如果你和某类用户的用户画像足够接近，那么你就会开始收到他们看的内容。

推荐算法优化的是相关性，不是身份认定，更不是社会学分类。

问题在于，我和大多数人都会把推荐理解为归类。在这个把我气笑了的故事里，“B 站居然给我推了这个”变成了“B 站的系统居然认为我是这种人”，所以我又生气又好笑。

事实上推荐系统既没有这么聪明，也没有这么愚蠢，只是在没有感情地合并同类项。

算法识别不了盟友

我真正想说的是，其实，围绕很多弱势群体和小众群体，一般可以分为四种人：身处其中的成员、社会科学研究者、记者（有时这里也包括猎奇人士）、和盟友。他们都会阅读同样的内容，使用相似的语言，关心相似的问题，行为轨迹高度重叠，身份立场却完全不同。

如果一个边缘群体的相关人群中，某种身份的总数量实在是样本数太少，推荐系统没学出来，所有人就会被压缩，归类进同一个类别。

再举一个例子，经常嗑 CP 的朋友都知道，同人女嗑 AB 时一直被推 BA，也是同一个机制的受害者。算法看到的是同一对 CP、同一个 fandom、同一群用户，分不清攻受这种在推荐系统眼里完全不重要的细节。

这也不是恶意，只是数据世界里的盟友太少，少到无法形成一个独立聚类。

结尾

我最终没有对那几条内容做什么。我没有举报，我也不可能加入，我只是滑走了，move on 到下一组推荐。因为我突然发现：推荐系统并不是认错了人，它只是发现我离那些人其实很近。而在中文互联网里，有时候“离得很近”和“就是他们”对算法来说是同一个意思，对人来说却不是。

但我也不得不承认，算法虽然没能把我和他们区分开，却让我看见了一件我原本不会注意到的事：我们之间不只有一堵墙，其实他们极有可能只是一个没有那么幸运的版本的我。

我关心的那些问题——为什么有人想停止感受现实，为什么有人小小年纪活得这么辛苦，为什么有人选择这样的方式逃离，和他们正在经历的东西，其实站在同一片土地上。

算法识别不了盟友。但有时候，它能让盟友意识到自己原来是盟友。

算法识别不了你的盟友

当推荐系统把我当成 OD 普◯◯林的地雷女，我选择逆向工程它的思考过程

算法识别不了你的盟友

前言

算法眼中的“我”究竟是谁

“我”究竟哪里长得像“他们”

算法其实也误解了他们

从机器学习角度看，这不是 Bug

算法识别不了盟友

结尾

CATALOG

FEATURED TAGS

FRIENDS