
2023年,当时名为Twitter的网站首次部分开源了其算法。那时,特斯拉亿万富翁埃隆·马斯克刚刚收购了该平台,他声称自己的使命是重组这个社交媒体平台,使其更加透明。
然而,该算法的代码发布很快就被批评为“透明作秀”,批评者指出它“不完整”,并没有揭示该组织内部运作的多少信息,也没有解释为什么代码会以这种方式运行。
现在,该网站(已更名为 X)再次开源了其算法,兑现了马斯克上周的承诺。他当时表示:“我们将在 7 天内开源新的算法,包括所有用于确定向用户推荐哪些自然搜索结果和广告帖子的代码。” 马斯克还承诺,在可预见的未来,每四周都会公开算法的相关信息。
周二,X在GitHub上发布了一篇文章,详细介绍了其信息源生成代码,并附上了程序工作原理的图表。
目前披露的信息虽然算不上惊天动地,但确实让我们得以窥见算法运作的幕后。图表显示,网站算法在筛选推送给特定用户的内容时,会考虑用户的互动历史(例如点击过的帖子等),并分析其近期在平台内发布的帖子。此外,算法还会利用机器学习技术,分析用户可能感兴趣的“平台外”帖子——即用户未必关注的账号发布的内容。
该算法会过滤掉某些类型的帖子,包括来自被屏蔽账户的帖子、包含被屏蔽关键词的帖子,以及被认为过于暴力或垃圾信息的帖子。然后,算法会根据用户可能感兴趣的内容进行排名。这个过程会考虑相关性和内容多样性等因素,以避免用户看到大量千篇一律的帖子。此外,算法还会根据用户点赞、回复、转发、收藏或以其他方式互动的可能性来评估内容。
据 X 公司称,整个系统都是基于人工智能的。周二发布的 GitHub 文档指出,该系统“完全依赖”该公司基于 Grok 的转换器来“从用户互动序列中学习相关性”。换句话说,Grok 会分析你的点击和点赞行为,并将这些信息输入到推荐系统中。文档还指出,该系统“无需人工进行内容相关性特征工程”,这意味着无需人工调整算法判断相关性的方式。文档补充说,这种自动化“显著降低了数据管道和服务基础设施的复杂性”。
X为何选择现在公开这一切?原因尚不完全清楚。过去,马斯克曾声称希望将Twitter打造成为企业透明度的典范——这一理念至今仍在延续。2023年,Twitter算法首次公开时,马斯克表示,提供“代码透明度”起初会“非常尴尬”,但最终会“迅速提升推荐质量”。他还补充道:“最重要的是,我们希望赢得你们的信任。”随着首个代码开源,Twitter宣布开启“透明度新时代”。
尽管马斯克一直强调透明度,但自从他接管以来,该平台的某些方面可以说变得更加不透明。这位科技亿万富翁在2022年收购Twitter时,该网站被迫从一家上市公司转型为一家私营公司——这种转变通常与透明度并不等同。过去,该网站每年都会发布多份透明度报告,而X直到2024年9月才发布第一份透明度报告。同年12月,欧盟监管机构还对X处以1.4亿美元的罚款,称该网站违反了《数字服务法案》(DSA)规定的“透明度义务”,并指出该网站的验证标记系统使用户更难判断特定账户的真实性。
过去一个月,X平台也因其聊天机器人Grok被用于制作和传播色情内容而面临压力。加州总检察长办公室和国会议员近几周都对该平台进行了审查,并指出有指控称Grok被用于制作女性和未成年人的裸照。因此,一些人可能认为这种标榜开放的做法不过是作秀。
圈小蛙