Telegram审核细节曝光：审核依赖AI与外包团队，不主动审核私聊

admin

4 months ago

2024年3月，澳大利亚互联网安全监管机构eSafety开始对Telegram的审核实践进行调查，根据 Telegram 向澳大利亚 eSafety 监管机构披露的信息，该平台内容审核机制细节曝光：私人聊天（包括私密群组/频道）默认不被扫描，除非用户举报或内容（如图片/视频）匹配已知非法数据库（如 CSAM）。

具体细节如下：

私人聊天中的审核

Telegram 不会扫描私人聊天，也不会检测其中新的或已知的非法内容。
仅当被聊天的一方提交报告时，信使才能执行自动检查或将消息转发给审核人。

秘密聊天的审核

秘密聊天中的消息不会转发给审核人，即使其中一方提交了报告¹。
对于秘密聊天的报告，Telegram 使用不能向公众披露的“替代信号”，而不是消息文本。

私人频道和群组中的审核

除非参与者之一向社区提交报告，否则大多数私人频道和群组对于审核人员来说是不可见的。
Telegram 的规则禁止在可公开查看的频道、群组、机器人等中宣传暴力和传播非法色情内容。尽管如此，该通讯工具并不容忍服务任何部分出现非法内容。
Telegram 代表澄清说，规则中的公开是指应用程序中任何积极审核的部分。
即使没有用户名，频道也不一定属于私密频道：对于审核人员而言，如果某个频道或群组通过邀请链接向公众开放，则该频道或群组被视为公开频道或群组。例如，如果在 Telegram 或其他社交网络的公开访问部分发布了指向私密群组的链接，则出于内容审核的目的，该私密社区被视为可公开访问（因为审核人员可以点击该链接并查看其中的消息）。
所有私人群组和频道中的照片和视频都会被系统扫描，以自动检测已知的非法内容。

自动检测非法内容

Telegram 可以自动检测照片、视频和文本中的非法内容，但仅在特定情况下才会这样做。
除非其中一位参与者提交报告，否则信使不会自动扫描个人信件。
65% 自动检测到的潜在极端主义内容会被送交审核人员进行人工审核。
当检测到可能涉及虐待儿童的新材料时，要么立即自动处理，要么送交审核员审核，“这取决于相关模型能够做出判断的置信度，并结合其他因素”。

该即时通讯应用可以自动检测已知的非法内容和新出现的潜在非法内容。它们适用不同的规则：

已知内容（极端主义和虐待儿童）

Telegram 会自动扫描应用程序除私人聊天之外的所有部分中的已知照片和视频。甚至私人群组和频道也会被扫描。
默认情况下，Telegram 不会扫描消息文本。
如果在消息或聊天中提交了报告，Telegram 将扫描文本以查找与已知非法材料的匹配。

新的潜在非法内容（极端主义和虐待儿童）

举报项目、公共群组和聊天、故事、头像、描述和用户名中的文本、照片和视频都会被自动扫描。
除非提交报告，否则不会扫描私人消息、私人群组和频道来检测新的非法内容。
删除的材料将被添加到已知禁止内容的数据库中。

自动化系统的技术结构

Telegram主要使用其自有的签名数据库来自动检测非法内容。该数据库仅收集由其管理员手动识别的材料。
Telegram 还定期审查欧洲刑警组织的签名数据库，以将其集成到其系统中。
用于检测极端主义文本的模型和工具在大多数语言中都运行良好。
Telegram 系统会跟踪群组管理员移除用户的时间、原因和频率，并在某些情况下采取适当的措施。此外，Telegram 的 AI 模型还会考虑这些指标，以确定举报的优先级并进行自动决策。
信使使用一些信号来识别与先前被阻止的群组相似的新群组。
不使用链接黑名单。Telegram 表示，“相比静态链接黑名单，专注于基于机器学习的分类往往会产生更好的效果”。
Telegram 表示，它对媒体来源进行“广泛监控”，并审查“未注册用户和受信任组织”通过电子邮件发送给 Telegram 的链接。

在所使用的模型中，Telegram 列举了：

基于微调的自监督多语言变压器的语言模型；
微调视觉变换模型；
基于多语言转换器的端到端 ASR（自动语音识别）系统；
基于多模态变换器的模型在图像文本数据集上对齐；
基于多语言转换器的大型语言模型；
自定义数据聚类算法。

处理用户报告

该通讯程序指出，用户报告将由 Telegram 的“工具”、审核人员以及必要时的人工智能/机器学习模型处理。
75% 的用户有关极端主义内容的报告都会被送交审核人员进行人工审核。

与组织合作

Telegram 定期与以下组织互动：

英国内政部
埃蒂达尔
欧盟互联网论坛
欧洲刑警组织
英国通讯管理局
联合国安理会反恐怖主义委员会执行局

Telegram 还表示，自 2024 年 10 月起，它“正在加入互联网观察基金会的安全计划，其中包括访问包含已知 CSAM 网站链接的 URL 列表”。

永久禁令的标准

以文字、图像、录音、录像或其他形式传播煽动暴力的材料。Telegram 明确指出，此类材料是指“具体且明确的人身伤害威胁”。
传播令人毛骨悚然或令人震惊的画面。Telegram 列举了诸如“
酷刑细节、事故照片”或“美化或宣扬暴力或恐怖主义意识形态”等内容。
为恐怖组织或事业募集资金。
拥有或担任参与上述活动的社区的管理员。

打击系统

如果“记者”或“研究人员”的社区或账户为了传播“合法的科学研究、历史资料或新闻”而发布极端主义内容，Telegram 可能会：

给予例外，
或在终止社区或帐户之前发出最多两次警告。

Telegram 表示，执法决定取决于“根据适用法律发布内容的严重性、目的和相关性”。

审核团队的组成

Telegram 向监管机构提供了以下数据²：

员工类别	员工人数
信任与安全工程师	5
Telegram 雇用的内容管理员	0
与 Telegram 签约的内容管理员	150
Telegram 信任与安全人员（不包括工程师和内容审核人员）	4

eSafety 询问 Telegram 是否有快速反应团队：

职称	员工人数	承包商数量
信任与安全工作者	3	13

所有 Telegram 审核人员都是承包商，而不是雇员。
Telegram 审核人员涵盖 60 种语言。
eSafety 指出，在主要语言中，Telegram 缺少越南语的审核人员。

报告响应时间

服务	平均响应时间
私人聊天（极端主义）	18小时
频道和聊天（极端主义）	15小时
私人聊天（虐待儿童）	11小时
频道和聊天（虐待儿童）	10小时
来自受信任组织的报告	1小时

禁令申诉成功率

与传播极端主义内容相关的自动禁令申诉的成功率为 3%。
根据用户报告的传播极端主义内容而提出的禁令申诉的成功率为 2%。
与传播虐待儿童内容相关的自动禁令申诉的成功率为 8%。
根据用户举报传播虐待儿童内容而提出的禁令申诉的成功率为 8%。

自动检测非法内容的统计

极端主义内容：

特征	自动检测	用户报告
私人聊天	不适用	100%
秘密聊天	不适用	100%
群组（公开）	67%	33%
团体（私人）	82%	18%
频道（公共）	69%	31%
频道（私人）	79%	21%
故事	60%	40%

虐待儿童：

特征	自动检测	用户报告
私人聊天	不适用	100%
秘密聊天	不适用	100%
群组（公开）	71%	29%
团体（私人）	85%	15%
频道（公共）	74%	26%
频道（私人）	80%	20%
故事	65%	35%

关于审核的其他信息

删除聊天或频道后，审核人员会手动检查用户用于查找该社区的最热门搜索词。这样做的目的是将这些搜索词从 Telegram 的公开搜索中排除，从而限制类似内容的传播和可用性。
如果群组管理员本身没有违反 Telegram 的规则（例如，如果该群组暂时受到攻击者的行为的影响），Telegram 审核人员可以自行决定暂时关闭该群组，让管理员有机会消除违规行为。
然而，如果一个社区被用于传播被禁止的内容，无论是管理员还是参与者，该社区、其管理员以及违反 Telegram 使用条款的用户都可能被永久封禁。
当 Telegram 发现有用户传播极端主义材料时，它会检查“与该用户相关的进一步报告，以及该用户拥有或管理的任何社区”。Telegram 表示，任何被发现传播此类材料的社区也将被删除。
频道订阅者或群组成员“即使所属社区可能存在此类内容，但未参与管理、直接传播或推广违禁内容，也不会被自动封禁”。Telegram 表示，采取此举是为了避免对执法人员、记者、活动人士以及其他可能因客观原因加入此类群组的用户造成意外伤害。
鉴于虐待儿童行为的严重性，任何与之相关的违规行为通常会导致相关账号和社区被永久删除。此类群组和频道的所有者也可能被移除。

从上述内容可以得知：Telegram 并无全职内容审核人员，仅依赖约 150 名外包审核人员（覆盖 60 种语言），且封禁申诉成功率极低（2%-8%）。