IP Editing: Privacy Enhancement and Abuse Mitigation/Research and tools/zh
葡萄牙语维基百科禁止IP编辑后的数据
葡萄牙语维基百科实施限制之后的统计数据
2021年8月30日更新
大家好,这里是关于葡萄牙语维基百科自禁止未注册用户编辑之后,相关统计数据的更新。我们在影响报告页面发布了详细报告。本报告包含从数据中获取的统计指标以及我们在葡萄牙语维基百科活跃编者中进行的调查。
总而言之,这份报告呈现出积极的变化。在数据收集期间,我们没有发现任何明显的负面影响。有鉴于此,我们鼓励在两个或更多项目上进行实验以观察是否会发生类似的变化。所有的项目都有自己的情况,在葡萄牙语维基百科上能成立的情形在其他项目上未必也能成立。我们想在两个项目上进行有期限的实验,禁止未注册用户的编辑。我们估计大约需要8个月事件来收集足够的数据以便观察到较为显著的变化。此后,我们会停止实验,允许未注册用户编辑,同时分析收集到的数据。一旦数据发布,社群可以自行决定他们是否继续禁止未注册用户编辑。
我们称此为禁止IP编辑实验。您可以在该页上查看时间线和详细信息。请使用该页及其讨论页就这项实验进行更多讨论。
葡萄牙语维基百科对IP编辑的限制
葡萄牙语维基百科自去年起禁止未注册用户编辑。近几个月内我们团队一直在收集这一变动对维基项目的影响。我们也和多名社区成员交流此事。我们正在处理数据收集的最后一些工作,以准确呈现该维基的发展状态。相信不久之后我们会有更新。
工具
工具开发
您可能已经知道,我们正在开发一些新的工具,用来减轻屏蔽IP地址带来的影响,同时对所有人来说也是更好的反破坏工具。我们的项目所能提供给社群的反破坏工具有许多不足,这不是秘密,这些工具有许多可以改进的方面。我们希望开发一种工具让进行反破坏工作的社群成员能更高效地工作。我们也希望降低参与反破坏工作的门槛。
我们此前已经谈过这些关于这些工具的一些想法,我会在下方提供近期的更新。需要注意的是,近几个月以来,由于我们团队正对安全投票进行重大修改以满足即将举行的WMF理事会选举,这些工具的开发进度有所减缓。
IP 资讯功能
IP地址相关的信息非常常用,我们正在开发一个显示这些信息的工具。巡查员、管理员和用户查核员目前依靠外部网站来获取这些内容。我们希望通过将这些信息整合到我们的网站中,以便简化查询IP信息的过程。我们最近完成了该工具原型并进行了一轮用户测试以检验我们的方法。我们发现大多数参与采访的编者认为这个工具很有用,并表示有意愿在未来继续使用。您可以阅读该项目页面上的最新消息。 我们希望就以下问题征求意见:
- 检查IP的编辑时,会寻找哪些信息?会利用哪些页面来查看这些信息?
- 对您来说最有用的信息是什么?
- 当您与他人分享IP相关的信息时,您觉得哪种信息可能将匿名编者置于风险中?
编者匹配功能
这个项目在之前的讨论中也被称为“附近编者”或“傀儡探测”。我们尝试给它起一个合适的名字,以便不熟知“傀儡”一词的人理解。
目前本项目处于早期阶段。维基媒体基金会研究计划中有一个项目就是关于辅助探测两个具有相似编辑特征的编者。这将会有助于将使用不同自动生成用户名的未注册编者联系起来。在我们刚开始讨论这个项目的时候,就有许多支持本项目的声音。我们也得知开发这个功能的一些风险。我们计划近期开发出一个原型并与社群分享。关于此项目,有一个十分粗糙的项目页面。我们希望可以尽快更新该页。如果您有任何关于这个项目的想法,请至项目讨论页留言。
如前文所述,我们的首要目标是为反破坏战士提供更好的工具,让她们有更好的管理体验,同时努力使IP地址字串对她们的价值更少。这么做的另一个原因是—IP地址难以理解,IP地址仅对精通技术的用户很有用。与IP地址共事的学习曲线更高,这给没有技术背景的用户进入职能角色制造了壁垒。我们需要任何人都可以使用的管理工具。
第一件事是让用户查核工具更灵活、强大且易于使用。用户核查工具是检测并封禁破坏者(特别是长期的滥用者)的重要工具,但其很多年没有维护,现在因此看起来过时,而且缺乏必要功能。
我们预见到IP遮蔽生效后参加成为用户查核员的用户会增加。这更加需要更好更易用的用户核查体验。怀着这一想法,反骚扰工具团队去年一年都在改进用户查核工具—使其更有效率,更加用户友好。我们也将社区提出的许多出色功能计入工作范围。在此期间,我们持续地咨询用户查核员和巡查员们,尽我们之所能实现她们的期望。新功能将在2020年10月在所有维基媒体计划可用。
我们专注的下一个功能是IP信息。在向六个维基咨询后,我们决定了这个项目,她们帮我们锁定IP地址的使用例。IP地址提供的一些重要信息应该对巡查员可用,以高效完成工作,所以IP信息的目标是快速而简易地呈现IP地址的关键信息。IP地址提供比如位置、组织、是Tor/VPN节点的可能性、rDNS、IP地址段。IP信息快速而简易地呈现这些信息,不需要任何可能难用的外部工具,我们希望这对巡查员轻松工作很有裨益。这些信息层级足够高,展示这些不会威胁此匿名用户的隐私,同时巡查员们也能据此对IP作出质量判断。
IP信息之后,我们会投入开发找寻类似编辑者功能。我们会使用机器学习模型,由我们和用户查核员们协力构建,由过去的用户查核数据训练,用以比较用户行为,并标记两个或多个用户看起来行为类似。模型会考虑用户在何页面活跃、写作风格、编辑次数等等,以预测某两个用户有多类似。我们尽力使模型更加准确。
一旦完成,此模型可以用在许多地方。第一步我们会用它帮助用户查核员侦测傀儡,省去她们做大量手动工作的麻烦。在未来我们可以考虑如何让更多人使用此工具,以及用它侦测恶意傀儡环(malicious sockpuppeting rings)和错误信息战(disinformation campaigns)。
您可以在该工具的项目页面了解更多情况和评论。
研究
IP地址隐藏影响报告
IP地址作为半可靠的部分性的身份标志是有价值的,它不能被用户自己轻易地更改。然而由于网络服务提供商及设备配置的原因,IP地址提供的信息并不总是可靠,而且需要较深的技术知识和熟练度才能有效运用IP地址信息,虽然管理员目前不需要证明他们具有这样的能力。这些技术信息也可用于支撑额外的信息(所谓的“行为信息”),并可以显著影响最终实施的管理操作。
在社群方面,是否允许未注册用户编辑是一个长久以来激烈辩论的话题。到目前为止,这些讨论在允许未注册用户编辑方面存在一些问题。这类讨论通常围绕着如何制止破坏进行,而非围绕保留伪匿名编辑的权限并降低编辑门槛展开。由于未注册用户往往与破坏有关,编辑者对于他们往往存在偏见,这也在诸如ORES的工具的算法中有所体现。另外,与未注册用户的沟通中也存在较大的问题,这主要是与缺乏通知有关,而且也不能保证同一个人能够持续关注发送至该IP讨论页的消息。
关于隐藏IP地址的潜在影响,IP地址被隐藏以后,管理员的工作流程会受到显著影响,并且可能在短期内增加用户查核员的工作量。我们预计管理员控制破坏的能力会受到很大影响。不过,我们可以通过提供等同或更好的反破坏工具来降低这种影响,然而老工具过渡到新工具的则需要一定的过渡期,在此期间管理员的反破坏效率会不及以往。为了给管理员们提供合适的工具,我们必须小心地保留或提供某些当前依赖IP信息运作之功能的替代品:
- 封禁的有效性及预估的附加封禁设置
- 在未注册用户之间展现出相似性或固定模式的方法,例如地理相似性,某些机构(例如某些编辑是来自同一所高中或大学)
- 标记出一组未注册用户的能力,例如在特定IP段内不断改变的IP破坏者
- 限定位置或特定机构的操作(未必是封禁),例如确定编辑是来自开放代理或学校、图书馆一类的开放场所。
根据我们处理临时账户和识别未注册用户的方法,我们或许可以提升与未注册用户的沟通效果。如果我们隐藏IP地址,并保持未登录用户的编辑权限,则对未注册编辑、匿名破坏以及对未注册用户的偏见的相关讨论和担忧不太可能发生重大变化。
用户查核工作流程
我们在设计新的 Special:Investigate 工具的过程中,与多个计划上的用户查核员进行了交流。通过这些交流,以及实际经历过真实的案例后,我们将通用的用户查核工作流程分为五个部分:
- 分类评估:分析案例的查核可行性及复杂性。
- 画像:描述用户的行为模式,以便用来辨别多个账号背后的人。
- 查核:使用用户查核工具检查IP地址和用户代理。
- 判断:将技术信息与画像步骤中建立的行为信息进行比对,确定需要采取何种管理措施。
- 结束:将查核结果在公开及非公开(如有需要)平台报告,并将信息适当存档以便将来使用。
我们也和信任与安全团队成员合作,了解用户查核工具在维基媒体基金会的调查以及需要该团队处理的案件中的作用。
最普遍和常见的痛点都围绕着用户核查工具不直观的信息呈现、每次需要在新标签打开每个链接,这造成了许多困惑,因为标签页的增长很快失去控制。而且,用户查核员面对的信息高度技术性,无法快速理解,很难跟上这些标签页。所有我们询问的人都表示她们使用第三方软件或者纸和笔来记录信息。
我们也对英文维基百科的傀儡调查页面做了基础的分析,获得了关于她们处理的有多少件、多少被拒绝、一个报告通常包含多少傀儡的统计数据。
巡查员对IP地址的使用
之前关于对各维基计划上巡查工作的研究主要集中于巡查员的工作量和工作流。最近,维基百科上的巡查研究重点关注巡查员的工作流和识别对反破坏工作的潜在威胁。早前的研究,例如关于新页面巡查的调查和巡查员工作量研究,主要研究的是英文维基百科,并且只研究巡查员的工作量,更具体而言是机器人巡查工具对巡查员工作量的影响。
我们的研究数据来自以下五个维基:
- 日文维基百科
- 荷兰语维基百科
- 德语维基百科
- 中文维基百科
- 英语维基语录
选择这些维基是由于其对IP编辑的已知态度、每月IP编辑占比和其他特定或不寻常的IP编辑者可能遇到的情况(比如使用修订巡查功能或者对代理的广泛使用)。参与者在互动客栈(或者其他类似场所)召集。我们也尽可能在维基大使馆页面张贴了。然而,尽管我们有对采访本身的翻译支持,我们并没有给发布出的的消息翻译,这可能是低回应率的原因。所有采访通过Zoom进行,笔记员同时参加。
与之前的研究相同,我们没有发现对IP信息系统地或统一地使用。这些信息仅仅在有了一定怀疑之后才会被查询。大多数检查用户可疑活动都是从维基上的公开信息开始的,比如本地编辑、全域编辑或者查询过往封禁记录。
对于IP地址的信息而言,精确性和准确性是相对不重要的。关于一个IP地址在三个不同的IP信息网站上查到三个不同的地理位置的现象,一位与我们面谈过的用户说,地理位置的精确程度并不重要,而一致性则较为重要。换言之,只要一个IP地址一直显示为来自同一个国家,那么该信息正确与否,精确度如何并不重要。这和我们所理解的IP地址信息的使用方式相符合,也就是IP地址作为设备或个人的半唯一信息,普通人是并不容易以此欺骗他人。与用户相关的信息的准确性和精确性并不重要,而该信息与用户关联这件事本身,以及其难以更改的性质才更为重要。
我们的发现指出了关于IP信息工具的几点关键设计方面:
- 提供关于原始数据的简明总结
- 覆盖IP信息的关键方面
- 地理信息(如有可能,可精确到城市或区的级别)
- 注册机构
- 连接类型(高流量,例如数据中心或移动网络,还是低流量,例如家用宽带)
- 是否属于网络代理
从道义上讲,解释这些结论是如何得出的,以及获取与IP地址相关的信息本身固有的不准确性非常重要。虽然这对于巡查员来说并不是一个主要的关注点,但如果我们希望创造一个为管理操作提供理由的工具,我们应该小心地明确工具的局限性。
––
Best regards,
Trust and Safety Product
Please use the project talk page for discussions on the matter. For any issues concerning this release, please don't hesitate to leave a message on the project talk page or contact Szymon Grabarczuk.