IP-редагування: Поліпшення приватності та зменшення зловживань/Покращення інструментів
Передумови
Наша мета для цього проєкту має два боки:
- По-перше, захистити наші проєкти від вандалізму, переслідувачів, ляльок, довготривалих вандалів, дезінформаційних кампаній та іншої шкідницької поведінки.
- По-друге, захистити наших незареєстрованих редакторів від кари, переслідування та зловживань, припинивши публікуювати їхні IP-адреси.
На основі наших дискусій на сторінці обговорення проєкту та в інших місця, ми почули про такі способи використання IP-адрес у наших проєктах:
- IP-адреси помічні при пошуку редакторів «поблизу» — тих, хто редагує з того ж або сусіднього IP-діапазону
- Вони використовуються для перегляду історії редагувань незареєстрованого редактора
- IP-адреси корисні при пошуку кросвікі внеску
- Вони корисні для визначення, чи хтось не намагається редагувати з VPN або вузла Tor
- Вони корисні, щоб дивитися розташування редактора, включно з фактоїдами на зразок їхнього університету / компанії / урядової установи
- IP-адреси використовуються, щоб побачити, чи IP-адреса пов'язана з відомим довготерміновим зловживачем
- Інколи вони використовуються, щоб налаштувати конкретні фільтри зловживань для відхилення специфічних видів спаму
- IP-адреси важливі для блокування діапазонів
Частина цих сценаріїв запускається, коли ми намагаємося побачити, чи два облікові записи користувачів використовуються тією самою людиною, що інколи називають виявленням ляльок. Використання IP-адрес для виконання пошуку ляльок — недосконалий процес. IP-адреси стають дедалі динамічнішими, зі зростанням кількості людей та пристроїв, що перебувають онлайн. Адреси IPv6 складні і їхні діапазони складно визначити. Для більшості новачків IP-адреси видаються набором позірно випадкових чисел, які не мають сенсу, їх важко запам'ятати і ними складно користуватися. Новим користувачам займає достатньо часу й зусиль, щоб звикнути до використання IP-адрес для потреб блокування й фільтрування.
Наша ціль — менше покладатися на IP-адреси через впровадження нових інструментів, які використовують різноманітні інформаційні джерела для пошуку подібностей між користувачами. Щоб кінець кінцем замаскувати IP-адреси, не вплинувши негативно на наші проєкти, нам треба зробити видимі IP-адреси непотрібними. Це також можливість розробити потужніші інструменти, що допоможуть ідентифікувати шкідників.
Пропозиції нових інструментів
Ми хочемо спростити користувачам отримання інформації, яка їм треба з IP-адрес для робіння своєї роботи. Щоб це зробити, є три нові інструменти/функції, про які ми думаємо.
Функція IP-інфо
Ця функція наразі в процесі розробки. Оновлення про хід роботи будуть на цій сторінці: IP Info Feature.
Є деяка критичноважлива інформація, яку надають IP-адреси, така як розташування, організація, ймовірність того, що це вузол Tor/VPN, rDNS, діапазон тощо. Наразі якщо редактор хоче побачити цю інформацію про IP-адресу, то їм треба скористатися зовнішнім інструментом чи пошуковиком для її отримання. Ми можемо спростити цей процес, розкривши цю інформацію довіреним користувачам у вікі. У майбутньому, де IP-адреси замасковані, ця інформація продовжуватиме бути відкритою для маскованих імен користувачів.
Користувачів, з якими ми наразі поспілкувалися, турбує зокрема той факт, що не завжди легко визначити, чи IP походить з VPN або входить до чорного списку. Чорні списки тендітні: деякі не надто оновлені, інші можуть бути хибними. Нам цікаво почути від вас, у яких сценаріях вам буде корисно знати, чи IP походить з VPN або належить до чорного списку, і як ви шукаєте цю інформацію зараз.
Переваги:
- Це усуне користувачам необхідність копіювати-вставляти IP-адреси у зовнішні інструменти, щоб отримати бажану інформацію.
- Ми очікуємо, що це також значно зменшить час, витрачений на отримання даних.
- У довготерміновій перспективі це допоможе менше покладатися на IP-адреси, які важко розуміти.
Ризики:
- Залежно від впровадження, ми ризикуємо розкривати інформацію про IP для ширшої групи людей, ніж просто обмежена когорта користувачів, які зараз в курсі того, як працюють IP-адреси.
- Залежно від того, який базовий сервіс ми використаємо для отримання даних про IP, може бути, що ми не зможемо показувати перекладену інформацію, і вона натомість буде англійською.
- Існує ризик, що користувачів можуть хибно припустити, що організація / школа стоїть за зробленим редагуванням, тоді як йдеться про окрему особу, яка його зробила.
2. Пошук подібних редакторів
Задля виявлення ляльок (і незареєстрованих користувачів), редакторам треба докласти значних зусиль, щоб визначити, чи два користувачі є тією ж людиною. Це включає порівняння внеску користувачів, їхнього розташування, характерних рис редагування та багато іншого. Ціль цієї функції буде в тому, щоб спростити цей процес й автоматизувати деякі з цих порівнянь, які можна зробити без ручної роботи. Це можна було б зробити з допомогою моделі машинного навчання, яка може визначати облікові записи, що демонструють подібну поведінку. Модель буде робити припущення на основі вхідних редагувань, які будуть передаватися чек'юзерами (і потенційно, іншим довіреним групам), які далі зможуть перевіряти цю інформацію і вживати відповідних заходів.
Ми потенційно могли б також знайти спосіб порівнювати двох і більше незареєстрованих користувачів для пошуку подібностей, у тому числі, чи вони редагують із сусідніх IP чи IP-діапазонів. Інша можливість тут — дозволити інструментові автоматизувати деякі механізми блокування, які ми використовуємо, як-то автоматичне визначення діапазону і відповідне пропонування діапазонів для блокування.
Такий інструмент володіє багатьма можливостями: від визначення одиничних шкідників до розкриття складних угрупувань ляльок. Але також є ризик розкриття прийнятних лялькових обліковок, які б хотіли зберегти свою ідентиичність в секреті. Тому це каверзний проєкт. Ми хочемо почути від вас, хто саме мав би користуватися цим інструментом і як ми можемо пом'якшити ризики.
З допомогою спільноти така функція може розвинутися до порівняння рис, які зараз використовують редактори, коли порівнюють редакторів. Одна з можливостей також — це натренувати робити це модель машинного навчання (подібно до того, як ORES виявляє проблемні редагування).
Є один варіант, як така функція може виглядати на практиці:
-
Пошук подібних редакторів з IP
-
Пошук подібних редакторів з маскованими IP
Переваги:
- Такий інструмент значно зменшить час і зусилля наших функціонерів на пошук недоброзичливих редакторів у наших проєктах.
- Цей інструмент також можна було б використовувати для пошуку перетину діапазонів для відомих проблемних користувачів, щоб полегшити блокування IP-діапазонів.
Ризики:
- Якщо ми використовуємо машинне навчання для виявлення ляльок, це треба дуже уважно моніторити і перевіряти на наявність упереджень у навчальних даних. Треба застерегти від надмірного покладання на індекс подібності. Людська перевірка обов'язково має бути частиною процесу.
- Легкий доступ до інформації типу розташування інколи може полегшити, а не ускладнити, пошук ідентифіковної інформації про когось.
3. База даних для документування довготермінових зловживачів
Багаторічних вандалів занотовують у вікі вручну, якщо взагалі. Це включає розписування профілю редакторської поведінки, статей, які вони редагують, індикаторів, як визначити їхні ляльки, перелічування усіх IP-адрес, використовуваних ними, та інше. Зважаючи на численні сторінки IP-адрес, які використовують такі вандали, це дедалі більш монументальне завдання — шукати в них щось і знаходити потрібну інформацію, коли треба, якщо вона є. Кращим способом це робити було б створити базу даних, яка документує багаторічних вандалів.
Така система фасилітувала би кросвікі пошук задокументованих вандалів, які відповідають заданим критеріям. Зрештою, це можна було б використовувати для автоматичного відмічання користувачів, коли їхні IP чи редакторська поведінка співпадають з кимось із багаторічних зловживачів. Залишається відкритим питання про те, чи це має бути публічно, чи приватно, чи якось посередині. Можна налаштувати дозволи різних рівнів для читання й внесення даних у таку базу даних. Ми хочемо почути від вас, що, на вашу думку, працюватиме найкраще і чому.
Ціна:
- Така база даних потребуватиме членів спільноти, які її наповнять наразі відомими довготерміновими вандалами. Для деяких вікі це може бути значний обсяг роботи.
Переваги:
- Кросвікі пошук задокументованих довготермінових вандалів мав би гігантську перевагу над поточною системою, зменшивши кількість роботи для патрульних.
- Автоматичне позначання потенційно проблематичних редакторів на основі відомих паттернів та IP може знадобитися у багатьох сценаріях. Це також дозволить адмінам робити присуди й вчиняти дії на основі цих пропонованих позначень.
Ризики:
- У процесі розробки такої системи нам треба буде добре подумати про те, хто буде мати доступ до даних бази і як ми можемо її убезпечити.
Ці ідеї ще на дуже ранній стадії. Ми просимо вашої допомогти з мозковим штурмом навколо цих ідей. Якими є переваги, ризики, ціна, які ми могли опустити? Як ми можемо покращити ці ідеї? Будемо раді, якщо ви залишите свої міркування на
сторінці обговорення.
Наявні інструменти, якими користуються редактори
Інструменти у вікі
- CheckUser: інструмент дозволяє користувачам з правом checkuser отримати доступ до конфіденційних даних про користувача, IP-адресу чи діапазон CIDR. До цих даних належать IP-адреси, використовувані користувачем, усі користувачі, які редагували зі IP-адреси чи діапазону, усі редагування з IP-адреси чи діапазону, рядки юзерагента та шапки X-Forwarded-For. Найчастіше використовується для виявлення ляльок.
- Дозволяє чек'юзерам мати доступ до переліку користувачів, які мають понад 50 облікових записів на одну електронну адресу. Існування таких користувачів було підтверджене у phab:T230436 (хоча саме завдання нерелевантне). Хоча це не впливає на IP-приватність прямо, це може злегка пом'якшити ефект серйознішого управління зловживаннями.
Інструменти в окремих проєктах (включно з ботам і скриптами)
Будь ласка, вказуйте, у якому проєкті інструмент використовується, що він робить, і за можливості, додайте посилання
Зовнішні інструменти
Інструменти Кузні інструментів
- Перетин внеску
- WHOIS та зворотня DNS
- Аналізатор взаємодії редакторів – аналізує взаємодію між двома чи трьома користувачами: активність на тих самих сторінках, у той же час тощо
- IPCheck: дозволяє подивитися інформацію про IP-адресу, у тому числі, чи це проксі, вузол тора чи потенційна VPN
- GUC – глобальний внесок будь-якого користувача
- Зворотна DNS для діапазону
Інструменти третіх сторін
- Основні блокування IP-адрес: http://www.nirsoft.net/countryip/cz.html
- Пошук рядків юзерагента: http://www.useragentstring.com/
- Nmap
- Spamhaus lists і XBL (Exploits blacklist)
- Talos – Репутація IP (в основному для поштового спаму)