IP Editing: Privacy Enhancement and Abuse Mitigation/Research and tools/uk
Дані про португальську Вікіпедію, де вимкнули редагування з IP
Показники португальської Вікіпедії після введення обмежень
оновлення 30 серпня 2021
Привіт. Це коротке оновлення про статистику португальської Вікіпедії з часу обов'язковості реєстрації для редагування. У нас є сторінка із всеосяжним звітом про вплив. Цей звіт містить метрики зібрані як зі статистичних даних, так і з опитування, проведеного серед активних дописувачів португальської Вікіпедії.
Загалом звіт представляє зміну у позитивному світлі. Ми не побачили жодних значних негативних зрушень за час, поки збиралися ці дані. Зважаючи на це, ми тепер заохочені провести експеримент у ще двох проєктах і подивитися, чи не матимемо там подібний ефект. Усі проєкти унікальні кожен у свій спосіб, і що справедливо для португальської Вікіпедії, може не бути таким для іншого проєкту. Ми хочемо провести обмежений в часі експеримент у двох проєктах, де реєстрація буде обов'язковою для редагування. Ми очікуємо, що нам треба буде близько 8 місяців для збору достатнього обсягу даних, щоб побачити значні зміни. Після цього періоду ми повернемося до не-вимагання реєстрації для редагування, поки аналізуватимемо дані. Коли дані буде опубліковано, спільнота зможе вирішити для себе, чи вона хоче продовжувати забороняти нереєстровані редагування у проєкті.
Ми назвали це експериментом обов'язкового логіну. На тій сторінці знайдете детальнішу інформацію, а також часову шкалу проєкту. Будь ласка, скористайтеся цією сторінкою та її сторінкою обговорення, щоб продовжити про це дискусію.
Обмеження IP-редагувань у португальській Вікіпедії
Минулого року португальська Вікіпедія заборонила редагування незареєстрованим користувачам. Упродовж останніх кількох місяців наша команда збирала дані про наслідки цього кроку на загальне здоров'я проєкту. Ми також поговорили з кількома членами спільноти про їхній досвід. Ми працюємо над фінальними деталями, щоб могти скомпілювати усі дані в точну картину стану проєкту. Ми сподіваємося, що в близькому майбутньому вже матимемо новини про це.
Інструменти
Розробка інструментів
Як ви вже можете знати, ми працюємо над розробкою деяких нових інструментів, частково для пом'якшення впливу IP-маскування, але також для того, щоб усі отримали кращі антивандальні інструменти. Це секрет, що стан інструментів модерування у наших проєктах не дає спільнотам засобів, на які вони заслуговують. Масштаб для покращень дуже широкий. Ми хочемо розробити інструменти, які полегшують борцям з вандалізмом ефективну роботу. Ми також хочемо усунути бар'єр для входу у таку роль у спільноті для технічно непідкованих дописувачів.
Ми говорили про ідеї для цих інструментів раніше і я коротко видам новини про них нижче. Зверніть увагу, що робота над цими інструментами сповільнилася в останні місяці, поки наша команда працює над капітальним ремонтом SecurePoll, щоб він відповідав потребам майбутніх виборів ради ФВМ.
Функція IP-інфо
Ми розробляємо інструмент, який показуватиме важливу інформацію про IP-адресу, яка зазвичай потрібна при розслідуваннях. В отриманні цієї інформації патрульні, адміни й чек'юзери зазвичай покладаються на зовнішні сайти. Маємо надію полегшити для них цей процес, інтегрувавши інформацію від надійних IP-постачальників на наших вебсайтах. Нещодавно ми розробили прототип і провели серію тестувань користувачами в пошуках підтвердження нашого підходу. Ми виявили, що більшість редакторів в інтерв'ю вважають інструмент корисним і виявляють бажання користуватися ним у майбутньому. Хочу звернути вашу увагу, що на сторінці проєкту є оновлення. Ключові запитання, які ми б хотіли отримати ваші відповіді на сторінці обговорення проєкту:
- Якого роду інформацію ви шукаєте, розслідуючи IP? На яку сторінку ви найімовірніше підете в цих пошуках?
- Якого роду IP-інформація для вас найбільш корисна?
- Поширення якого роду IP-інформації, на вашу думку, було б найбільш ризиковим для наших анонімних редакторів?
Функція співвіднесення редакторів
У попередніх розмовах цей проєкт також називали «Редактори поблизу» та «Виявлення ляльок». Ми намагаємося знайти підхоже ім'я для нього, яке б розуміли навіть ті, хто не знайомий зі словом «лялькарство».
Цей проєкт перебуває на ранніх етапах. Команда досліджень у Фонді Вікімедіа має проєкт, що може допомогти при визначенні, коли два редактори проявляють подібну поведінку редагування. Це допоможе пов'язувати різних незареєстрованих редакторів. коли вони редагують під різними автозгенерованими іменами облікових записів. Ми отримали значну підтримку для цього проєкту, коли почали говорити про нього рік тому. Ми також чули про ризики розробки такої функції. Ми плануємо розробити прототип найближчим часом і поділитися ним зі спільнотою. У цього проєкту є дещо бідна сторінка. Ми сподіваємося невдовзі її оновити. Ваші думки про цей проєкт будемо раді бачити на сторінці обговорення проєкту.
Як згадувалося раніше, наша найперша мета — надати нашим спільнотам кращі антивандальні інструменти, які забезпечать нашим борцям з вандалізмом кращий досвід модерування, у той же час зробивши точну IP-адресу менш цінною для них. Іншим важливим висновком з цього є те, що IP-адреси важко розуміти і що вони справді дуже корисні лише для технічно підкованих користувачів. Це створює бар'єр для нових користувачів, які не мають технічних навичок, але могли б стати функціонерами, бо щоб працювати з IP-адресами, їм треба багато чого навчитися. Ми сподіваємося вийти на такий рівень, де будуть інструменти модерування, які будь-хто зможе використовувати без значних попередніх знань.
Ми вирішили зосередитися перш за все на тому, щоб зробити інструмент чек'юзерів більш гнучким, потужним і легким для використання. Це важливий інструмент, який забезпечує потребу виявляти і блокувати шкідників (особливо багаторічних) у багатьох наших проєктах. Інструмент чек'юзерів не надто добре підтримувався упродовж років і як наслідок, він досить застарів і йому бракує потрібних функцій.
Ми також очікуємо зростання кількості користувачів, які забажають бути чек'юзерами наших проєктів, після впровадження IP-маскування. Це тільки цементує потребу у кращих, легших процесах чек'юзерства для наших користувачів. Пам'ятаючи про це, Команда інструментів проти переслідування провела минулий рік за роботою над покращенням інструменту чек'юзерів, роблячи його більш ефективним і дружнім. Ця робота також брала до увагу багато визначних запитів на функції від спільноти. Упродовж цього проєкту ми постійно консультувалися з чек'юзерами і стюардами і намагалися якнайкраще задовольнити їхні очікування. Нова функція має прийти у всі проєкти у жовтні 2020.
Наступна функція, над якою ми працюємо, це IP-інфо. Ми прийняли рішення про цей проєкт після кількох консультацій у шести вікі, які допомогли нам звузити ситуації використання IP-адрес у наших проєктах. Досить рано стало очевидно, що IP-адреси надають деяку критичну інформацію, яка потрібна патрульним, щоб ефективно виконувати свої функції. Таким чином, мета IP-інфо — швидко й легко видавати важливу інформацію про IP-адресу. IP-адреси надають важливу інформацію, таку як розташування, організація, ймовірність того, що це вузол Tor/VPN, rDNS, заборонений діапазон, тощо. Завдяки швидкому й легкому показуванню цієї інформації без потреби використовувати зовнішні інструменти, якими не всі здатні скористатися, ми сподіваємося полегшити патрульним їхню роботу. Надана інформація достатньо високорівненва, щоб ми могли показувати її без небезпеки для анонімного користувача. У той же час це достатня інформація для патрульних, щоб могти якісно оцінювати IP-адресу.
Після IP-інфо ми зосередимося на функції пошуку подібних редакторів. Ми скористаємося моделлю машинного навчання, розробленою у співпраці з чек'юзерами та натренованою на історичних даних чек'юзингу задля порівняння поведінки користувачів та відмічання випадків, коли двоє чи більше користувачів поводяться дуже подібно. Ця модель бере до уваги сторінки, на яких користувачі активні, їхній стиль написання, час редагування тощо, щоб видавати припущення про те, наскільки ці користувачі подібні. Ми докладаємо зусиль, щоб модель була якомога точнішою.
Коли вона буде готовою, буде широка сфера застосування такої моделі. Першим кроком ми будемо запускати її для допомоги чек'юзерам у визначенні ляльок без потреби виконувати багато ручної роботи. У майбутньому ми подумаємо над тим, як допустити до цього інструменту більше людей і застосувати його для виявлення шкідницьких лялькарських угрупувань і кампаній з дезінформації.
Ви можете почитати докладніше і залишити коментарі на наші сторінці проєкту для інструментів.
Дослідження
Звіт про вплив IP-маскування
IP-адреси є цінними як напівнадійні часкові ідентифікатор, якими не так легко маніпулювати відповідному користувачу. Залежно від провайдера та налаштувань пристрою, інформація про IP-адресу не завжди буде точною чи правильною, і щоб витиснути з IP-адреси найбільше, треба мати глибокі технічні знання й навички, хоча адміністраторам і не обов'язково демонструвати ці навички, щоб отримати доступ. Ця технічна інформація використовується для підтримки додаткової інформації (яку називають «поведінковим знанням»), де можливо, й інформація, взята з IP-адрес, значно впливає на те, які адміністративні дії буде виконано.
З соціального боку, питання того, чи треба дозволяти редагувати незареєстрованим користувачам, є темою обширних дебатів. Станом на зараз, вони схилилися до дозволяння незареєстрованим користувачам редагувати. Обговорення загалом полягає в боротьбі різних аспектів: відповісти бажанню завадити вандалізму, з одного боку, і зберегти можливість псевдоанонімного редагування і низького бар'єру для початку редагування. Існує дещо викривлене сприйняття незареєстрованих користувачів, бо вони асоціюються з вандалізмом, що також проявляється і в алгоритмічному упередженні таких інструментів як ORES. Окрім цього є і великі проблеми комунікації при намаганнях поговорити з незареєстрованими користувачами, значною мірою через відсутність сповіщень і тому що немає гарантії, що та сама людина читатиме повідомлення, надіслані на певну сторінку обговорення IP.
Якщо дивитися на потенційний вплив IP-маскування, то воно значно вплине на рутину адміністраторів і в короткостроковій перспективні підвищить навантаження на чек'юзерів. Якщо чи коли IP-адреси буде замасковано, варто очікувати, що здатність наших адміністраторів боротися з вандалізмом значно послабиться. Це можна пом'якшити, надавши інструменти з не меншим чи й більшим функціоналом, але нам треба очікувати перехідного періоду, коли ефективність адміністраторів буде менша. Щоб надати гарну підтримку роботи наш адміністраторів інструментами, ми мусимо бути обережними і зберегти або надати альтернативи до таких функцій, які наразі виконує інформація щодо IP:
- Ефективність блокування й оцінка побічної шкоди
- Певний спосіб виявлення подібностей чи паттернів серед незареєстрованих користувачів, таких як географічна подібність, певні інституції (напр., якщо редагування походять зі школи чи університету)
- Можливість таргетувати окремі групи незареєстрованих користувачів, як-то вандали, які змінюють IP в межах певного діапазону
- Дії за розташуванням чи установою (не обов'язково блокування); наприклад, можливість визначити, чи редагування зроблені з відкритого проксі, чи з публічної локації, як-то школа чи громадська бібліотека.
Залежно від того, як ми роздаємо тимчасові обліковки чи ідентифікатори незареєстрованим користувачам, ми можемо покращити комунікацію з незареєстрованими користувачами. Дискусії й занепокоєння щодо незареєстрованого редагування, анонімного вандалізму й упередженості щодо незареєстрованих користувачів навряд чи зміняться, якщо ми почнемо маскувати IP, якщо ми збережемо можливість редагувати проєкти для користувачів, що не увійшли в систему.
Чек'юзерська робота
Упродовж нашого процесу розробки нового інструменту Special:Investigate ми проводили інтерв'ю з чек'юзерами різних проєктів. На основі інтерв'ю та проходження реальних випадків ми розбили загальний хід роботи чек'юзера на п'ять етапів:
- Сортування: оцінка випадків за здійсненністю і важкістю.
- Профілювання: замальовка схеми поведінки, яка ідентифікує користувача за багатьома обліковками.
- Перевірка: огляд IP та юзерагентів з допомогою інструменту чек'юзера.
- Вердикт: співвіднесення технічної інформації з поведінковою інформацією, виявленою на етапі профілювання, з метою винесення остаточного рішення про те, яку адміністративну дію виконати.
- Закриття: звітування про результат розслідування на публічних і приватних платформах, де це потрібно, і відповідне архівування інформації для майбутнього використання.
Ми також працювали з працівниками команди Trust and Safety, щоб скласти уявлення про те, яким фактором інструмент чек'юзингу є у розслідуваннях Фонду Вікімедіа та випадках, які доходять до T&S.
Усі найпоширеніші і найочевидніші больові точки стосувалися неінтуїтивної подачі інформації в інструменті чек'юзера і необхідності відкривати кожнісіньке посилання у новій вкладці. Це спричинило масову спантеличеність, бо розмноження вкладок швидко вийшло з-під контролю. Що ще гірше, інформація, яку виводить чек'юзер, дуже технічна й не надто легка для розуміння з першого погляду, тож вслідкувати за нею складно. Усі опитані сказали, що вони користувалися окремими програмами чи ручкою-папірцем, щоб встежити за отриманою інформацією.
Ми також провели базовий аналіз сторінки розслідувань лялькарства в англійській Вікіпедії для узагальнення показників кількості випадків, які обробляються, скільки з них відхиляють, і як багато ляльок містить конкретний звіт.
Використання IP-адрес патрульними
Попередні дослідження патрулювання у наших проєктах загалом зосереджувалися на навантаженні або ході роботи патрульних. Найсвіжіше дослідження, Патрулювання у Вікіпедії, сфокусоване на ході роботи патрульних і визначенні потенційних загроз поточним практикам боротьби з вандалізмом. Старіші дослідження, такі як Опитування щодо патрулювання нових сторінок та Дослідження навантаженості патрульних, розглядали англійську Вікіпедію. Вони також дивилися лише на роботу патрульних, зокрема те, як боти-патрульні впливають на навантаженість патрульних.
Наше дослідження намагалося залучити людей з п'яти цільових вікі, якими були:
- Японська Вікіпедія
- Нідерландська Вікіпедія
- Німецька Вікіпедія
- Китайська Вікіпедія
- Англійські Вікіцитати
Їх вибрано за відоме ставлення до редагувань з IP, щомісячну частку редагувань, зроблених IP, та всілякими іншими унікальними чи незвичними обставинами, які постають перед IP-редакторами (зокрема використання функції Pending Changes та широке поширення проксі). Учасників шукали через відкриті оголошення у кнайпах чи їх місцевих відповідниках. Де можливо, ми також писали на сторінках Вікіпосольства. На жаль, хоч у нас і була перекладацька підтримка на самих інтерв'ю, в нас не було такої підтримки для повідомлень, що могло позначитися на низькому рівні відповідей. Усі інтерв'ю проводилися в Zoom, окрема людина вела нотатки.
Подібно до результатів попередніх досліджень, ми не виявили систематичного чи уніфікованого використання інформації про IP. Окрім цього, таку інформацію дивились лише після досягнення певного порогу підозр. Більшість подальших розслідувань підозрілої активності користувачів починається з публічно доступної у вікі інформації, такої як попередні локальні редагування, глобальний внесок або попередні бани.
Точність і правильність були менш важливими якостями інформації про IP: після того, як вибраний сайт з IP-інформацією видав три різні результати географічного розташування для тієї самої IP-адреси, один з наших опитуваних зауважив, що точність розташування не така важлива, як послідовність. Тобто якщо тільки IP-адреса послідовно показується так така, що походить з однієї країни, то має менше значення, чи вона правильна або точна. Це відповідає нашому розумінню того, як використовується інформація про IP: як напів унікальна частина інформації, пов'язана з єдиним пристроєм чи людиною, яку відносно важко підмінити середньостатистичній людині. Правильність чи точність інформації, пов'язаної з користувачем, важлива менше, ніж факт того, що вона пов'язана і її складно змінити.
Наші знахідки підкреслюють кілька ключових аспектів дизайну для інструменту IP-інфо:
- З одного погляду надавати висновки з сирих даних
- Покривати ключові аспекти IP-інформації:
- Геолокація (до рівня міста чи району, де можливо)
- Зареєстрована організація
- Тип з'єднання (з високим трафіком, як-то дата-центр або мобільна мережа, чи з низьким трафіком, як то житлове широкосмугове з'єднання)
- Статус проксі — так / ні
З етичної точки зору, важливо буде могти пояснити, як досягаються будь-які висновки, і які неточності невідворотно будуть при витягненні IP-інформації. Хоча це не було головною засторогою для патрульних, з якими ми говорили, та якщо ми створюватимемо інструмент, який використовуватиметься для обґрунтування адміністративних дій, нам треба бути обачними й чітко вказати, які є обмеження у наших інструментів.
––
З найкращими побажаннями,
команда «Продукти довіри і безпеки»
Для дискусій на тему скористайтесь, будь ласка, сторінкою обговорення проєкту. Якщо до цього релізу є питання, не вагайтеся залишати повідомлення на сторінці обговорення проєкту або писати Шимонові Грабарчуку.