Почему так сложно подсчитать ботов в Твиттере

Подсчет ботов в Twitter стал предметом разногласий в продолжающемся приобретении Илоном Маском Twitter за 44 миллиарда долларов. В прошлую пятницу миллиардер твитнул что он «временно приостановил» свою покупку до тех пор, пока компания не предоставит подробности в поддержку своего заявления (как указано в его последняя заявка SEC), что менее 5% «монетизируемых ежедневных активных пользователей» в Твиттере являются спамом или подделкой. Маск также обозначил план самому посчитать ботов, для чего потребовалась выборка 100 @Твиттер подписчиков, чтобы увидеть, сколько было ботов и сказал подход предполагает, что более 20 процентов учетных записей являются поддельными.

Но точно определить процент ботов в Твиттере, по мнению экспертов, намного сложнее.

Найти их не сложно, если знать, где искать. Некоторые аккаунты, в том числе аккаунт Маска, похоже, привлекают многих из них. «Если вы просто упомянете Илона Маска в Твиттере, вы сразу же вовлечетесь в массу криптоботов», — говорит он. Крис Бейлпрофессор социологии Университета Дьюка, изучающий социальные сети.

Twitter — не единственная социальная сеть, которая борется с фейковыми аккаунтами. Фейсбук удаляет миллиарды фиктивных счетов каждый год. Но трудно сказать наверняка, что учетная запись в Твиттере является ботом, поскольку у законных пользователей может быть мало подписчиков, они редко пишут твиты или имеют странные имена пользователей. Еще сложнее оценить количество ботов, работающих на платформе в целом.

Для проверки предложенного Маском методология, В.айкомпания, занимающаяся искусственным интеллектом, которая ранее выявила активность ботов среди учетных записей, распространяющих дезинформацию о мошенничестве с избирателями в США, изучила 100 учетных записей, которые следят за компанией Маска по производству автомобилей. Тесла в Твиттере.

Алгоритмическая проверка учетных записей во вторник показала, что более 20 учетных записей из 100 имеют высокую вероятность того, что они являются ботами. Ручная проверка тех же 100 пришла к выводу, что более половины могут быть ботами. И анализ тем, обсуждаемых этими аккаунтами, не нашел доказательств того, что какой-либо из подозреваемых аккаунтов был рекламным. Но многие из этих учетных записей также исчезли вскоре после этого, что говорит о том, что Twitter довольно быстро ловит ботов. Винс Линчгенеральный директор IV.ai, говорит, что выявление сомнительных учетных записей также по своей сути субъективно и связано с определенной степенью неопределенности.

«Это очень сложная проблема, — говорит Филиппо Менцерпрофессор Индианского университета, руководивший разработкой Алгоритм ботометра, что дало аккаунту Маска относительно высокую оценку бота. Менцер говорит, что просмотр 100 учетных записей не будет репрезентативным для ежедневных активных пользователей Twitter, и разные выборки дадут совершенно разные результаты. «Я хочу надеяться, что это была шутка», — говорит Менцер о методологии.

В последние годы автоматизированные учетные записи стали более изощренными и сложными. Многие поддельные учетные записи частично управляются людьми, а также машинами или просто усиливают сообщения, написанные реальными людьми (то, что Менцер называет «киборг-аккаунтами»). В других учетных записях используются уловки, призванные избежать обнаружения человеком и алгоритмами, такие как быстрое лайкание и антилайк твитов или публикация и удаление твитов. И, конечно же, существует множество автоматических или полуавтоматических учетных записей, таких как те, которыми управляют многие компании, которые на самом деле не вредны.

Алгоритм Botometer использует машинное обучение для оценки широкого спектра общедоступных данных, связанных с учетной записью — не только содержания твитов, но и времени отправки сообщений, подписок на учетную запись и т. д. — чтобы определить вероятность того, что это бот. . Хотя алгоритм является современным, Менцер говорит, что «многие аккаунты теперь попадают в диапазон, где алгоритм в основном не очень точен».

Менцер и другие говорят, что обнаружение ботов — это игра в кошки-мышки. Но они добавляют, что в будущем это может стать значительно сложнее, поскольку спамеры используют алгоритмы, которые лучше способны генерировать убедительный текст и вести связные разговоры.

Сам Twitter лучше оснащен для обнаружения ботов с помощью машинного обучения, потому что у него есть доступ к гораздо большему количеству данных о каждой учетной записи. Это включает в себя полную историю активности пользователя, а также различные IP-адреса и устройства, которые они используют. Но Делип Раоэксперт по машинному обучению, который работал над обнаружением спама в Twitter с 2011 по 2013 год, говорит, что компания может не раскрыть, как это работает, потому что это может привести к раскрытию личных данных или информации, которая может быть использована для управления системой рекомендаций платформы.

На этой неделе Маск также поссорился с Парагом Агравалом, генеральным директором Twitter, из-за того, насколько легко компания может раскрыть свою методологию поиска ботов. В понедельник Агравал опубликовал тему объясняя, насколько сложной остается задача. Он отметил, что частные данные, хранящиеся в Twitter, могут изменить расчеты количества ботов в сервисе. «FirstnameBunchOfNumbers без аватарки и странных твитов может показаться вам ботом или спамом, но за кулисами мы часто видим несколько признаков того, что это реальный человек», — написал он в треде. Агравал также сказал, что Twitter не может раскрывать детали этих оценок.

Если Twitter не сможет или не захочет раскрыть свою методологию, а Маск скажет, что не будет продолжать без подробностей, сделка может остаться в подвешенном состоянии. Конечно, Маск использует проблему как рычаг договориться о цене вниз.

На данный момент Маск, похоже, недоволен попытками Twitter объяснить, почему найти ботов не так просто, как он думает. Он ответил на длинную ветку Агравала в понедельник: простое сообщение это казалось гораздо более подходящим для бота, чем для потенциального покупателя Twitter: один улыбающийся смайлик какашки.

Источник

Почему так сложно подсчитать ботов в Твиттере

Похожая запись

Twisted Cyber Case признал бывшего начальника службы безопасности Uber виновным в сокрытии утечки данных

В поисках жизни на Марсе с шотландского острова

Выдающиеся технические продукты 2022 года