Фактчек

Внутри машины цензуры

Роскомнадзор планирует устроить глобальную слежку за всем русскоязычным интернетом с помощью искусственного интеллекта. Возможно ли это?

Внутри машины цензуры
Иллюстрация: AI-художник Speliy Arbuz с помощью нейросети MidJorney

This story is also available in English here

«Не то что рук, свободного пальца нету» 

12 июля 2022 года Александр Федотов, руководитель научно-технического центра Главного радиочастотного центра (ГРЧЦ) готовился к очередному заседанию Экспертного совета по искусственному интеллекту. ГРЧЦ входит в структуру главного цензурного ведомства России — Роскомнадзора (РКН), и на центре лежит ответственность за мониторинг интернета, подготовку справок и отчетов о найденной «запрещенной информации», а также ее блокировке. 

Долгие годы сотрудникам Роскомнадзора приходится искать «запрещенную информацию» в основном вручную: доступные им программы могут только фильтровать материалы по ключевым словам, а дальше уже человеку нужно перепроверять эти материалы. Число тематик, по которым программы ищут «запрещенку», очень ограничено. Руководству не нравилось, что поиск вручную не достаточно эффективен, а Роскомнадзор всегда на несколько шагов позади и не успевает за скоростью публикаций в интернете. Людей на такой объем работы попросту не хватало. И даже на просьбу начальства покреативить на тему, как можно было бы улучшить работу, один из сотрудников ответил в письме: «Креативить обожаем, но сейчас на это не то что рук, свободного пальца нету».

Поэтому перед ГРЧЦ была поставлена задача — разработать несколько автоматизированных систем, которые бы в постоянном режиме следили за социальными сетями, СМИ, каналами в мессенджерах, имиджбордами и другими источниками информации. Этой задаче и было посвящено заседание, к которому готовился Федотов. Ему нужно было написать свое вступительное слово, а также своему начальнику — Руслану Нестеренко, временно исполняющему обязанности гендиректора ГРЧЦ. 

В приветственном слове Нестеренко рассказал, что годом ранее ГРЧЦ уже провели научно-исследовательские работы для разработки программ на основе машинного обучения и нейронных сетей, чтобы у Роскомнадзора появились инструменты для глобальной слежки не только за отдельными неугодными государству оппозиционерами, активистами, волонтерами и независимыми журналистами, но и практически за любым россиянином, который осмелится высказаться в социальных сетях. 

О содержании речи Нестеренко и внутренней переписке его сотрудников журналистам «Важных историй» стало известно благодаря крупнейшей в истории утечке внутренних документов главного цензора России — Роскомнадзора. «Важные истории» получили эксклюзивный доступ к более чем двум миллионов документов, изображений и внутренних электронных писем. Проект получил название «Документы российской цензуры».

В этом тексте вы узнаете:

  • какие автоматизированные системы разрабатывает Роскомнадзор для глобальной слежки за интернетом и возможно ли их реализовать;
  • какие темы и как будут отслеживать эти системы;
  • что уже есть на вооружении у Роскомнадзора.

В логове Вепря

Получив слово после Руслана Нестеренко, Александр Федотов как руководитель проектов по разработке автоматизированных систем подчеркнул, что «бороться надо не только с текущими проблемами, но и прогнозировать, с чем мы столкнемся через несколько лет». Специально для этой задачи уже год велась работа над проектом, который сотрудники ГРЧЦ назвали «автоматизированной системой комплексного анализа медиаматериалов и поиска точек информационной напряжённости в глобальной сети „Интернет“ „Вепрь“», или коротко — «АС Вепрь».  

Главные обязанности «Вепря: анализировать материалы в соцсетях и СМИ и на основе этого анализа выявлять так называемые точки информационной напряженности (под ними авторы исследования понимают распространение публикаций, которые могут вызвать реакцию в обществе), а также строить прогноз развития ситуации, предугадывать сценарии распространения информации и «превращения их в информационную угрозу», чтобы затем передавать данные в «уполномоченные органы». 

Исследовать возможности для создания такой системы ГРЧЦ поручил команде экспертов, научных сотрудников и инженеров из Московского физико-технического института (МФТИ) под руководством главы кафедры машинного обучения и цифровой гуманитаристики Константина Воронцова. Как следует из подготовленного командой Воронцова отчета, прежде чем приступить к работе, они изучили уже существующие способы цензурирования интернета. Больше всего исследователей заинтересовал опыт Китая, потому что «на сегодняшний день программу интернет-цензуры Китая можно считать самой сложной в мире. В связи с этим страна даже начала экспортировать свои технологии в другие страны, такие как Куба, Зимбабве и Белоруссия». Однако отечественные разработчики пытаются создать не менее сложную систему для тотальной слежки и цензурирования интернета в России. 

По задумке Роскомнадзора, «Вепрь» в первую очередь должен обращать внимание на:

  • протестные настроения и факты дестабилизации российского общества (например, по темам территориальной целостности, межнациональной розни, миграционной политики и др.);
  • негатив в отношении первых лиц государства, государственных структур и межгосударственных организаций;
  • фейки про первых лиц государства, про государство и страну в целом;
  • манипуляции общественным мнением и поляризацию общества (например, по темам внесистемной оппозиции, санкционного давления и др.);
  • подмену и дискредитацию традиционных ценностей. 

Согласно техническим документам «Вепря», необходимость отработки именно этих направлений объясняется «задачей перехватить информационную инициативу. <...> Опыт середины 1980-х годов в СССР (так называемая перестройка) показал, что „спящие“ ТИН (точки информационного напряжения) имеют тенденцию к стремительному росту в случае их активизации и намеренного продвижения. Для реагирования на угрозы необходимо обладать полной информацией по каждой ТИН с целью оперативного (т. е. своевременного) обеспечения процессов принятия решений».

Чтобы отрабатывать указанные темы, «Вепрь» должен знать, кого он защищает (например, Владимира Путина), кто нарушитель (например, независимые журналисты-расследователи), а также какую именно угрозу создает нарушитель (например, рассказывает социально значимую информацию о президенте, которую тот пытается скрыть). Как говорится в технических документах, «при разработке требований необходимо учитывать, что модель угроз и нарушителя подлежит согласованию с ФСБ [Федеральная служба безопасности] и ФСТЭК [Федеральная служба по техническому и экспортному контролю]».

Получив данные о том, кто друг, а кто враг режима, и за какой повесткой нужно следовать, «Вепрь» должен предоставлять некий возможный прогноз, что может последовать за реакцией журналистов и пользователей социальных сетей. Для этого Роскомнадзор хочет с помощью «Вепря» получить «полную картину вовлеченности общества с социальной характеристикой индивидуумов», а также созданные по соцсетям психологические портреты тех, кто распространяет информацию. «В случае, если источником является СМИ, необходимо проверить его финансирование на предмет соответствия деятельности иноагента. Важно отметить, что основная работа по превентивному противодействию должна проводиться с [распространителем] информации, а не её потребителями. Необходимо бороться с источником ТИН», — говорится в технических документах «Вепря». 

Чтобы получать нужный поток информации для анализа, сотрудники ГРЧЦ планируют создать бот-ферму — множество поддельных аккаунтов в соцсетях, через которые можно было бы получать доступ к интересующим закрытым сообществам в социальных сетях. 

«Общая тайна с ощущением причастности к чему-то большому»

По плану «Вепрь» должен заработать уже к концу 2024 года. Однако из-за войны в Украине это может произойти и позже. В одном из отправленных писем руководитель департамента цифровой трансформации Денис Касимов писал, что спрогнозировать точные сроки выполнения сложно из-за «санкционного давления в условиях текущей экономической ситуации». По словам Касимова, не хватает и специалистов для этой задачи. «Эксперты рынка, которые могут выполнить данные работы в настоящее время подключены на выполнение особо важных запросов от правительственных структур РФ в условиях продолжающейся спецоперации ВС РФ на Украине», — сказано в письме сотрудника.

Поддержите независимую журналистику
Ваши донаты помогут нам продолжать расследования

Привлечь хороших айтишников к сотрудничеству с Роскомнадзором сложно было и до войны. В октябре 2020 года сотрудник ГРЧЦ Игорь Иванов попросил своего коллегу Ивана Зуева «попробовать законтачить на дружеских, альтруистских началах» с несколькими экспертами по нейросетям. На это сообщение Зуев прямо ответил, что их, «скорее всего, пошлют», потому что «деньги не выделялись, интересных с точки зрения технологий решений для НИХ у нас точно нет, имидж РКН в среде ИТшников играет против их интереса к нам». 

Заместитель Зуева, Александр Митькин, предложил свои варианты, как можно заманить экспертов на цензурные проекты. Например, пообещать им «участие в проектах государственного масштаба, в т. ч. негласно — „общая тайна“ с ощущением причастности к чему-то большому», «их фамилию в отчетах, положенных на стол руководителю РКН и выше», «лоббирование их проектов в РКН и иных предприятиях, с которыми мы работаем (е-софт, ростелеком, и т. д.)», «шанс зайти в нужный кабинет встретиться в высокими руководителями», «приглашение на круглые столы», а главное — «свою дружбу». 

В МИРе тотального контроля 

«Вепрь» — только часть сложной машины цензуры, которую внедряет Роскомнадзор. 

В общих чертах ее архитектура будет выглядеть так: общий краулер (программа, которая автоматически собирает информацию в интернете. Прим. ред.) выгружает тексты, аудио, изображения и видео из соцсетей, СМИ и поисковой выдачи, а дальше эти файлы поступают в Единый модуль анализа (ЕМА). В нем с помощью нейросетей должна, во-первых, выявляться запрещенная информация, а во-вторых, строиться прогнозы и аналитика (чем будет заниматься «Вепрь»). 

МИР с помощью нейросетей должна искать в текстах запрещенную властями информацию (ЗИ), «Вепрь» — прогнозировать «точки информационной напряженности» (ТИН) и угрозы протестов
МИР с помощью нейросетей должна искать в текстах запрещенную властями информацию (ЗИ), «Вепрь» — прогнозировать «точки информационной напряженности» (ТИН) и угрозы протестов
Скриншот из внутренней презентации ГРЧЦ

Находить запрещенную информацию в текстах должна информационная система мониторинга интернет-ресурсов (МИР) на основе технологий обработки естественного языка (NLP). По плану разработчиков система должна уметь:

  • выявлять имена, названия локаций и организаций; тональность, с которой они упоминаются (негативная, позитивная или нейтральная); 
  • распределять сообщения по сюжетам, темам, рубрикам; 
  • искать зеркала заблокированных сайтов и перепечатки материалов; 
  • отслеживать пути распространения материала от первоисточника; 
  • прогнозировать распространение материала и его трафик;
  • определять факты «манипуляции мнениями» и «стимуляции поляризации мнений»;
  • предсказывать социально-демографические характеристики аудитории публикации — распределение аудитории по полу, возрасту, образованию и уровню дохода. 

Из утечки известно, что в июле 2022 года МИР был интегрирован в Единый модуль анализа (ЕМА). Тогда планировалось, что нейросети смогут находить в текстах запрещенную информацию с «призывами к насильственному свержению власти», «оскорблению президента», «фейками про президента и государство», «пропаганду нетрадиционных сексуальных отношений» уже к 2023 году. 

Летом разработчики активно начали обучать нейросети искать оппозиционный контент. Специалисты отдела мониторинга размечали материалы, например с призывами к «беспорядкам», чтобы в последующем нейросеть сама могла находить подобные сообщения.

Однако в материалах утечки нет информации о том, что нейросети Единого модуля анализа уже находят такие «нарушения». Упоминается только о том, что ЕМА находит запрещенную информацию о наркотиках, суициде, детской порнографии, ИГИЛе и «Правом секторе» в поисковой выдаче «Яндекса».

Какой процент нарушений, найденных автоматически через Единый модуль анализа (нейросети) и по словарям (традиционным методом), подтверждается человеком
Какой процент нарушений, найденных автоматически через Единый модуль анализа (нейросети) и по словарям (традиционным методом), подтверждается человеком
Внутренняя презентация ГРЧЦ

Больше никакие функции, о которых говорится в документации к МИРу — поиск зеркал сайтов, отслеживание путей распространения информации и фактов «манипулирования мнениями» и другие грандиозные планы — не реализованы. 

Распознавание фотографий митингов, фотожаб с президентом, мемов и мужчин с макияжем. Система «Окулус»

На картинках и фото призывы к митингам, оскорбления президента и другие опасные для власти вещи сейчас отслеживаются вручную. Чтобы это исправить, РКН планирует внедрить в Единый модуль анализа распознавание изображений и видео, чтобы находить в них нарушения, метаданные (время, место публикации, автора), идентифицировать людей на фото и видео. За это отвечает система «Окулус», разработкой которой руководит начальник отдела проведения экспериментальных работ НТЦ Константин Зудов. 

Научно-исследовательскую работу, в которой описаны возможности искусственного интеллекта для цензуры изображений и видео, провели сотрудники лаборатории бизнес-решений на основе искусственного интеллекта МФТИ под руководством Дмитрия Величкина.

Система должна анализировать 200 тысяч изображений в сутки. В 2022–2024 году на разработку «Окулуса» планируется потратить 445 миллионов рублей. 

В августе 2022 года ведомство заказало разработку системы российской компании «Эксикьюшн Эр Ди Си» за 58 миллионов рублей. Тогда эксперты говорили, что реализовать систему подобной сложности в столь короткий срок (до декабря 2022) и за эту сумму невозможно. 

Подпишитесь на рассылку «Важных историй»
Мы будем присылать вам только важные репортажи и расследования

Во внутреннем приложении к техническому заданию для «Окулуса» указано, какие нарушения он должен находить на картинках и видео в интернете. Помимо информации о терроризме, наркотиках и способах самоубийства, система должна обнаруживать призывы к митингам и их одобрение, «оправдание, призывы к насильственному свержению власти», а также оскорбление президента («фотожабы, демотиваторы, шаржи, карикатуры, половые сношения»), нецензурная лексика в его отношении и «сравнение президента с негативными персонажами и осуждение деятельности (например, Гитлер, оборотень, диктатор, расист, предатель)». 

В документе отмечено, что пункты, связанные с «оправданием и призывами к насильственному свержению власти», оскорблением президента и обвинением его в экстремизме, были добавлены в документ 17 февраля 2022 года — за неделю до начала полномасштабного вторжения России в Украину.

Также в списке нарушений есть «демонстрация привлекательности образа представителей ЛГБТ-культуры» и «изображения лиц, не соответствующих традиционному образу мужчины и женщины (например, маскулинные женские лица, накрашенные мужчины)». 

Во внутренних презентациях, посвященных «Окулусу», именно распознавание протестной активности указано главной целью его создания.  

Цель создания системы распознавания изображений «Окулус» — находить на фото и видео протесты и идентифицировать их участников
Цель создания системы распознавания изображений «Окулус» — находить на фото и видео протесты и идентифицировать их участников
Внутренняя презентация ГРЧЦ (февраль 2022)

В сентябре 2022 года сотрудница департамента мониторинга прислала коллеге папку «Материалы по Окулусу». В ней лежат примеры фотожаб с Путиным и упоминается, что нужно отслеживать картинки не только с ним, но и со всеми членами правительства. Там же нашелся словарь, с помощью которого необходимо автоматически распознавать, например, обвинение президента в экстремизме и одобрение свержения власти. 

Словарь по теме «обвинение президента в экстремизме»
Словарь по теме «обвинение президента в экстремизме»
Внутренние документы ГРЧЦ

В утечке нет информации о подключении «Окулуса». Судя по переписке работников ГРЧЦ, летом 2022 года сотрудники активно размечали наборы данных для обучения нейросети «Окулуса» и даже дежурили ради этого в праздники. 

А в феврале 2022 руководитель научно-технического центра Александр Федотов и начальник отдела анализа Роман Коросташов демонстрировали макет «Окулуса». По их заявлениям, система распознала, например, порезы на запястьях, запрещенные символы, зацепинг (передвижение на поезде снаружи, цепляясь к вагону за лестницы, подножки и пр. Прим. ред.) и идентифицировала личность человека в маске. Никаких результатов, связанных с идентификацией протестной активности, они не показали. 

По планам ГРЧЦ к 2024 году «Окулус» должен научиться классифицировать действия не только на фото, но и на видео — опять же распознавать митинги, а также действительно опасные для жизни действия: нанесение себе вреда (порезы, удушение), зацепинг, стрельбу в школах или массовые драки. В документах утечки не упоминается об успехах в распознавании видео. 

В планах у РКН есть и «распознавание сложных мультимодальных медиаматериалов» — плакатов, комиксов и мемов, поскольку они могут содержать запрещенную информацию «как прямо, так и косвенно». Но при этом авторы признают, что это сложно, поскольку «автоматизированный мониторинг с использованием ИИ [искусственного интеллекта] требует контекстного понимания интернет-культуры: недавних событий, политических взглядов, культурных убеждений, поскольку мемы часто ссылаются на другие мемы или другие онлайн-события». ГРЧЦ планирует завершить исследования того, как искать нарушения в мемах, только в 2024 году.

«Не менее 100 карточек нарушений в день». Как устроены уже существующие системы мониторинга 

Сейчас сотрудники ГРЧЦ ежедневно мониторят все соцсети, СМИ и сайты как вручную, так и с помощью нескольких программ. Одни отвечают за СМИ, другие за соцсети и сайты. 

Для СМИ используется автоматическая система мониторинга средств массовых коммуникаций (АС МСМК). Список медиа, за которыми ведется наблюдение, поступает из Роскомнадзора. 

Из документов утечки следует, что АС МСМК находит потенциальные нарушения по ключевым словам по разным тематикам (суициды, экстремизм, призывы к митингам, «фейки» про войну в Украине, «иноагенты» и другие). Каждый день система формирует массив карточек с предполагаемыми нарушениями. Оператор рассматривает статьи и комментарии и решает, есть ли в них нарушения. И если есть, то оператор их регистрирует, а если нет, отклоняет карточку. Принятые оператором карточки с подтвержденными нарушениями автоматически уходят сначала в отдел экспертизы ГРЧЦ, затем в Роскомнадзор. 

Анализ по словарям неточен и «требует высоких трудозатрат» из-за того, что операторам приходится вручную перепроверять множество материалов, признают в ГРЧЦ. Из отчетов, которые заполняют новые сотрудники по итогам испытательного срока, можно оценить объем работы. Так, специалистка по анализу информации отчитывалась в июле 2022 года, что оформляла не менее 100 карточек подозрений на нарушения в сутки и вручную вносила не менее 40, а также успевала мониторить интернет «на предмет выявления запрещенных аниме-фильмов». 

С 2022 года в систему автоматически попадает не только текстовый контент, но и транскрипции радио- и телеэфиров. 

Для слежки за соцсетями используется автоматизированная система мониторинга и анализа социальных медиа (АС МАСМ). С 2022 года она объединена с системой «Чистый интернет» (АС ЧИ), с помощью которой цензурируется поисковая выдача «Яндекса». 

Как в случае со СМИ, в соцсетях некоторые нарушения ищут вручную, некоторые автоматически с последующей проверкой человеком. Например, МАСМ автоматически ищет материалы, связанные с «фейками» про войну в Украине и антивоенными митингами. 

Автоматически нарушения мониторятся только в соцсетях «ВКонтакте», «Одноклассниках», «Мой мир», «Ответы Mail.ru», «Живой журнал» и Youtube. Остальные соцсети — «Инстаграм», «Фейсбук», «Твиттер», «Тикток», «Телеграм», Rutube — сотрудники ГРЧЦ мониторят вручную и только планируют ввести автоматизацию. 

Для этого в РКН собирались с июня 2022 заключить контракт с компанией «Крибрум» Натальи Касперской и Игоря Ашманова, которые сотрудничают с российскими властями, поддерживают цензуру и войну в Украине. Подробнее об «Крибрум» и другие компаниях, участвующие в цензуре, — в раскрывающемся тексте.

В итоге все проекты по анализу материалов и СМИ, и соцсетей, и поисковой выдачи, которые разрабатывает Роскомнадзор, планируется объединить в единую систему, в центре которой — Единый модуль анализа материалов на основе искусственного интеллекта. Вот как эта система выглядит на схемах. Скачать и рассмотреть их детально можно здесь и здесь.

Планируемая схема работы систем мониторинга
Планируемая схема работы систем мониторинга
Скриншот из внутренних документов ГРЧЦ

Документы утечки показывают, что планы Роскомнадзора по тотальной цензуре в интернете с помощью искусственного интеллекта еще очень далеки от реализации. Но очевидно, что по мере внедрения новых функций и систем масштабы слежки за теми, кто осмелится высказываться не так, как выгодно российскому режиму, будет расти.

«Отличный повод для распила бюджета»

ГРЧЦ несколько раз в год проводит экспертные советы по искусственному интеллекту. На них собираются и выступают с докладами представители индустрии, ученые и чиновники. Мы поговорили на условиях анонимности с одним из участников таких советов, экспертом в области машинного обучения. 

Он рассказал, что эти советы можно считать «чем-то образовательно-просветительским для внутренней аудитории», где эксперты отрасли делают доклады о технологиях и разработках, представители госструктур «рассказывают, какие они крутые, упоминая самые модные слова сезона [вроде „искусственного интеллекта“, „нейросетей“, „компьютерного зрения“ и других], а руководство вдохновляется и дает бюджет». 

По мнению нашего собеседника, мечты ГРЧЦ по внедрению тотальной цензуры на основе искусственного интеллекта в теории реализуемы, но это неоправданно дорого. «Для этого нужно выстроить несколько команд: сбора и разметки данных, команды мониторинга, инженерии, менеджеров и многих других. И конечно, обеспечить это собственным датацентром с новейшими видеокартами (дорогое удовольствие). Отличный повод для распила бюджета. Такой подход не выдерживает конкуренции с альтернативой: посадить за гроши несколько сотен модераторов, чтобы они вручную мониторили социальные сети».

Например, одна только задача поиска оскорбляющих Путина картинок потребует больших ресурсов. «Разработать внутри „ВКонтакте“ простой классификатор, определяющий, что на картинке есть президент, и у картинки контекст мема (с подписями и прочим), легко, причем внутренними силами „ВКонтакте“, — продолжает эксперт. — Но чтобы это постоянно работало на уровне всей социальной сети, нужно отвлечь на эту задачу заметную часть команды „ВКонтакте“. А сделать из этого промышленное решение, работающее с большим перечнем социальных сетей, мессенджеров и сайтов — скорее, повод выбить еще больший бюджет. Бюджет, который пойдет, куда получится».

Особенный скепсис вызывает проект «Вепрь», который должен прогнозировать будущие «информационные угрозы» и протестные настроения: «Я бы не стал сильно переживать, что такая система будет реализована. В нашей индустрии есть такие низко висящие фрукты, как оптимизация рекламы в интернете. Многомиллионные прибыли сулят тем, кто сможет хоть немного оптимизировать такую приземленную задачу. А они хотят прогноз развития социальной ситуации на основе постов в социальной сети. Кажется, кидать монетку будет эффективнее, чем прогнозы такой системы».

Роскомнадзор, ГРЧЦ и Brand Analytics не ответили на запрос «Важных историй» и Süddeutsche Zeitung с просьбой прокомментировать материалы утечки.

В других текстах «Важных историй» об этой утечке вы можете узнать:

Как Роскомнадзор тайно следит за негативными публикациями о российской власти в интернете — отчеты затем отправляются силовикам. Чем это грозит лично вам?

Кто и почему попал в прицел Роскомнадзора: потенциальные иноагенты и лидеры общественного мнения, СМИ, IT-гиганты, мессенджеры и близкие к власти люди. Проверьте, не следил ли Роскомнадзор и за вами?