Дипфейк в KYC: детекция подмены лица и защита видеоверификации

Генеративные модели научились подменять лицо в видеопотоке за миллисекунды — этого достаточно, чтобы пройти проверку личности под чужим именем. Инъекции через виртуальную камеру, дипфейки в реальном времени на видеозвонке с оператором, обход пассивной проверки витальности синтетическим кадром — каждый из этих векторов зафиксирован в реальных инцидентах и задокументирован в отраслевых отчётах. В статье разобраны конкретные сценарии атак на KYC-видеоверификацию, методы детекции подмены лица на уровне кадра, динамики и кодека, архитектура многослойной защиты и процедуры реагирования — от ступенчатой эскалации до сохранения доказательной базы и мониторинга новых техник генерации.

Сценарии дипфейк-атак на KYC-видеоверификацию

Атакующие адаптируют дипфейк-инструменты под конкретные точки KYC-процесса: видеоселфи, прямой захват камеры, звонок с оператором, пассивную проверку витальности. Каждый сценарий эксплуатирует свою уязвимость и требует отдельных мер противодействия.

Подмена лица в видеоселфи до отправки

Самый доступный по порогу входа сценарий: злоумышленник готовит видеоролик заранее и подаёт его в KYC-поток вместо живой записи. Подготовка занимает от нескольких минут до получаса:

  1. Исходное изображение лица берётся из открытых источников — соцсетей, утёкших баз данных, даркнет-маркетплейсов, где продаются фотографии и короткие видео реальных людей. Альтернатива — генерация полностью синтетического лица через модели класса StyleGAN; стоимость на коммерческих сервисах составляет $5–15 за одну «личность».
  2. С помощью face-swap-инструментов (открытых или коммерческих) создаётся видео: лицо «жертвы» или синтетическое лицо накладывается на запись реального человека, который выполняет нужные действия — повороты головы, моргание, улыбку.
  3. Готовое видео загружается в приложение KYC-провайдера напрямую через интерфейс загрузки файлов или путём подмены камеры на программном уровне.

Сценарий направлен на системы, принимающие загруженные файлы без контроля источника захвата. Если KYC-платформа не проверяет, что видео записано камерой устройства в реальном времени, а не воспроизведено из файла, атака проходит с высокой вероятностью. По данным Trend Micro, промышленные eKYC-провайдеры с подобной архитектурой уязвимы к face-swap-атакам, выполненным стандартными общедоступными инструментами.

Подмена лица в реальном времени через подмену источника камеры

Image

Более технически зрелый вектор — инъекция видеопотока (injection attack). Злоумышленник не показывает лицо в камеру, а подменяет сам источник видеосигнала на программном или аппаратном уровне. Система «видит» поток, который выглядит как захват с настоящей камеры, но транслируется с компьютера.

Типовая цепочка атаки:

— На десктопе запускается приложение для генерации дипфейка в реальном времени (класса DeepFaceLive). Оператор сидит перед камерой ПК, а алгоритм заменяет его лицо целевым — совпадающим с фотографией из документа.

— Сгенерированный поток направляется через программную виртуальную камеру (OBS Virtual Camera и аналоги) или специализированные утилиты (Volcam, Swapcam), которые продаются в даркнете и Telegram-каналах по цене от $490 до $10 000. Эти инструменты встраиваются в мобильные устройства, подключённые к ПК, и подменяют штатный вход камеры телефона.

— На мобильном устройстве или эмуляторе Android открывается приложение KYC-сервиса. Вместо реального сенсора оно получает поток из виртуального драйвера. Атакующий выполняет инструкции системы проверки витальности — повороты, моргание, улыбку, — а дипфейк-модель транслирует эти действия с подменённым лицом.

В декабре 2025 года MITRE ATLAS включила именно этот сценарий в свою базу знаний по угрозам AI-системам. Кейс-стади, подготовленный iProov, подтвердил: связка open-source face-swap → OBS → виртуальная камера на Android позволила пройти liveness-проверку в тестовой среде и завершить идентификацию под чужим именем. Все использованные инструменты — общедоступные и бесплатные.

Главная опасность инъекционных атак — в их «невидимости». Система не фиксирует аномалий на уровне презентации (ей не предъявляют маску, экран или фотографию), потому что подмена происходит ниже — на уровне драйвера камеры или API-канала между клиентским SDK и бэкендом. По оценке Gartner, объём инъекционных атак на биометрические системы вырос на 200 % за 2023 год. Данные iProov за 2024 год фиксируют продолжение тренда: девятикратный рост инъекционных атак в целом, а число попыток через виртуальные камеры увеличилось в 28 раз.

Оцените устойчивость вашего KYC к инъекционным атакам

При росте числа инъекций через виртуальные камеры в десятки раз за последние два года защита на уровне захвата и анализа потока становится критичной задачей. Мы развернём модуль liveness/PAD платформы NeuroVision в вашем контуре — облаке, on-prem или гибридной среде — и встроим SDK (Web, iOS, Android) с контролем целостности устройства, валидацией источника камеры и криптографической привязкой сессии. Пассивная проверка витальности выполняется менее чем за 1 секунду с ориентиром точности 99,9%, а 40+ антифрод-алгоритмов дополнительно анализируют поведенческие и технические сигналы на каждом шаге. Мы подберём конфигурацию порогов под ваш риск-профиль и подготовим пилотную среду с тестовым периодом до 1 месяца, чтобы вы оценили результат на реальном трафике до принятия решения о масштабировании.

Запросить пилот liveness/PAD

Подмена лица в видеозвонке с оператором

Видео-KYC с живым оператором часто воспринимается как более надёжный формат: сотрудник может задавать произвольные вопросы, менять сценарий проверки, обращать внимание на детали. Дипфейк-технологии нового поколения работают и здесь.

Инструменты реального времени (DeepFaceLive, Magicam, Amigo AI и другие) позволяют атакующему изменять лицо, голос, пол и даже расу прямо во время видеозвонка. Оператор видит на экране человека, который визуально совпадает с фотографией из документа, реагирует на вопросы, двигается естественно. Генератор дипфейка отрабатывает мимику оператора-мошенника и транслирует её через видеоконференц-платформу или клиентское приложение.

Масштаб угрозы иллюстрирует инцидент начала 2024 года с компанией Arup: финансовый сотрудник перевёл $25 млн после видеозвонка, на котором все участники — «CFO» и «коллеги» — оказались дипфейками. Это не KYC-сценарий в чистом виде, но он демонстрирует уровень реализма, достижимый при направленной атаке на видеозвонок.

В KYC ситуация усугубляется тем, что оператор видеоверификации работает с потоком незнакомых лиц и не имеет личного знакомства с клиентом. Исследование Korshunov и Marcel (2020) показало, что люди корректно распознают качественные дипфейк-видео лишь в 24,5 % случаев. Визуальный контроль оператором ненадёжен в качестве самостоятельного барьера — он должен дополняться инструментальными проверками на стороне платформы.

Дополните оператора автоматической детекцией дипфейков

Если операторы распознают качественные дипфейки лишь в четверти случаев, полагаться на визуальный контроль как на основной рубеж — значит принимать неконтролируемый риск. Платформа NeuroVision работает параллельно с оператором: модуль Enface сопоставляет лицо с фотографией документа за менее чем 0,1 секунды с точностью верификации 99,74% (TOP-1 среди российских алгоритмов в бенчмарке NIST FRVT), а liveness/PAD-модуль анализирует микросигналы — движение глаз, моргание, текстуру кожи, глубину кадра — и выдаёт скоринг менее чем за 1 секунду. В интерфейсе back-office оператор видит агрегированный результат проверок, флаги риска и причины решения, что позволяет принимать финальное решение не «на глаз», а на основе совокупности автоматических сигналов. Спорные кейсы маршрутизируются на ручную проверку автоматически — по настраиваемым правилам и порогам, без ручного переключения между системами.

Получить консультацию по внедрению

Комбинация дипфейка с обходом пассивной проверки витальности

Пассивная проверка витальности (passive liveness) анализирует единственный кадр или короткий фрагмент без активного участия пользователя: оценивает текстуру кожи, распределение глубины, микродвижения, оптические свойства поверхности. Метод удобен — не требует жестов и поворотов. Но именно автономность создаёт уязвимость: атакующему не нужно в реальном времени реагировать на запросы системы, достаточно подготовить статический или слабо-динамический дипфейк, который пройдёт покадровый анализ.

Комбинированная атака строится в два шага:

— Подготавливается качественный face-swap или полностью синтетическое лицо, оптимизированное под обход визуальных метрик: текстура приближена к реальной коже, освещение соответствует типичным условиям селфи, артефакты на границах лица минимизированы.

— Видео или изображение инъецируется в поток через виртуальную камеру, подмену драйвера или перехват API-вызова между приложением и сервером (man-in-the-middle). Пассивная проверка получает на вход данные, визуально неотличимые от реального захвата, и выносит положительное решение.

Европейская техническая спецификация CEN/TS 18099, принятая для дополнения ISO 30107-3, отдельно выделяет класс injection-attack detection (IAD) — именно потому, что стандартная PAD-проверка, включая пассивную, не рассчитана на инъекции данных мимо физического сенсора камеры. Готовящийся стандарт ISO 25456 формализует процедуры тестирования устойчивости к инъекционным атакам на международном уровне.

Ситуация осложняется скоростью эволюции генеративных моделей. Детекторы дипфейков, обученные на артефактах прошлого поколения (GAN-шум, характерные искажения вокруг глаз и зубов, нестабильная геометрия ушей), теряют точность при столкновении с дипфейками на базе диффузионных моделей — те формируют изображение иным математическим путём и оставляют другую «подпись».

По данным исследований 2024 года, модели детекции могут терять до 50 % точности при встрече с ранее неизвестными генераторами. Защита, построенная исключительно на пассивном анализе одного кадра, без контроля источника захвата, проверки целостности сессии и поведенческих сигналов, создаёт ложное чувство безопасности при сохранении реальной уязвимости к целенаправленной атаке.

Проверьте, достаточно ли вашей текущей liveness-защиты

Если система опирается только на пассивный анализ одного кадра без контроля источника захвата и целостности сессии, она уязвима к целенаправленным инъекциям — статья подробно описывает этот вектор. KYC-подсистема платформы NeuroVision выстраивает многослойную проверку: SDK валидирует источник камеры и целостность устройства на стороне клиента, liveness/PAD-модуль анализирует микросигналы в реальном времени, а антифрод-контур обрабатывает 40+ сигналов — от биометрических аномалий до повторных попыток и связанных аккаунтов. Полный цикл проверки (документ + лицо + liveness + AML) выполняется в рамках единого пайплайна с ориентировочной стоимостью от 35–50 руб. за проверку в зависимости от набора модулей и объёма. Мы проведём разбор вашего текущего сценария верификации, определим слабые звенья и предложим конфигурацию, которая закроет выявленные пробелы — с тестовым периодом до 1 месяца.

Оставить заявку на аудит верификации

Детекция подмены лица по содержимому видео

Любой способ подмены лица — face swap через автоэнкодер, GAN-генерация, диффузионная модель — оставляет следы в самом видео. Эти следы делятся на три группы: пространственные артефакты в отдельном кадре, аномалии во временной последовательности кадров и признаки синтеза или повторного кодирования видеопотока. Комбинированный анализ всех трёх групп позволяет детектору работать надёжнее, чем при опоре на один тип сигнала: пространственный артефакт может быть замаскирован качественной генерацией, но проявится во временном или частотном слое — и наоборот.

Признаки подмены лица в одном кадре

При face swap синтезированное лицо накладывается на исходный кадр через операцию блендинга, и именно граница совмещения даёт первый и наиболее устойчивый класс артефактов.

Граница блендинга. Генератор создаёт лицо отдельно, затем вписывает его в оригинальный фон. На стыке двух областей — синтезированной и реальной — возникает blending boundary: перепад текстуры, резкости или цветового тона, отсутствующий на подлинном видео. Метод Face X-ray (Li et al., CVPR 2020) продемонстрировал, что подделку можно обнаружить, проверяя, раскладывается ли изображение на два наложенных источника. Подход обобщается на ранее невиданные техники генерации, поскольку этап блендинга — общий для большинства face-swap-пайплайнов.

Несоответствие текстур и разрешений. Разрешение сгенерированного лица и разрешение фона редко совпадают пиксель в пиксель. Лицевая область может оказаться чуть более размытой или, наоборот, избыточно «чистой» — с характерным oversmoothing кожи, при котором естественная микротекстура пор и мелких морщин подавлена. Детекторы на основе Local Binary Patterns (LBP) и фильтров Собеля/Кэнни улавливают эту разницу в локальных текстурных и контурных характеристиках между лицевой зоной и окружающим контекстом.

Геометрические и световые аномалии. Положение глаз, носа и рта после подмены может не согласовываться с геометрией черепа и ракурсом камеры, особенно при крайних углах поворота головы. Тени и блики на подставленном лице формируются условиями освещения из обучающей выборки генератора, а не сцены видеозвонка — рассогласованный градиент освещённости становится различительным признаком. Мелкие элементы высокой частоты — зубы, радужка, линия роста волос — создают для генераторов отдельную проблему: на них часто видны цветовые выбросы, нечёткие границы между зубами или «плавающая» радужная оболочка.

Цветовые каналы. В натуральном изображении корреляция между RGB-каналами подчиняется физике освещения и свойствам камеры. Генеративные модели нарушают эту корреляцию: спектральный анализ цветовых разностей между каналами выявляет аномалии, скрытые от человеческого глаза, но доступные для CNN-классификатора.

Перечисленные признаки эффективнее работают в связке. Современные детекторы строятся как мультимасштабные архитектуры: одна ветвь анализирует лицо целиком (global view), вторая фокусируется на зоне вокруг лицевых ориентиров (local view), третья учитывает позу головы. Это снижает зависимость от одного типа артефакта и повышает устойчивость к незнакомым методам генерации.

Признаки подмены лица в динамике

Генераторы дипфейков обрабатывают видео покадрово: каждый кадр проходит через нейросеть независимо, после чего результаты склеиваются обратно в видеоряд. Из-за этого между соседними кадрами появляются временные аномалии, которых не бывает в подлинных записях.

Дрейф лицевых ориентиров (Facial Feature Drift). Координаты глаз, кончика носа, уголков рта от кадра к кадру слегка «прыгают» даже при неподвижной голове — следствие покадровой независимости генератора, не гарантирующего пространственную согласованность между фреймами. Эффект особенно заметен при замедленном просмотре и надёжно распознаётся рекуррентными сетями (GRU, LSTM), моделирующими последовательность ориентиров во времени.

Мерцание и «пульсация» текстуры. Текстура кожи, чёткость бровей, форма теней на сгенерированном лице могут варьироваться от кадра к кадру — temporal flickering. Человеческий глаз воспринимает его как неестественное «подёргивание» лица, а нейросетевой детектор фиксирует по аномалиям в оптическом потоке и межкадровому разбросу пиксельных значений в области лица.

Рассинхронизация мимики и речи. При reenactment-атаках, где мимика одного человека переносится на лицо другого, артикуляция губ может не совпадать с фонемами речи. Детекторы lip-sync анализируют корреляцию между движениями губ и аудиодорожкой; расхождение выше порога — сильный индикатор подмены. В KYC-видеозвонке это критично: оператор просит произнести случайную фразу, и рассинхрон между речью и движением губ становится видимым сигналом.

Отсутствие физиологического пульса (rPPG-анализ). Кровоток вызывает микроизменения цвета кожи, синхронные с сердцебиением. Метод дистанционной фотоплетизмографии (remote photoplethysmography, rPPG) извлекает этот сигнал из видео, анализируя субпиксельные колебания яркости кожи лица. Настоящее лицо содержит периодический пульсовой сигнал с частотой 50–90 ударов в минуту; дипфейк такого сигнала, как правило, не содержит, поскольку генераторы не моделируют физиологию. Исследования (DeepFakesON-Phys, Hernandez-Ortega et al., 2020; FakeCatcher, Ciftci et al., 2020) показали AUC выше 98 % при классификации реальных и поддельных видео на основе rPPG-карт. Ограничение: высокая компрессия и низкий fps снижают качество rPPG-сигнала, а новейшие генераторы уже экспериментируют с внедрением искусственной пульсации — поэтому rPPG надёжнее работает как один из слоёв мультимодального анализа, а не как единственный критерий.

Аномалии моргания. Ранние модели face swap генерировали лица с неестественно редким или отсутствующим морганием. Современные генераторы воспроизводят моргание, но его частота и динамика по-прежнему могут отличаться от нормы — особенно при низком качестве обучающих данных атакующего. Детекторы на основе Eye Aspect Ratio (EAR) отслеживают паттерн моргания как дополнительный признак.

Признаки генерации и повторного кодирования видеопотока

Третий слой детекции выходит за рамки содержимого кадра и мимики, анализируя свойства самого видеофайла — частотный спектр, следы кодирования и метаданные.

КатегорияОписание
Частотные отпечатки генератораЛюбая нейросетевая генерация проходит через операции upsampling (повышение разрешения), оставляющие характерный след в частотном спектре. Работы Frank et al. (2020) и Durall et al. (2020) продемонстрировали, что GAN-генерированные изображения имеют специфические аномалии в высокочастотных компонентах, отсутствующие в реальных фотографиях. Дискретное косинусное преобразование (DCT) и быстрое преобразование Фурье (FFT) выделяют эти паттерны и позволяют построить на них классификатор. Каждая архитектура генератора — StyleGAN, DeepFaceLab, различные диффузионные модели — оставляет свой частотный «отпечаток» (GAN Specific Frequency), что даёт возможность не только обнаружить подделку, но и атрибутировать её конкретному типу генератора.
Артефакты двойного сжатияПодменённое видео проходит через цепочку «декодирование исходного → рендеринг дипфейка → повторное кодирование». Каждый цикл H.264/H.265-компрессии вносит свой набор квантизационных артефактов. Двойное сжатие создаёт характерную интерференцию квантизационных сеток, обнаруживаемую анализом DCT-коэффициентов: распределение AC-коэффициентов в дважды сжатом видео статистически отличается от однократно сжатого. Признак устойчив, потому что атакующий не может избежать повторного кодирования — он вынужден пересобрать видеопоток после внедрения синтезированного лица.
Несогласованность параметров потокаВидеопоток, прошедший через виртуальную камеру или программный рендер, нередко отличается от «живого» захвата набором параметров: профиль и уровень кодека, структура группы кадров (GOP), формат цветовой субдискретизации. Если KYC-система фиксирует эталонные параметры потока для конкретного устройства и сравнивает их с фактическими, несоответствие указывает на инъекцию или программную обработку. Отсутствие или подмена EXIF-метаданных — дополнительный, хотя и легко подделываемый индикатор.
Спектральное затухание (spectral roll-off)Реальные фотографии и видеокадры подчиняются закону степенного затухания спектра: амплитуда частотных компонентов убывает с ростом частоты по предсказуемой кривой. GAN-генерированные изображения нарушают эту закономерность — высокочастотная область оказывается либо обеднённой (oversmoothing), либо содержит периодические пики (checkerboard artifacts от upsampling-слоёв). Анализ формы спектрального затухания — быстрый и вычислительно дешёвый предфильтр, позволяющий отсечь очевидные фейки до запуска тяжёлых моделей.

Частотные и кодек-признаки дополняют пространственный и временной анализ: они сохраняют информативность даже после того, как визуальные артефакты стали почти неразличимы для CNN, работающих в RGB-пространстве. В промышленных системах детекции все три слоя — покадровый, временной и частотно-кодековый — объединяют в единый мультистримовый пайплайн с агрегацией скоров и принятием решения по итогам совокупной оценки.

Защита видеоверификации от подмены лица

Обнаружить дипфейк в кадре — задача необходимая, но недостаточная. Атакующий может обойти детекцию содержимого, если контролирует канал доставки: подменяет камеру, перехватывает видеопоток или инжектирует синтетический сигнал до модуля анализа. Устойчивая защита видеоверификации строится не на одном рубеже, а на цепочке контролей, каждый из которых работает на своём уровне: захват, транспорт, анализ и непрерывная валидация сессии.

Логика та же, что и в информационной безопасности в целом: ни один отдельный контроль не даёт гарантий, но совокупность слоёв делает стоимость успешной атаки неприемлемо высокой.

Контроль захвата на устройстве и защита от виртуальной камеры

Image

Первый и часто недооценённый рубеж защиты — гарантия того, что видеопоток исходит от физической камеры реального устройства, а не от программного эмулятора или виртуальной камеры. Инжекция — подмена потока данных в обход датчика — стала одним из самых быстрорастущих векторов: по данным отраслевых отчётов за 2024–2025 годы, число попыток выросло в десятки раз по сравнению с 2022–2023 годами, а доступность соответствующего ПО резко снизила порог входа.

Для подмены используются виртуальные камеры (OBS Virtual Camera и аналоги), мобильные эмуляторы с подменой видеовхода, перехват браузерного API через JavaScript-расширения и аппаратные устройства захвата, подставляющие внешний видеосигнал вместо встроенной камеры.

Контрмеры работают на нескольких уровнях:

На стороне SDK. Мобильное или веб-SDK, встроенное в приложение заказчика, проверяет окружение непосредственно на устройстве. Для мобильных платформ это включает контроль целостности ОС (обнаружение jailbreak/root), проверку, что приложение запущено на физическом устройстве, а не в эмуляторе, и валидацию источника камеры — SDK отслеживает, что видеовход поступает от аппаратного сенсора, а не от программного прокси. В веб-среде обфускация клиентского кода и проверка метаданных видеопотока через WebRTC усложняют подмену, хотя браузерный контекст объективно сложнее контролировать, чем нативное приложение.

На уровне криптографической цепочки. Современные мобильные ОС (iOS и Android) предоставляют криптографические подтверждения (attestation), удостоверяющие подлинность устройства, целостность ОС и факт запуска конкретного приложения. Механизмы опираются на аппаратные модули безопасности (Secure Enclave, TEE) и практически не поддаются программной подделке. Если SDK использует attestation, серверная сторона может убедиться: видеопоток исходит от настоящего устройства с немодифицированной ОС.

На уровне метаданных потока. Серверный анализ технических характеристик входящего видео — разрешение, частота кадров, цветовое пространство, EXIF и кодек — позволяет выявлять расхождения. Заявленная модель устройства подразумевает камеру с определённым сенсором и разрешением; если параметры потока не соответствуют профилю, система фиксирует аномалию.

Ни один из этих контролей не абсолютен сам по себе. Виртуальные камеры совершенствуются, эмуляторы учатся маскироваться, а в веб-среде злоумышленник контролирует больше переменных. Контроль захвата — первый слой, понижающий вероятность успешной инжекции, а не единственный барьер. Его задача — отсечь массовые и низкоквалифицированные атаки, оставляя продвинутые попытки следующим рубежам.

С точки зрения стандартов, европейская техническая спецификация CEN/TS 18099:2025 впервые описала унифицированную методологию оценки защиты от инжекции биометрических данных. На международном уровне на её основе готовится стандарт ISO/IEC 25456. Наличие независимой оценки по этим спецификациям — объективный критерий при выборе поставщика, позволяющий сравнивать решения по единой методологии, а не по маркетинговым заявлениям.

Привязка видео к сессии KYC и проверка целостности потока

Даже если видео снято настоящей камерой, это не означает, что оно принадлежит текущей сессии верификации. Злоумышленник может использовать ранее записанное видео реального человека (replay-атака) или видео, прошедшее проверку в другой сессии. Привязка видеопотока к конкретной сессии KYC — второй критически важный слой.

Сессионный челлендж. Сервер генерирует уникальный, непредсказуемый запрос для каждой сессии: последовательность действий (повернуть голову влево, затем вправо, улыбнуться), уникальный визуальный маркер на экране устройства (меняющийся цвет фона, динамический код) или случайный набор символов для произнесения. Видео валидно только при совпадении ответа с запросом именно этой сессии. Replay-атака терпит неудачу, потому что записанное ранее видео содержит ответ на другой челлендж.

Криптографическая привязка к сессии. Каждый фрагмент видеопотока подписывается или привязывается к идентификатору сессии, временной метке и одноразовому токену (nonce). Серверная сторона проверяет, что принятые данные соответствуют открытой сессии и не были повторно отправлены. Если временные метки не укладываются в допустимое окно (обычно единицы секунд), сессия отклоняется.

Контроль целостности транспорта. TLS-шифрование между клиентом и сервером — базовое требование, но одного его недостаточно. Дополнительные меры: подпись кадров на стороне SDK до передачи по сети (end-to-end integrity) и мониторинг непрерывности потока — резкие изменения в частоте кадров, скачки задержки или разрывы между сегментами могут указывать на вмешательство.

Детекция повторного использования. Система ведёт реестр хэшей ранее полученных биометрических образцов. Если вновь поступившее видео совпадает или существенно пересекается с уже зарегистрированным, это сигнал о replay-атаке. Проверка особенно важна для сценариев, где злоумышленник пытается многократно пройти верификацию с одним и тем же материалом под разными идентичностями.

При правильной реализации сессионная привязка делает заранее подготовленное видео бесполезным: каждая сессия требует уникального ответа в реальном времени, а криптографическая обвязка исключает подмену данных на этапе передачи.

Антиспуфинг, устойчивый к дипфейкам в реальном времени

Классический антиспуфинг (Presentation Attack Detection, PAD) изначально проектировался для защиты от физических артефактов: распечаток фотографий, экранов с воспроизведением видео, силиконовых масок. Дипфейки реального времени создают принципиально иной вызов — синтетическое видео генерируется мгновенно, управляется мимикой оператора и выглядит как живой человек перед камерой. Это требует антиспуфинга, способного работать и с цифровыми синтетическими сигналами.

Покадровый анализ на уровне пикселей. Нейросетевые модели, обученные на большом объёме реальных и синтетических данных, анализируют текстуру кожи, микрорельеф, отражения в радужке, границы лица и зоны перехода (hairline, овал лица, уши). Дипфейки — даже высококачественные — оставляют артефакты: неоднородности текстуры на границах подмены, некорректные отражения, отсутствие мелких деталей (поры, волоски, тени от ресниц). Чем выше разрешение входного потока и чем больше обучающая выборка включает актуальные техники генерации, тем надёжнее детекция.

Анализ динамических признаков. Реальное человеческое лицо обладает характерной динамикой: микродвижения, естественная рассинхронизация моргания левого и правого глаз, физиологически обусловленные задержки между командой и движением (между речью и артикуляцией губ). Генеративные модели воспроизводят эти паттерны с отклонениями, которые человек не заметит, но специализированная нейросеть обнаружит по временным рядам лицевых ориентиров (landmarks).

Мультимодальные сигналы. Добавление информации за пределами RGB-видео усложняет задачу атакующему. Инфракрасные датчики, 3D-камеры (structured light, ToF), анализ аудиодорожки (проверка синхронизации губ с голосом, спектральный анализ речи) существенно сужают пространство для атаки. Дипфейк убедительно имитирует RGB-изображение, но одновременно подделать RGB, ИК-канал и 3D-геометрию — задача на порядок более сложная.

Непрерывное обновление моделей. Технологии генерации развиваются быстро: появляются новые архитектуры (диффузионные модели, face reenactment через нейронные радиационные поля), улучшается качество face swap. Модель антиспуфинга, обученная полгода назад, может не распознать атаку на новейшей технике. Регулярное переобучение на свежих данных, включая образцы, полученные «красной командой» (red team) и из реальных инцидентов, — обязательное условие эксплуатации.

Стандарт ISO/IEC 30107-3 определяет три уровня тестирования PAD по сложности атак. Уровень 2 (Level 2) включает видеоповторы, маски и 3D-артефакты и служит ориентиром для сценариев удалённой верификации в финансовом секторе. В июне 2025 года iBeta представила тестирование Level 3, включающее гиперреалистичные маски и неограниченный инструментарий атак, что задаёт более высокую планку для чувствительных сценариев. При оценке решений целесообразно запрашивать результаты независимого тестирования по ISO 30107-3 и, если применимо, по CEN/TS 18099, с указанием конкретного уровня, достигнутых метрик APCER/BPCER и даты оценки.

Непрерывная проверка личности на протяжении видеосессии

Типичная уязвимость видеоверификации — однократная проверка: система подтверждает личность в начале сессии, а дальше полагается на то, что перед камерой остаётся тот же человек. Этим пользуются при атаках с подменой участника (session handoff): проверку проходит реальный человек, после чего его место занимает другой или включается дипфейк.

Непрерывная проверка устраняет этот пробел:

Периодическое биометрическое сопоставление. На протяжении всей видеосессии система через заданные интервалы извлекает биометрический шаблон лица и сопоставляет его с шаблоном, полученным при начальной верификации. Резкое изменение биометрического вектора (выходящее за порог допустимой вариативности, обусловленной поворотом головы, сменой освещения или мимикой) сигнализирует о возможной подмене.

Мониторинг непрерывности присутствия. Система отслеживает, что лицо присутствует в кадре без значительных разрывов. Длительное отсутствие лица, перекрытие камеры или резкое исчезновение и появление другого лица — триггеры для автоматического запроса повторной проверки или приостановки сессии.

Контроль консистентности параметров. На протяжении сессии анализируется стабильность параметров изображения: освещение, фон, характеристики камеры. Резкая смена фона или освещения при неизменном заявленном устройстве может указывать на переключение источника видео.

Спонтанные повторные челленджи. В критические моменты сессии (перед подтверждением транзакции, при изменении условий) сервер может инициировать дополнительный запрос — повторную liveness-проверку, случайное действие или произнесение одноразовой фразы. Это не позволяет злоумышленнику заранее подготовить видеоматериал на всю длительность сессии.

Для видеозвонка с оператором непрерывная проверка имеет дополнительное измерение. Оператор выступает как ещё один слой контроля: может задавать нестандартные вопросы, просить показать документ под другим углом, обратить внимание на детали, которые автоматика не проверяла. Учитывая, что человек-оператор подвержен социальной инженерии и утомлению, его решения подкрепляются непрерывным автоматическим мониторингом, а не заменяют его.

Совокупность описанных слоёв — контроль захвата, сессионная привязка, мультимодальный антиспуфинг и непрерывная валидация — формирует систему, в которой каждый уровень компенсирует потенциальные пробелы другого. Именно принцип defence-in-depth позволяет поддерживать устойчивость верификации по мере усложнения техник дипфейка.

Разверните многослойную защиту видеоверификации в вашем контуре

Принцип defence-in-depth, описанный в статье как единственный надёжный подход, — основа архитектуры KYC-подсистемы платформы NeuroVision: контроль захвата через SDK (Web, iOS, Android) с валидацией устройства и источника камеры, криптографическая привязка видеопотока к сессии, liveness/PAD с ориентиром точности 99,9% и антифрод-контур из 40+ алгоритмов, работающих с биометрическими, поведенческими и техническими сигналами одновременно. Платформа разворачивается в облаке, on-prem или гибридной среде — в том числе в защищённом контуре заказчика, что критично для банков и госсектора, где биометрия не должна покидать периметр. Интеграция через REST API и SDK занимает от 24 часов для базового подключения до 3–7 дней для полного развёртывания с настройкой сценариев, порогов и маршрутизации. Мы подготовим схему интеграции под вашу инфраструктуру и согласуем целевые метрики до старта пилота.

Запросить схему интеграции

Действия при обнаружении признаков дипфейка в KYC

Обнаружение дипфейка — не конец процесса, а начало управляемого инцидента. Разница между надёжной и уязвимой системой определяется не только качеством детекции, а тем, что происходит в следующие секунды и минуты: как система эскалирует подозрение, кто и по каким критериям принимает окончательное решение, какие данные сохраняются для расследования.

Реакция на подозрение не должна ни блокировать добросовестных пользователей без объяснений, ни позволять злоумышленнику повторять попытку, пока не подберёт обходной путь.

Повышение уровня проверки и безопасные повторные попытки

Image

Когда автоматическая детекция фиксирует признаки подмены лица или инъекции видеопотока, жёсткий отказ без возможности пересдачи создаёт две проблемы: добросовестный пользователь, попавший под ложное срабатывание, уходит к другому сервису, а мошенник получает бинарный сигнал «не прошёл» и корректирует атаку.

Более эффективный подход — ступенчатая эскалация (step-up verification): при превышении порога подозрительности система автоматически повышает требования к следующей попытке, а не просто повторяет тот же сценарий.

Если первичная проверка видеоселфи зафиксировала аномальные артефакты, вторая попытка может включать активный challenge: случайно сгенерированную последовательность действий — поворот головы в указанном направлении, произнесение одноразовой фразы, взаимодействие с физическим предметом. Такие задания сложно воспроизвести заранее записанным дипфейком или real-time face swap с низкой задержкой. При повторном срабатывании система переключает пользователя на видеозвонок с оператором или запрашивает альтернативный канал верификации.

Критически важно ограничить число повторных попыток в рамках одной сессии и привязать их к уникальным идентификаторам: device fingerprint, IP, идентификатору документа. Без этого ограничения злоумышленник может итеративно подбирать параметры генерации, пока один из вариантов не пройдёт порог. Типовое ограничение — две-три попытки на сессию с нарастающим cooldown-интервалом.

Ещё одно условие — при step-up не следует раскрывать пользователю конкретную причину эскалации. Формулировка «обнаружена подмена лица» подсказывает атакующему, какой контроль сработал. Нейтральное сообщение («для завершения проверки требуется дополнительный шаг») сохраняет непредсказуемость для мошенника и не тревожит добросовестного клиента.

Маршрутизация на ручную верификацию и требования к оператору

Не каждый подозрительный кейс можно разрешить автоматически. Когда скоринг сессии попадает в зону неопределённости — между уверенным «чисто» и уверенным «фрод», — оптимальный маршрут ведёт к живому оператору. Задача ручной верификации — принять решение там, где алгоритм не может дать однозначный ответ, не увеличивая при этом количество ложных отказов.

Маршрутизация должна быть адаптивной. Конкретные правила зависят от риск-профиля операции: открытие счёта с высоким лимитом, смена привязанного устройства, операция в юрисдикции повышенного риска — всё это снижает порог эскалации. Для массовых низкорисковых сценариев порог может быть выше, чтобы не перегружать ручную очередь.

Специалист, работающий с подозрением на дипфейк, должен владеть практическими навыками распознавания визуальных аномалий: неестественные переходы на границе лица и фона, рассинхрон движения губ и речи, аномалии блика в глазах, статичность мимики при смене позы. Эти признаки не всегда очевидны без подготовки — качество современных инструментов генерации достаточно высоко, чтобы обманывать неподготовленного наблюдателя.

Во время видеозвонка оператор применяет интерактивные проверки, которые сложно имитировать синтетическим видео: просит поднести к лицу документ и плавно повернуть его, показать боковой профиль, поднести руку к лицу (генерация корректной окклюзии остаётся слабым местом для real-time дипфейков). Интерфейс оператора параллельно отображает показания автоматических детекторов — скоринг liveness, результаты проверки целостности видеопотока, метаданные устройства. Решение принимается с учётом всей совокупности сигналов.

Организационно процесс ручной верификации подозрительных сессий оформляется внутренним регламентом, фиксирующим перечень обязательных проверочных действий, критерии финального решения (approve / reject / escalate), максимальное время на рассмотрение кейса и порядок действий при технических сбоях связи. Записи решений оператора с обоснованием сохраняются для аудита и для обучения моделей детекции.

Настройте сценарии эскалации и ручной проверки под ваш риск-профиль

Ступенчатая эскалация и адаптивная маршрутизация, описанные в статье, снижают и ложные отказы, и пропуск фрода — и именно этот подход реализован в back-office платформы NeuroVision. Вы настраиваете пороги срабатывания, набор обязательных шагов и правила маршрутизации: какие кейсы решаются автоматически, какие уходят на ручную проверку, а какие требуют дополнительного challenge. Оператор работает в едином интерфейсе, где отображаются агрегированный скоринг, результаты liveness/PAD, флаги антифрод-алгоритмов и метаданные устройства — все сигналы собраны в одном окне с обоснованием решения. Журнал действий и audit trail фиксируют каждое решение с привязкой к сессии, что закрывает требования по хранению сведений об идентификации. Мы совместно проработаем правила эскалации, критерии финальных решений и пороги на этапе пилота — тестовый период составляет до 1 месяца.

Оставить заявку на настройку сценариев

Сохранение доказательств и аналитика инцидента

Каждая сессия видеоверификации, в которой сработал триггер подозрения на дипфейк, генерирует данные, ценные сразу в трёх контекстах: комплаенс-отчётность, внутреннее расследование и улучшение моделей детекции. Ни один из этих контекстов не работает при фрагментарном или утраченном наборе данных.

Минимальный состав доказательной базы: исходный видеопоток (или фрагменты с достаточным разрешением и частотой кадров), метаданные сессии (device fingerprint, IP-адрес, user-agent, геолокация, тайминги событий), результаты каждого этапа автоматической проверки с численными скорингами и порогами, решение и обоснование оператора (если сессия была эскалирована), идентификатор предъявленного документа.

Требования к хранению зависят от юрисдикции и типа организации. В российском контексте Федеральный закон № 115-ФЗ обязывает хранить сведения, необходимые для идентификации клиента, не менее пяти лет с момента прекращения отношений. Рекомендации FATF устанавливают аналогичный ориентир — пять-семь лет. В рамках GDPR срок хранения биометрических данных должен быть обоснован целью обработки и зафиксирован в политике ретенции. Конкретные требования следует сверять с актуальными нормативными актами и рекомендациями регулятора в применимой юрисдикции.

Техническая целостность доказательной базы обеспечивается неизменяемыми (append-only) журналами с криптографическими хешами или цифровыми подписями. Это гарантирует, что записи не были модифицированы после фиксации, — критически важное свойство при передаче материалов в правоохранительные органы или при регуляторной проверке. Системы, поддерживающие стандарт C2PA (Coalition for Content Provenance and Authenticity), дополнительно фиксируют провенанс медиаданных, хотя на текущий момент этот стандарт не является обязательным требованием ни в одной юрисдикции.

Накопленные данные об инцидентах формируют аналитическую базу для улучшения защиты. Агрегированный анализ выявляет паттерны: какие типы дипфейков применяются чаще, в какие временные окна концентрируются атаки, какие устройства и источники фигурируют повторно. На основе этих данных калибруются пороги автоматической детекции, обновляются сценарии step-up проверки, корректируются инструкции для операторов.

Практический ориентир — по каждому инциденту формировать краткую карточку с классификацией типа атаки, перечнем сработавших и несработавших контролей и итоговым решением. Агрегированные карточки за период становятся основой регулярного отчёта о фрод-устойчивости системы и входными данными для дообучения детекционных моделей.

Как подтвердить эффективность защиты на пилоте и в продакшене

Любое антидипфейк-решение выглядит надёжным в маркетинговых материалах. Реальную защиту подтверждает только измеримый результат — на контролируемых атаках и в условиях боевого трафика. Без формализованного тестирования невозможно понять, какие типы подмены система отклоняет, а какие пропускает, какой процент ложных отказов получат добросовестные пользователи и как быстро защита устаревает при появлении новых генеративных инструментов.

Проверка проходит в два этапа. Первый — пилотный: система подвергается набору воспроизводимых атак в контролируемой среде, результаты фиксируются по стандартизованным метрикам. Второй — продакшен-мониторинг: отслеживаются реальные попытки обхода, дрейф качества модели и появление ранее неизвестных техник подмены.

Набор тестовых атак и условия воспроизведения

Чтобы пилот дал значимые результаты, необходим структурированный набор атак, покрывающий основные векторы угроз.

Презентационные атаки — когда поддельное изображение предъявляется камере физически: воспроизведение записанного видео с экрана смартфона или монитора, демонстрация распечатанного фото, силиконовые и латексные маски разной степени детализации, дипфейк-видео, воспроизводимое перед камерой. Методология оценки описана в серии стандартов ISO/IEC 30107: часть 1 определяет терминологию и таксономию, часть 3 задаёт требования к тестированию и отчётности. Для каждого типа атаки стандарт вводит понятие PAI Species — класс инструмента атаки, результаты по которому измеряются отдельно.

Инъекционные атаки — когда синтетический видеопоток подаётся в обход камеры: через виртуальную камеру, эмулятор, перехват на уровне драйвера или подмену данных в канале передачи. Этот вектор наиболее опасен для дипфейков в реальном времени, поскольку позволяет обойти оптические признаки, на которые рассчитаны классические liveness-проверки. Для оценки устойчивости к инъекционным атакам в 2024 году опубликована европейская техническая спецификация CEN/TS 18099, а на уровне ISO ведётся разработка стандарта ISO/IEC 25456.

Комбинированные сценарии — сочетание дипфейка с дополнительными техниками обхода: подмена фонового окружения, имитация микродвижений по команде оператора, использование нескольких генеративных моделей в одной сессии. Такие атаки моделируют поведение подготовленного злоумышленника и проверяют устойчивость всей цепочки верификации.

Условия воспроизведения критически важны для корректной интерпретации результатов. Каждый тест должен фиксировать: версию ПО и конфигурацию порогов, устройство захвата (модель, ОС, версию SDK), характеристики атакующего инструмента (разрешение экрана-источника, модель генеративной сети, параметры рендеринга), освещение и дистанцию. Стандарт ISO/IEC 30107-3 требует многократного предъявления каждого PAI-экземпляра для снижения влияния случайных факторов. Аналогичный принцип применим к инъекционным атакам: воспроизведение должно быть повторяемым, а журнал каждой попытки — доступным для последующего аудита.

Отдельный пункт — разнообразие биометрических характеристик субъектов. Атакующие материалы должны создаваться на основе лиц, различающихся по полу, возрасту и фенотипу. Без этого результаты теста могут скрывать демографические смещения: система проходит проверку на одном наборе лиц, но пропускает атаки на другом.

Метрики качества детекции и целевые пороги

Стандартизованные метрики позволяют сравнивать решения между собой и отслеживать динамику качества. В контексте антидипфейк-защиты для KYC применяются две базовые метрики из ISO/IEC 30107-3:

APCER (Attack Presentation Classification Error Rate) — доля атак, ошибочно принятых как легитимные. Рассчитывается отдельно для каждого PAI Species, что позволяет увидеть, к каким атакам система наиболее уязвима. Низкий APCER означает высокую безопасность.

BPCER (Bona Fide Presentation Classification Error Rate) — доля добросовестных пользователей, ошибочно отклонённых. Высокий BPCER означает, что защита «перестраховывается» и блокирует реальных людей, снижая конверсию и создавая нагрузку на ручную верификацию.

Две метрики находятся в обратной зависимости: ужесточение порога снижает APCER, но повышает BPCER. Для оценки общего качества используют кривую DET (Detection Error Tradeoff), отображающую весь спектр компромиссов между безопасностью и удобством при разных порогах. Дополнительная метрика — ACER (Average Classification Error Rate), среднее арифметическое APCER и BPCER, — удобна для первичного сравнения, но не заменяет анализ полной кривой.

При оценке полной системы (а не отдельного PAD-модуля) стандарт предусматривает метрику IAPMR (Impostor Attack Presentation Match Rate) — долю атак, которые не только прошли детекцию, но и были сопоставлены с целевой личностью. Эта метрика ближе к реальному ущербу, поскольку учитывает оба рубежа: liveness и face matching.

Целевые пороги зависят от модели угроз и бизнес-контекста. Для финансовых сервисов с высоким уровнем риска ориентир — APCER ниже 1 % при BPCER не более 5–10 %. При сертификационных испытаниях по ISO/IEC 30107-3 (в аккредитованных лабораториях) пороги по BPCER устанавливаются на уровне не выше 10–15 % для прохождения теста; при этом система должна продемонстрировать нулевой или близкий к нулю APCER по заявленным категориям атак. Пороги на пилоте — внутренний ориентир, а не гарантированный показатель для продакшена: реальное распределение атак, устройств и условий освещения шире лабораторного.

На пилоте рекомендуется зафиксировать пороги в виде SLA с поставщиком: допустимый APCER по каждому типу атак из тестового набора, допустимый BPCER на выборке добросовестных пользователей и латентность системы. Если решение не укладывается в целевые пороги по одному или нескольким типам атак, это точка для совместной доработки: пересмотра порогов, добавления дополнительных модулей или изменения сценария проверки.

Мониторинг новых техник дипфейка и обновление моделей

Генеративные технологии развиваются быстрее, чем обновляются модели детекции. Детектор, обученный на выборках одного поколения генеративных сетей (GAN-архитектур), может терять 30–40 процентных пунктов точности при столкновении с артефактами нового поколения (диффузионных моделей). Это явление — technique drift — делает разовую сертификацию недостаточной. Защита остаётся эффективной только при непрерывном цикле: мониторинг → обнаружение новых угроз → обновление модели → повторная валидация.

Мониторинг в продакшене строится на нескольких сигналах. Первый — отслеживание распределения скоров детекции: если медиана или дисперсия скоров на живых сессиях смещается без видимых причин, это может указывать на появление нового типа атак или на деградацию модели. Второй — корреляция с результатами ручной проверки: случаи, отправленные оператору и подтверждённые как мошенничество, но не отловленные автоматикой, формируют датасет для дообучения. Третий — внешний мониторинг угроз: отслеживание публикаций новых генеративных инструментов, открытых репозиториев для подмены лиц, изменений в доступных фреймворках (новые режимы, ускорение инференса, снижение порога входа).

Обновление моделей в боевой среде требует выстроенного процесса, а не разовых патчей. Эффективная практика — CI/CD-пайплайн для моделей детекции: новые образцы атак поступают в обучающую выборку, модель дообучается (fine-tuning или continual learning), проходит регрессионное тестирование на эталонном наборе и только после подтверждения, что старые типы атак по-прежнему детектируются, разворачивается в продакшене. Методы непрерывного обучения (experience replay, knowledge distillation) позволяют адаптировать детектор к новым техникам без катастрофического забывания ранее изученных паттернов.

Частота обновлений зависит от динамики угроз. Минимальный ориентир — ежеквартальный пересмотр тестового набора атак и валидация текущей модели на свежих образцах. При обнаружении нового вектора, способного обойти защиту, цикл обновления должен быть внеплановым — с понятным SLA между заказчиком и поставщиком: за какой срок новый тип атаки включается в набор, за какой срок выпускается обновлённая модель, как проводится откат в случае регрессии.

При выборе решения для KYC стоит уточнить: предоставляет ли вендор отчёты об обновлениях моделей, какие датасеты используются для дообучения, проходит ли решение независимое тестирование (сертификацию в аккредитованных лабораториях по ISO/IEC 30107-3 и CEN/TS 18099), есть ли документированный процесс реагирования на новые типы атак. Решение без прозрачной истории обновлений и без внешней валидации создаёт скрытый риск: защита может деградировать незаметно, а факт обхода станет очевидным только по последствиям — финансовым потерям или инцидентам с регулятором.

Запустите пилот с измеримыми метриками антидипфейк-защиты

Без формализованного тестирования невозможно понять, какие типы подмены система отклоняет, а какие пропускает, — и разовая сертификация не гарантирует защиту через полгода, как подчёркивает статья. Мы запустим пилот платформы NeuroVision в вашей среде с тестовым периодом до 1 месяца: подключим ограниченное число каналов, настроим сценарии KYC и пороги, соберём метрики — конверсию, долю ложных срабатываний, скорость проверки и фрод-инциденты на реальном трафике. Платформа зарегистрирована в реестре российского ПО (запись №19972 от 13.11.2023), разворачивается в облаке или в вашем защищённом контуре (Docker/VM) и интегрируется через REST API и SDK для Web, iOS и Android. По итогам пилота вы получите объективную картину: как работает каждый рубеж защиты на вашем трафике, где остаются пробелы и какие модули целесообразно масштабировать.

Запросить расчет пилота
Вывод
Защита видеоверификации от дипфейков работает только как система, а не как отдельный фильтр

Подмена лица в KYC-процессе перестала быть теоретической угрозой — атаки через виртуальные камеры, real-time face swap и обход пассивной проверки витальности фиксируются в реальном трафике и растут кратно год к году. Ни один отдельный рубеж — ни контроль захвата, ни покадровая детекция артефактов, ни оператор на видеозвонке — не обеспечивает достаточной устойчивости сам по себе. Надёжность достигается выстроенной цепочкой: валидация источника видеопотока, криптографическая привязка к сессии, мультимодальный антиспуфинг, непрерывная проверка личности на протяжении всей сессии и управляемая эскалация при срабатывании триггеров. Каждый слой компенсирует ограничения соседнего и повышает стоимость успешной атаки до неприемлемой.

Генеративные модели продолжат развиваться, и разовая сертификация защиты не гарантирует её актуальности через полгода. Устойчивость определяется не столько текущей точностью детектора, сколько выстроенным процессом: регулярное тестирование на свежих векторах атак, мониторинг дрейфа качества в продакшене, оперативное дообучение моделей и прозрачная отчётность поставщика. Пилот с воспроизводимым набором атак и стандартизованными метриками APCER/BPCER — первый практический шаг, позволяющий оценить реальную готовность системы до того, как она встретится с боевым фродом.

Оставьте заявку, чтобы внедрить топ-1 KYC от NeuroVision

С нами уже работают
OZON
Почта Банк
CSVT
БКС
Svargo
Материк
Озон банк
Arvix