Антифрод в проверке документов: как выявлять подделки и следы редактирования

Поддельный документ, прошедший автоматическую проверку, — прямые финансовые потери, регуляторные санкции и репутационный ущерб. Способы фальсификации давно вышли за пределы грубой ретуши: пересъёмка с экрана, генеративный морфинг фотографий, точечная перерисовка реквизитов с пересчётом контрольных цифр. Антифрод-система противостоит этому на нескольких уровнях одновременно — от побайтового анализа файла и детекции пиксельных артефактов до кросс-валидации MRZ, OCR и биометрии. Ниже разобран полный конвейер проверки документов: какие сигналы извлекаются на каждом этапе, как они агрегируются в итоговое решение и что определяет надёжность всей цепочки.

<p><span>Полностью сгенерированные личности и документы</span></p>

Полностью сгенерированные личности и документы

<p><span>Faсe swap лица и фотографии в паспорте</span></p>

Faсe swap лица и фотографии в паспорте

<p><span>Вклеенная фотография злоумышленника в действующий паспорт</span></p>

Вклеенная фотография злоумышленника в действующий паспорт

Первый этап KYC: съёмка документа, селфи и Liveness как основа доверия к сессии

Надёжный KYC-процесс начинается с контролируемого захвата данных в моменте прохождения проверки. Пользователь показывает документ в камеру устройства, делает селфи или селфи с документом, затем проходит Liveness. Такая последовательность даёт системе возможность оценивать подлинность источника изображения, состояние самого документа, соответствие лица владельцу документа и факт присутствия живого человека в кадре.

Сценарий с загрузкой заранее подготовленных файлов создаёт лишний риск для бизнеса, поскольку мошенник получает время на редактирование изображения, подмену реквизитов, замену фотографии, генерацию синтетического документа или подготовку переснятого материала. Фотографирование в моменте через камеру устройства снижает этот риск, потому что система получает данные из контролируемого потока и может проверять сам процесс съёмки, качество кадра и поведение пользователя по ходу сессии.

Контроль съёмки документа в моменте

Первый шаг KYC-контура — подтверждение того, что документ показывают камере устройства прямо во время сессии. На этом уровне система контролирует источник видеопотока и проверяет, что в контур поступает изображение с физической камеры смартфона или компьютера. Для этого анализируется целостность потока съемки, характеристики устройства и признаки вмешательства в канал передачи изображения.

Такая проверка необходима, поскольку существует риск обхода даже обязательного фотографирования документа. Одним из возможных сценариев является использование виртуальных камер и «внедрение» кадров в видеопоток: вместо реального изображения с камеры в сессию KYC подается заранее подготовленный или сгенерированный визуальный контент. Именно поэтому в защиту включен короткий, но обязательный этап anti-spoofing на уровне источника захвата (capture-source): система должна удостовериться, что кадр получен с физической камеры устройства и что видеопоток на данный момент обладает признаками живой съемки.

Проверка того, что в кадре находится оригинал документа

После подтверждения источника потока система определяет природу объекта перед камерой. Её задача — установить, что пользователь показывает оригинал документа, пригодный для проверки. На этом этапе выявляются фотографии экрана телефона, ноутбука и телевизора, распечатки, ксерокопии, пересъёмка с другого носителя, а также синтетически сгенерированные изображения.

Муаровый узор при съемке экрана

Для экранной пересъёмки характерны муар, субпиксельная структура дисплея, специфическое распределение яркости и цвета, а также особенности оптической картины по границе объекта. Для распечаток и копий показательны иные текстуры поверхности, другая передача защитного фона, особенности отражений и характер печатных слоёв.

Документ полностью сгенерирован ИИ

Генеративные изображения выдают себя артефактами в микротекстурах, защитных элементах, шрифтах, мелких линиях, печатях и переходах между зонами документа. Совокупность этих признаков позволяет системе установить, что в кадре присутствует именно физический оригинал документа, показанный в реальной среде.

Качество кадра и пригодность документа для проверки

Следующий слой KYC-процесса отвечает за то, чтобы документ можно было надёжно распознать и проверить. Система определяет границы документа в кадре, оценивает площадь объекта, положение, перспективу, резкость, освещение, шум и наличие бликов. Если часть документа выходит за границы кадра, изображение слишком тёмное или пересвеченное, важные зоны закрыты бликом, а текст и защитные элементы теряют читаемость, сессия получает запрос на повторную съёмку.

Результатом этого этапа становится выровненное и нормализованное изображение документа, подготовленное для последующих проверок. Именно на нём система распознаёт поля, выделяет фотографию владельца, анализирует защитный фон, считывает MRZ, ищет печати, подписи и другие обязательные элементы.

Проверка целостности документа и следов вмешательства

Когда система получила качественный кадр оригинального документа, начинается анализ самого носителя и его реквизитов.

Здесь KYC-контур ищет следы физических и цифровых изменений: вписанные ручкой данные, исправленные цифры, переклеенную фотографию, наклейки, подчистки, замазанные зоны, дорисованные элементы, нарушения защитного орнамента, аномалии текстуры и локальные расхождения в геометрии.

Особое внимание уделяется полям, которые мошенники меняют чаще всего: ФИО, дата рождения, номер документа, срок действия, фотография владельца. Система проверяет, что фотография встроена в документ согласованно с фоном и защитными элементами, что в зоне фото сохраняется непрерывность рисунка, а границы снимка и окружающих областей выглядят естественно. Для бумажных и пластиковых документов также анализируются печати, подписи, штампы и иные обязательные визуальные атрибуты. Их отсутствие, аномальное положение, разрыв шаблона или несоответствие типу документа повышают оценку риска.

OCR, MRZ и логическая согласованность полей

После визуальной проверки система извлекает реквизиты документа и проводит логическую валидацию. OCR считывает данные из видимой зоны: ФИО, номер документа, дату рождения, дату выдачи, срок действия, орган выдачи и другие поля. Затем эти данные сверяются с MRZ, если она присутствует, и с шаблоном конкретного типа документа.

На этом уровне проверяются формат и длина полей, допустимые символы, контрольные цифры, согласованность дат, соответствие номера документа структуре конкретной страны, наличие обязательных зон и взаимное соответствие реквизитов. Здесь же система контролирует полноту состава документа: есть ли фотография, есть ли машиночитаемая зона, присутствуют ли подпись, печать, штамп, если они обязательны для данного образца. Такой слой позволяет выявлять подделки, которые выглядят визуально убедительно, но содержат внутренние противоречия.

Селфи с документом и селфи пользователя как подтверждение связи между документом и человеком

Следующий этап связывает предъявленный документ с человеком, который проходит проверку. В зависимости от сценария, пользователю может потребоваться сделать селфи с документом, отдельное селфи или пройти короткий этап видеоверификации лица. Система получает изображение лица, с которым будет сравниваться фотография в документе.

Этот этап важен для защиты от использования чужих документов и от сценариев, где предъявляется настоящий документ другого человека. KYC-платформа выделяет лицо на документе, извлекает биометрические признаки из фотографии владельца и сопоставляет их с лицом пользователя в селфи или в видеопотоке. Итогом становится оценка биометрического соответствия между документом и человеком, проходящим онбординг.

Liveness как подтверждение присутствия живого человека

После этапа с селфи система должна подтвердить присутствие живого человека перед камерой. Для этого применяется Liveness. Проверка оценивает признаки реального лица в моменте: естественные движения, глубину и форму поверхности лица, реакции на сценарий съёмки, текстуру кожи, динамику кадра и другие параметры, доступные конкретной реализации.

Liveness закрывает отдельный класс атак: показ фотографии, экрана, видеозаписи, дипфейка или презентационной атаки. В связке с контролем источника видеопотока этот этап формирует более сильную защиту KYC-сессии. Один слой подтверждает достоверность канала захвата изображения, другой слой подтверждает наличие живого человека перед камерой.

Итоговая логика этапа

Таким образом, первый крупный блок KYC-процесса строится как последовательность взаимосвязанных проверок. Система должна подтвердить, что документ снимается камерой устройства в моменте, что в кадре находится оригинал документа, что изображение достаточно качественное для анализа, что реквизиты, печати, подписи и защитные элементы выглядят согласованно, что лицо пользователя соответствует фотографии в документе и что перед камерой присутствует живой человек.

Только при такой последовательности последующее решение по KYC получает прочную основу. Каждый слой усиливает следующий: контроль capture-источника повышает доверие к кадру, проверка документа повышает доверие к реквизитам, face match связывает документ с человеком, а Liveness подтверждает реальность присутствия пользователя в сессии.

Следы редактирования на изображении документа

Прохождение входного контроля формата, метаданных и качества съёмки не гарантирует, что содержимое документа не было изменено. Следующий уровень — поиск следов пиксельного редактирования. Задача — обнаружить области, которые были вставлены, перерисованы, клонированы или иным образом модифицированы после получения оригинального снимка.

Фальсификатор, работая в графическом редакторе, стремится сделать внесенные изменения максимально незаметными для глаза. Однако каждое действие — будь то вставка части другого изображения или ручная коррекция отдельной цифры — оставляет после себя специфические статистические и геометрические следы (артефакты). Эти артефакты, которые зачастую неразличимы для человека, надежно фиксируются алгоритмами цифровой криминалистики изображений (image forensics). Ниже представлены пять основных категорий таких артефактов.

Локальные вставки и склейки по несогласованности текстур и шума

Самый распространённый тип подделки — вставка фрагмента из другого изображения: чужого фото, фамилии, даты рождения, номера. Технически это операция сплайсинга (splicing): область из одного источника помещается в целевое изображение. Даже при тщательном подборе масштаба и цвета вставка порождает диагностические сигналы.

КатегорияОписание
Несогласованность шумовой моделиЛюбая камера или сканер привносит характерный сенсорный шум, интенсивность и структура которого зависят от модели устройства, ISO, экспозиции и конвейера обработки. Фрагмент с другого устройства или после иной постобработки отличается по локальной статистике шума. Алгоритмы оценки функции уровня шума (noise level function, NLF) сравнивают зависимость дисперсии шума от яркости в различных блоках изображения. Область, чья кривая NLF статистически отклоняется от глобальной, помечается как подозрительная. Для документов метод особенно эффективен: однородные фоновые зоны (поля, подложка) дают стабильную оценку шума, и локальное отклонение хорошо различимо.
Разрывы текстуры на границах вставкиПри совмещении двух фрагментов неизбежно возникает переходная зона, в которой микротекстура бумаги, зернистость печати или паттерн защитной сетки теряют непрерывность. Свёрточные нейронные сети, обученные на парах «оригинал — подделка», фиксируют такие пограничные разрывы через анализ градиентов и высокочастотных компонент. Современные архитектуры используют многомасштабные карты внимания (multi-scale attention), учитывающие как мелкие текстурные аномалии на уровне пикселей, так и более крупные семантические несоответствия — обрыв защитной линии или смещение строчной разметки.

Детектор вставок работает попиксельно или поблочно: для каждого участка вычисляется вероятность принадлежности к отредактированной области. Результат — карта аномалий (heatmap), которая передаётся в общий контур принятия решения.

Клонирование и затирание областей на фоне и в полях

Если сплайсинг предполагает внесение материала из другого источника, то клонирование (copy-move) — перенос фрагмента внутри того же изображения. Типичный сценарий: фальсификатор копирует участок чистого фона и накладывает его поверх штампа, записи или отметки. Другой вариант — затирание (inpainting): удаление объекта с автоматическим заполнением «достроенным» содержимым.

Детекция клонирования. Алгоритмы выявляют в изображении области с аномально высоким сходством, не объяснимым естественной структурой документа. Классический подход: изображение делится на перекрывающиеся блоки, для каждого вычисляются инвариантные дескрипторы, затем ищутся пары блоков с минимальным расстоянием. Нейросетевые методы решают задачу «из конца в конец»: одна ветвь обнаруживает аномалии по визуальным артефактам, вторая — по схожести регионов, модуль слияния формирует итоговую карту подделки. Такие детекторы устойчивы к типичным попыткам маскировки: небольшому повороту, масштабированию, изменению яркости и лёгкому размытию клонированной области.

Детекция затирания. Затирание сложнее для обнаружения: современные алгоритмы inpainting генерируют визуально правдоподобное заполнение. Следы остаются: аномальное размытие в зоне заполнения, нарушение регулярных паттернов (линий линовки, защитной сетки, гильоширных узоров) и несоответствие статистик текстуры окружающим областям. Для документов это особенно актуально: защитные элементы (микропечать, орнамент, цветные волокна) создают предсказуемые регулярные структуры, и их локальное нарушение служит надёжным индикатором вмешательства.

Неоднородная компрессия и артефакты повторного сохранения

Подавляющее большинство изображений документов хранится в формате JPEG. Каждое сохранение вносит характерные артефакты: изображение разбивается на блоки 8×8 пикселей, коэффициенты дискретного косинусного преобразования (DCT) квантуются по заданной матрице. Этот процесс оставляет измеримый «отпечаток» — специфическое распределение DCT-коэффициентов и блочные границы. Если всё изображение сжималось одинаково, отпечаток однороден. Если часть отредактирована и вставлена — возникает рассогласование истории сжатия.

Двойная компрессия (double JPEG compression). Когда JPEG открывают в редакторе, вносят изменения и сохраняют, отредактированные области подвергаются одному циклу сжатия, а нетронутые — двум. Это создаёт статистически различимые распределения DCT-коэффициентов: в дважды сжатых блоках появляются периодические артефакты (эффект двойного квантования, DQ-эффект). Детекторы анализируют гистограммы DCT-коэффициентов поблочно и классифицируют каждый блок как однократно или двукратно сжатый. Область, где характер сжатия отличается от остального изображения, с высокой вероятностью подверглась редактированию.

Error Level Analysis (ELA). Изображение повторно сохраняется с заведомо известным коэффициентом качества JPEG, после чего вычисляется попиксельная разность между оригиналом и пережатой копией. Однородные участки дают равномерную карту ошибок, а области с иной историей сжатия выделяются аномальным уровнем остаточной ошибки. ELA — быстрый эвристический фильтр: он не даёт однозначного ответа, но надёжно указывает зоны для детального анализа. Для документов метод хорошо работает на контрастных элементах — тексте и границах полей, где артефакты JPEG наиболее выражены.

Перерисовка текста и цифр в реквизитах

Изменение конкретных символов — номера паспорта, даты рождения, имени — одна из самых частых целей подделки. Фальсификатор может закрасить исходные символы и нарисовать новые, использовать инструмент «штамп» для переноса цифр из другой части документа или наложить текстовый слой поверх оригинала.

Шрифтовые аномалии. Документы государственного образца печатаются на стандартизированном оборудовании с фиксированным набором гарнитур и параметрами печати. Перерисованный символ почти всегда отличается по кернингу, толщине штриха, базовой линии или степени растрирования. OCR-верификация сопоставляет метрики распознанных символов с эталонными параметрами шрифта для данного типа документа. Аномальный символ получает низкий показатель уверенности (confidence score) — сигнал для дополнительной проверки.

Текстурные и компрессионные следы подмены. Перерисованная область отличается по микротекстуре: другая зернистость, отсутствие характерной для печати неровности краёв букв, иное распределение артефактов сжатия. Нейросетевые детекторы, обученные на датасетах подделок документов (DocTamper, CVPR 2023, 170 000 изображений), анализируют визуальную консистентность символов в контексте: сеть выявляет участки, где рендеринг символа статистически несовместим с окружением.

Граничные артефакты. При вставке или перерисовке вокруг символа часто остаётся тонкий «ореол» — область, где пиксели фона были сглажены или интерполированы. Он может быть невидим на экране, но фиксируется при анализе высокочастотных компонент или при ELA-проверке.

Несогласованность цвета, освещения и теней

Перенос фрагмента из одного изображения в другое редко сохраняет полное цветовое и световое единство. Различия в условиях съёмки — угол освещения, цветовая температура, баланс белого — приводят к рассогласованиям, незаметным при беглом просмотре, но алгоритмически детектируемым.

Цветовая однородность. Подложка подлинного документа имеет единый цветовой профиль, обусловленный одним источником света и одной экспозицией. Вставленный фрагмент вносит локальное смещение в цветовых каналах. Алгоритмы анализируют распределение цвета в пространствах, устойчивых к вариациям яркости (Lab, HSV), и выявляют статистически несовместимые области.

Направление и характер освещения. На документе с боковым или неравномерным освещением формируются мягкие градиенты яркости и микротени у рельефных элементов (тиснение, выпуклая печать, ламинат). Фрагмент с иным направлением света имеет иначе ориентированные тени и блики. Методы оценки направления освещения строят модель светового поля для всего изображения и детектируют области, где локальный вектор освещения конфликтует с глобальным.

Хроматическая аберрация. Объектив камеры вносит цветовое смещение, зависящее от расстояния до оптического центра кадра. Перемещённый или заимствованный фрагмент не соответствует модели аберрации, рассчитанной для данного объектива и позиции в кадре. Этот сигнал дополняет шумовой и текстурный анализ, формируя ещё один независимый канал детекции.

Совокупность проверок — шумовой анализ, детекция клонирования, анализ компрессии, верификация шрифтов и проверка цветосветовой согласованности — образует мультисигнальный антифрод-слой, работающий до привлечения OCR и структурных проверок. Каждый метод по отдельности может давать ложные срабатывания: тень на сгибе документа способна имитировать цветовую аномалию, а низкое качество сканирования — сгладить артефакты двойного сжатия. Надёжный результат обеспечивает агрегация множества слабых сигналов в единую оценку риска — об этом подробнее в разделе, посвящённом итоговому скорингу.

Проверка подлинности по OCR и MRZ с правилами согласованности

Визуальный анализ изображения выявляет следы ретуши и монтажа, но одних пиксельных артефактов недостаточно для уверенного вердикта. Следующий рубеж — проверка смыслового содержания документа: соответствуют ли извлечённые данные формату, внутренним правилам и друг другу. Здесь в работу вступают OCR, машиночитаемая зона (MRZ), штрихкоды и эталонные шаблоны. Каждая проверка оперирует структурированной информацией, которую система считывает с документа и сопоставляет с набором формальных и логических правил.

Принцип: подлинный документ согласован во всех слоях данных. Фамилия в визуальной зоне совпадает с фамилией в MRZ, дата рождения в штрихкоде соответствует дате в текстовых полях, защитный фон отвечает эталону для данного типа и серии. Любое рассогласование — сигнал, требующий оценки.

Проверка целостности документа по результатам OCR

OCR извлекает текстовые данные из визуальной зоны документа (VIZ — Visual Inspection Zone): ФИО, дату рождения, номер документа, адрес, дату выдачи и срок действия. Задача антифрод-системы начинается там, где распознанный текст проходит через цепочку валидаций.

КатегорияОписание
Формат полейУ каждого типа документа есть жёсткие правила: длина серии и номера паспорта, допустимые диапазоны дат, набор символов в конкретных позициях. Если OCR считал номер российского паспорта как «12 34 5678А9», наличие буквы в числовой серии — формальное нарушение структуры. Система фиксирует расхождение автоматически.
Кросс-валидация полей внутри документаДата рождения предшествует дате выдачи; дата выдачи раньше даты окончания срока действия; возраст на момент выдачи укладывается в допустимый диапазон для данного типа документа. Код подразделения в российском паспорте связан с регионом, и эта связь проверяема по открытым справочникам. Несовпадение кода подразделения и региона выдачи — один из распространённых признаков кустарной подделки.
Шрифтовой и позиционный анализПродвинутые OCR-системы фиксируют гарнитуру, кегль, межсимвольный интервал. Подлинные документы печатаются на промышленном оборудовании с фиксированными типографскими параметрами. Обнаружение в одном поле шрифта, отличного от остальных, или отклонение межстрочного интервала от нормы для данного шаблона — сигнал для углублённой проверки.

Сверка макета и защитного фона с эталонным шаблоном документа

Каждый тип удостоверения личности имеет утверждённый дизайн: расположение полей, размер фотографии, цветовая схема, орнаментальная подложка. Антифрод-система хранит эталонные шаблоны — описания макетов и защитных элементов для каждого поддерживаемого типа и серии.

Геометрическая проверка сопоставляет координаты ключевых зон: положение строки с номером документа, область под фотографию, позицию MRZ. Смещение полей на несколько миллиметров относительно эталона может указывать на ручную пересборку макета в графическом редакторе.

Защитный фон — гильоширная сетка (guilloché) — один из наиболее надёжных индикаторов подлинности при цифровой проверке. Гильоширный узор представляет собой систему тонких кривых линий, построенных по математическим правилам. Его сложность делает точное воспроизведение крайне трудоёмким даже при наличии профессионального графического ПО. Нейросетевые модели сравнивают фрагменты фона предъявленного документа с эталонным паттерном и фиксируют искажения: разрывы линий, нарушения периодичности, отклонения цветового градиента. Исследования Al-Ghadi et al. (2022) на датасетах MIDV-2020 и FMIDV подтверждают, что CNN-модели на основе контрастного и состязательного обучения различают подлинный и поддельный гильоширный узор с показателями F1-score от 75 до 100 % в зависимости от типа документа и параметров настройки.

Сверка с шаблоном эффективна настолько, насколько полна и актуальна база эталонов. Документы обновляются: меняются серии, вводятся новые защитные элементы, корректируется дизайн. Регулярное пополнение базы шаблонов и отслеживание изменений в нормативных актах стран-эмитентов — обязательное условие работоспособности этого слоя проверки.

Проверка MRZ по формату и контрольным цифрам

Машиночитаемая зона (MRZ) — стандартизированный блок данных, напечатанный шрифтом OCR-B в нижней части страницы с персональными данными. Формат MRZ определён стандартом ICAO Doc 9303 и описывает три основных формата: TD1 (три строки по 30 символов, ID-карты), TD2 (две строки по 36 символов) и TD3 (две строки по 44 символа, паспорта).

MRZ допускает только заглавные латинские буквы A–Z, цифры 0–9 и символ-заполнитель «<». Любой другой символ в считанной строке — однозначный индикатор ошибки распознавания или нарушения целостности.

Ключевой механизм защиты — контрольные цифры (check digits). Каждый символ переводится в числовое значение (цифры сохраняют своё значение, буквы A–Z кодируются числами 10–35, «<» равен 0), последовательность умножается на повторяющиеся весовые коэффициенты 7, 3, 1, результаты суммируются, остаток от деления суммы на 10 даёт контрольную цифру.

В MRZ паспорта (TD3) контрольными цифрами защищены: номер документа, дата рождения, дата окончания срока действия, персональный номер (при наличии), а также составная контрольная цифра, охватывающая несколько полей второй строки. Если хотя бы один символ в защищённом поле изменён, пересчитанная контрольная цифра не совпадёт с указанной.

Проверка MRZ занимает миллисекунды, не требует обращения к внешним базам и выполняется полностью локально. Успешная проверка контрольных цифр подтверждает внутреннюю согласованность MRZ, но не доказывает подлинность документа: мошенник, владеющий алгоритмом, способен сгенерировать MRZ с корректными контрольными цифрами для вымышленных данных. Проверка MRZ — необходимый, но не достаточный элемент верификации, и она всегда применяется в связке с другими методами.

Девятая редакция ICAO Doc 9303, вступившая в силу 1 января 2026 года, вводит стандартизированные двухбуквенные коды типа документа в MRZ: «PP» для обычного паспорта, «PD» для дипломатического, «PE» для экстренного. С этой даты паспорта, использующие вторую букву в коде типа, обязаны применять стандартные обозначения из Doc 9303-4; с 1 января 2028 года двухбуквенный код станет обязательным для всех вновь выпускаемых паспортов. Антифрод-системы должны учитывать переходный период: документы новых серий проверяются по обновлённым правилам, документы предыдущих — по прежним.

Сверим MRZ, OCR и визуальную зону — автоматически и с учётом новых серий документов

Кросс-валидация полей между MRZ, VIZ и штрихкодами выявляет подделки, которые невозможно обнаружить одним пиксельным анализом, — но только при условии, что база эталонов актуальна и правила транслитерации учтены. AI-OCR модуль NeuroVision извлекает данные из визуальной зоны с точностью 99,85% для печатных документов, параллельно парсит MRZ по стандартам ICAO Doc 9303 с пересчётом контрольных цифр и сопоставляет поля посимвольно с учётом таблиц транслитерации стран-эмитентов. Покрытие платформы — более 10 000 типов документов, эталоны обновляются при выпуске новых серий и изменении нормативных актов. Мы проведём аудит вашего текущего потока документов, определим, какие типы и регионы требуют приоритетного покрытия, и предложим конфигурацию с оптимальным балансом автоматизации и ручного контроля.

Отправить запрос на аудит потока документов

Поиск несоответствий между MRZ и визуальными реквизитами

Перекрёстная сверка MRZ и визуальной зоны (VIZ) — один из наиболее результативных методов выявления подделок на уровне редактирования текста или изображения. Злоумышленник, изменивший ФИО или дату рождения в визуальной части, нередко оставляет MRZ нетронутой — по невнимательности или потому, что не владеет алгоритмом пересчёта контрольных цифр.

Система извлекает одни и те же поля из двух источников — VIZ (через OCR) и MRZ (через специализированный парсер) — и сопоставляет их посимвольно с учётом правил транслитерации. Стандарт ICAO Doc 9303, часть 3, определяет порядок транслитерации: немецкая «ü» передаётся как «UE», исландская «ð» — как «D». Для кириллических имён применяются таблицы транслитерации страны-эмитента. Несовпадение, не объяснимое правилами транслитерации, — весомый сигнал тревоги.

Типичные расхождения при кросс-проверке: фамилия или имя в VIZ не соответствует MRZ (самый частый случай при подмене текстовых полей в редакторе); различается дата рождения; номер документа в MRZ не совпадает с напечатанным в визуальной зоне; код гражданства в MRZ не соответствует стране, указанной в VIZ; пол в MRZ (M/F/«<») противоречит данным визуальной зоны.

Каждое расхождение получает весовой коэффициент. Несовпадение номера документа оценивается выше, чем расхождение в одном символе фамилии, которое может объясняться вариативностью транслитерации. Набор расхождений передаётся в модуль агрегации рисков для маршрутизации: автоматический отказ, ручная проверка или запрос дополнительных документов.

Проверка штрихкодов и QR-кода на согласованность с полями

Ряд удостоверений содержит машиночитаемые элементы помимо MRZ: двумерные штрихкоды PDF417 (водительские удостоверения, прежде всего в США и Канаде), QR-коды (биометрические ID-карты ряда стран ЕС), линейные штрихкоды на некоторых типах виз. Эти элементы кодируют персональные данные владельца — зачастую в объёме, сопоставимом с MRZ или превышающем его.

Система декодирует содержимое штрихкода или QR-кода и сопоставляет извлечённые поля с данными из VIZ и MRZ. Совпадение всех трёх источников — сильный положительный сигнал. Расхождение хотя бы в одном поле — основание для повышения уровня риска.

PDF417 использует коррекцию ошибок по алгоритму Рида — Соломона: повреждённые при печати или съёмке данные восстанавливаются в определённых пределах. Если структура кода нарушена за пределами корректирующей способности или не соответствует ожидаемой спецификации для данного типа документа, это также индикатор проблемы.

Наличие корректного штрихкода само по себе не гарантирует подлинность. Формат PDF417 открыт и документирован (ISO/IEC 15438), злоумышленник способен сгенерировать штрихкод с произвольными данными. Ряд стран решает эту проблему криптографической подписью внутри кода: данные подписываются закрытым ключом эмитента, а проверяющая сторона валидирует подпись открытым ключом. 

Такой подход реализован, в частности, во французских биометрических ID-картах, где QR-код содержит электронную печать (cachet électronique visible — CEV) по стандартам ISO 22376 и ISO 22385, позволяющую подтвердить подлинность данных без обращения к централизованной базе.

Для документов без криптографической подписи штрихкод — дополнительный слой согласованности: он не может быть единственным доказательством подлинности, но расхождение с VIZ или MRZ — надёжный индикатор манипуляции.

Проверки OCR, MRZ, шаблонов и машиночитаемых кодов формируют слой логической валидации. Он работает не с пикселями, а со смыслом, — и выявляет подделки, выполненные технически аккуратно, но содержащие внутренние противоречия, которые невозможно устранить без полного понимания структуры и правил конкретного документа.

Обнаружение подмены фотографии владельца

Фотография — самый уязвимый элемент документа с точки зрения подделки. Через замену снимка злоумышленник превращает чужой подлинный документ в свой: реквизиты, серийные номера, MRZ и защитные элементы остаются настоящими, а подставленное фото позволяет пройти проверку под чужим именем. По данным ICAO и Европола, подмена фотографии (photo substitution) входит в число наиболее распространённых способов подделки паспортов и удостоверений личности. Анализ зоны фото должен работать как самостоятельный контур проверки, а не просто дополнение к OCR и MRZ-валидации.

Анализ зоны фотографии на признаки вклейки или замены

При физической замене фото в бумажном документе (с последующим сканированием) остаются следы, различимые на цифровом изображении. При цифровой подделке — подмене в графическом редакторе — природа артефактов иная, но принцип детекции общий: система ищет локальные несогласованности, которых не бывает в оригинале.

Первое, на что обращает внимание алгоритм, — граница фотографии. В подлинном документе переход от снимка к фону страницы обладает характерной текстурой: для бумажных паспортов это ровная линия с одинаковым уровнем компрессионных артефактов по обе стороны, для поликарбонатных карт — однородная структура без визуальных разрывов. Физическая вклейка оставляет на скане тонкую теневую полосу вдоль края, микросмещение плоскости (заметное по перепаду резкости) или утолщение подложки. Цифровая замена выдаёт себя разницей уровней JPEG-компрессии (ELA), несовпадением шумового профиля или резким перепадом цветовой температуры.

Система также анализирует внутреннюю однородность зоны фото, сравнивая статистику шума, яркостные и цветовые гистограммы с остальной областью страницы документа. В оригинале параметры согласованы, поскольку документ изготовлен на одном оборудовании. Вставленное изображение почти всегда имеет отличающуюся статистику: другой сенсор, другая экспозиция, иной алгоритм постобработки.

По данным IEEE-публикаций, комбинация ELA с CNN достигает accuracy 94–96 % на публичных бенчмарках, хотя реальная эффективность зависит от качества входного изображения и разнообразия обучающей выборки.

Отдельный класс атак — морфинг лица (face morphing). Злоумышленник генерирует гибридное изображение, совмещающее черты двух людей. Такой снимок может пройти алгоритмическую проверку одновременно для обоих лиц. Публикация NIST — NISTIR 8584 (август 2025) — рассматривает методы детекции морфинга и отмечает: лучшие алгоритмы обнаруживают до 100 % морфов при FAR 1 %, но только если они обучены на примерах того же генератора. На незнакомых генераторах точность может опускаться ниже 40 %. Модели нуждаются в регулярном обновлении обучающих данных по мере появления новых инструментов синтеза.

Согласованность орнамента и защитных элементов вокруг фото

Современные документы спроектированы так, чтобы замена фотографии неизбежно нарушала целостность защитных элементов. На странице данных паспорта орнаментальный рисунок, гильоширная сетка или микротекстовая подложка проходят непрерывно через зону фото и за её пределы. Если снимок заменён, линии рисунка обрываются, смещаются или исчезают на границе вставки.

Для поликарбонатных документов (ID-карты, биометрические паспорта нового поколения) защита ещё серьёзнее. Фото персонализируется лазерной гравировкой внутри слоёв поликарбоната, поверх наносится прозрачная голографическая плёнка с оптически переменным устройством (OVD). Расслоение такой конструкции разрушает и гравировку, и голограмму. На цифровом изображении это проявляется как отсутствие или искажение голографического отблика в зоне фотографии, нарушение непрерывности защитного рисунка, несовпадение позиции элементов OVD относительно лица.

Автоматизированная проверка строится на сравнении с эталонным шаблоном конкретного типа и серии документа. Система знает, как выглядит защитный фон, где проходят линии орнамента, какова геометрия голографических элементов. Отклонения фиксируются через попиксельное сопоставление структуры фона в зоне фото и за её пределами: разрыв орнамента на границе снимка, изменение шага, угла наклона или цветового оттенка — сигнал о вмешательстве. Точность зависит от полноты базы эталонов: промышленные платформы верификации работают с базами, охватывающими тысячи типов документов из десятков стран, и регулярно обновляют эталоны при выпуске новых серий.

Голографические и OVD-элементы видны по-разному в зависимости от условий съёмки. На фотографии документа при определённом освещении голограмма проявляется ярким бликом, и его наличие в правильной позиции служит дополнительным подтверждением подлинности. Отсутствие ожидаемого блика или его нехарактерная форма — ещё один индикатор для антифрод-движка.

Сопоставление лица на документе с селфи в KYC

Даже если фотография в документе не заменена, это не гарантирует, что документ предъявляет его законный владелец. Финальный рубеж KYC — сопоставление лица с фото в документе с живым снимком (селфи) или видеокадром пользователя.

Технически это задача one-to-one верификации: алгоритм извлекает вектор признаков (эмбеддинг) из фотографии документа и из селфи, затем вычисляет метрику сходства. Если значение выше порога — идентичность подтверждена. Ведущие алгоритмы, протестированные NIST в программе FRTE (Face Recognition Technology Evaluation), демонстрируют ложный отказ (FNMR) на уровне долей процента при фиксированном пороге ложного допуска (FMR) 0,01 %. В реальных условиях точность ощутимо зависит от качества данных: плохое освещение, низкое разрешение селфи, возрастные изменения, борода, очки, макияж — всё это повышает долю ложных отказов. Порог сходства — компромисс между безопасностью и конверсией, его значение настраивается под конкретный бизнес-сценарий.

Сопоставление лиц само по себе не защищает от презентационных атак: злоумышленник может поднести к камере распечатанное фото, воспроизвести видеозапись или использовать deepfake-генерацию в реальном времени. Face matching работает в связке с liveness-детекцией (проверкой «витальности»), которая подтверждает, что перед камерой находится реальный человек. Современные liveness-модули анализируют микродвижения, текстуру кожи, реакцию на световые стимулы, оптические свойства 3D-поверхности лица и другие признаки, недоступные для воспроизведения плоским носителем. Сертификация по ISO/IEC 30107-3 (уровни 1 и 2, тестирование iBeta) подтверждает устойчивость реализации к основным типам атак — фото, видео, маски.

Отдельный риск — injection-атаки, когда злоумышленник подменяет видеопоток на программном уровне, минуя камеру устройства. Защита строится на контроле целостности SDK и канала передачи данных: система проверяет, что изображение получено именно с физической камеры, а не из виртуального источника.

Результаты face matching, liveness и анализа зоны фотографии агрегируются в единый сигнал. Низкий скор сходства, провал liveness-проверки или обнаружение артефактов в зоне фото — каждый фактор повышает итоговую оценку риска. При пороговом значении сессия маршрутизируется на ручную проверку или автоматический отказ. Многоуровневая структура снижает число ложных срабатываний без ущерба для защиты: каждый контур перекрывает слабые места соседнего.

Закроем полный цикл KYC — от селфи до решения — в одном конвейере

Многоуровневая структура проверки — документ, фото, liveness, кросс-валидация — работает только тогда, когда все контуры интегрированы и обмениваются сигналами. Платформа NeuroVision объединяет в едином пайплайне AI-OCR с антифрод-проверками, биометрическую верификацию лица (точность Enface — 99,74%, TOP-1 среди российских алгоритмов в тестировании NIST), пассивную liveness-проверку с точностью 99,9% и агрегированный скоринг с объяснимыми причинами решения. Стоимость полного цикла — от 35 до 50 рублей за проверку в зависимости от набора модулей и объёма, время обработки лица — менее 0,1 секунды. Развёртывание возможно в облаке, в вашем периметре или в гибридном формате; ориентир по запуску — от 3 до 7 дней с учётом настройки сценариев и требований информационной безопасности. Мы рассчитаем стоимость под ваш объём заявок и подберём конфигурацию модулей, которая закроет регуляторные требования вашей юрисдикции.

Получить расчёт стоимости KYC

Антифрод решение и контроль качества детекции

Каждая отдельная проверка — анализ текстур, сверка MRZ, детекция клонов, несоответствие освещения — даёт локальный сигнал. Сам по себе он редко достаточен для категоричного вывода: артефакт компрессии может оказаться следствием конвертации, а расхождение в шрифте — результатом легитимного обновления бланка. Задача антифрод-системы — собрать разрозненные сигналы в единое решение, объяснить его логику оператору или аудитору, задать чёткие границы автоматизации и обеспечить стабильность качества во времени.

Агрегация сигналов в риск-скоринг и объяснимые причины

Риск-скоринг — числовая оценка совокупной вероятности того, что документ поддельный, отредактированный или не принадлежит заявителю. На вход поступают десятки параметров: результаты анализа шумов и артефактов сжатия, степень совпадения OCR с MRZ, состояние защитных элементов, метрика сравнения лица с селфи, метаданные файла, признаки съёмки с экрана.

Каждый параметр проходит нормализацию и получает вес. Весовые коэффициенты могут задаваться экспертными правилами, статистической моделью или ансамблем обоих подходов. Наиболее устойчивые результаты даёт гибридная архитектура: правила фиксируют жёсткие ограничения (невалидная контрольная цифра MRZ — немедленный отказ), а ML-модель оценивает совокупность мягких сигналов, каждый из которых по отдельности не критичен, но в комбинации указывает на подделку.

Итоговый скоринг — не просто число. Регуляторные требования ряда юрисдикций (в частности, статья 22 GDPR и аналогичные нормы по автоматизированному принятию решений) обязывают предоставлять субъекту данных объяснение решения, существенно затрагивающего его права. Объяснимость реализуется через перечень причин (reason codes): конкретный сработавший детектор, его вклад в итоговый балл, порог, при котором сигнал считается значимым. Для каждой проверки формируется структурированный ответ: оценка, статус, список причин с приоритетами и, при необходимости, визуальные маркеры на изображении — зоны, вызвавшие срабатывание.

Такой подход решает две задачи. Оператор ручной проверки получает конкретный маршрут анализа: какие зоны документа проверить в первую очередь и какие несоответствия обнаружены. Комплаенс-служба может продемонстрировать аудитору или регулятору, что решение принято на основании проверяемых критериев, а не произвольной оценки «чёрного ящика».

Пороги решений и маршрутизация на ручную проверку

Агрегированный скоринг разделяет документы на три категории: автоматическое одобрение, автоматический отказ и зона неопределённости, требующая ручной верификации. Границы задаются парой порогов — нижним (ниже которого документ считается достоверным) и верхним (выше которого подделка определяется с высокой уверенностью).

Выбор порогов — управляемый компромисс между долей ложных срабатываний (FPR), долей пропущенных подделок (FNR) и объёмом ручных проверок. Ужесточение верхнего порога уменьшает FNR, но увеличивает долю кейсов на ручной проверке и, следовательно, операционные затраты. Смягчение нижнего ускоряет онбординг, но повышает риск пропуска подделки.

Пороги настраиваются для каждого типа документа, региона выпуска и бизнес-сценария отдельно. Паспорт с хорошо стандартизированным бланком и MRZ допускает более жёсткие автоматические правила, чем справка о доходах без защитных элементов. В высокорисковых сценариях (открытие банковского счёта, выдача кредита) допустимая доля пропущенных подделок должна быть минимальной, даже ценой увеличения ручного потока. В низкорисковых (верификация возраста, подтверждение адреса) допустимо больше автоматических решений.

Маршрутизация дополняется приоритизацией. Кейсы с наибольшим количеством сработавших детекторов или аномальными комбинациями сигналов попадают в очередь первыми. Это позволяет операторам сосредоточиться на действительно подозрительных заявках, а не тратить ресурс на пограничные случаи, которые чаще оказываются легитимными.

Отдельный элемент — обратная связь от ручной проверки. Решения операторов (подтвердил / отклонил) возвращаются в систему как размеченные данные и используются для калибровки порогов: если операторы стабильно подтверждают кейсы определённого типа, порог для этой категории можно скорректировать, сократив ручной поток без роста риска. Замкнутая петля обратной связи — один из ключевых механизмов повышения эффективности антифрод-решения со временем.

Метрики качества проверки документов и целевые уровни ошибок

Для оценки работы антифрод-системы недостаточно общей точности (accuracy): при высокой доле легитимных документов в потоке даже примитивная модель, одобряющая всё подряд, покажет формально высокий процент, но пропустит каждую подделку. Ключевые метрики чувствительны к ошибкам каждого типа.

КатегорияОписание
False Positive Rate (FPR)Доля подлинных документов, ошибочно отклонённых. Каждый ложный отказ — потерянный клиент, обращение в поддержку, удар по конверсии. Целевой FPR зависит от контекста: в массовом онлайн-онбординге — 1–3 %, в премиальных сервисах с высокой стоимостью привлечения — ниже 1 %.
False Negative Rate (FNR)Доля поддельных документов, ошибочно принятых. Прямой финансовый и комплаенс-риск. В банковском секторе и криптовалютных сервисах ориентируются на значения ниже 1 %, в ряде случаев — ниже 0,1 %.
Automation RateДоля заявок, обработанных полностью автоматически. Типичные ориентиры для зрелых решений — 85–95 %, но конкретное значение зависит от качества входного потока, разнообразия типов документов и настроек порогов.

Помимо основных метрик, отслеживаются скорость обработки (латентность), время до финального решения с учётом ручной проверки, precision и recall по отдельным типам подделок. Система может демонстрировать приемлемые агрегированные показатели, но пропускать конкретный класс атак — перерисовку цифр или подмену фотографии определённым способом.

Метрики фиксируются в разрезе типов документов, стран выпуска, каналов поступления и временных периодов. Без такой детализации деградация на узком сегменте остаётся незаметной на фоне общих средних. Регулярная отчётность — обязательный элемент как внутреннего контроля, так и взаимодействия с регулятором, который вправе запросить данные о точности автоматизированных решений.

Мониторинг дрейфа и обновление правил и моделей

Антифрод-система работает в условиях постоянных изменений. Мошенники адаптируют методы: вместо грубой вклейки переходят к генеративным моделям, вместо редактирования JPEG — к пересъёмке с экрана, вместо поддельных паспортов — к менее защищённым типам документов. Параллельно меняются легитимные данные: обновляются бланки, появляются новые серии, смещается географический и демографический состав потока. Модель, обученная на вчерашних данных и не адаптированная к текущей реальности, неизбежно теряет качество.

Это явление — дрейф: изменение распределения входных данных (data drift) или связи между признаками и целевой переменной (concept drift). Data drift проявляется при массовом появлении нового образца документа, которого не было в обучающей выборке. Concept drift — когда прежде надёжный признак подделки перестаёт работать, потому что мошенники научились его обходить.

Система мониторинга отслеживает несколько уровней. На уровне входных данных контролируются распределения ключевых признаков: резкое изменение доли документов определённого типа или региона — сигнал к анализу. Статистические тесты (критерий Колмогорова — Смирнова для непрерывных признаков, индекс стабильности популяции — PSI) формализуют порог значимости отклонения.

На уровне модели отслеживается распределение выходных скорингов и доля кейсов в зоне неопределённости. Рост этой доли указывает, что модель «теряет уверенность» — входные данные всё чаще оказываются за пределами её обучающего опыта. На уровне бизнес-метрик контролируются FPR, FNR, доля ручных проверок, конверсия онбординга и число подтверждённых фрод-инцидентов. Ухудшение любого показателя — триггер расследования.

Реакция на дрейф зависит от его характера. Появление нового бланка требует обновления эталонных шаблонов и правил валидации, но не переобучения ML-моделей. Смена тактики мошенников может потребовать дообучения на свежих размеченных данных с образцами новых типов подделок. В критических случаях промежуточной мерой становится ужесточение порогов: больше кейсов уходит на ручную проверку, что снижает FNR до выпуска обновлённой модели.

Настроим мониторинг и обновление моделей, чтобы антифрод не терял качество со временем

Дрейф данных и смена тактик фальсификации обесценивают даже точно настроенную систему — без непрерывного мониторинга метрик и обновления эталонов деградация обнаруживается уже по последствиям. NeuroVision берёт на себя сопровождение антифрод-контура: мониторинг FPR, FNR и доли автоматических решений в разрезе типов документов и регионов, обновление эталонных шаблонов при выпуске новых серий, дообучение моделей на свежих данных с валидацией в shadow-режиме. SLA доступности платформы — 99,99%, тестовый период — до 1 месяца, за вами закрепляется персональный аккаунт-менеджер и техническая поддержка 24/7. Начнём с совместной проработки ваших сценариев и целевых метрик качества — на выходе вы получите согласованный план запуска с понятными критериями приёмки на каждом этапе.

Записаться на стратегическую сессию

Цикл обновления включает сбор новых размеченных данных (в том числе из обратной связи операторов), дообучение модели, валидацию на тестовой выборке, параллельный запуск (shadow mode) рядом с продуктивной версией и переключение при подтверждении улучшения метрик. Версионирование моделей и правил с возможностью отката — обязательное условие: если новая версия ухудшает качество на каком-либо сегменте, система должна позволять быстро вернуться к предыдущей.

Частота обновлений определяется скоростью изменений и критичностью задачи. В высоконагруженных KYC-сервисах, обрабатывающих сотни тысяч заявок в месяц, правила и шаблоны корректируются по мере поступления новых образцов, а модели проходят ревизию ежемесячно или ежеквартально. Для менее динамичных сценариев достаточно квартального или полугодового цикла, но мониторинг метрик должен оставаться непрерывным. Без него антифрод-решение деградирует незаметно, а последствия обнаруживаются уже в виде пропущенных инцидентов или всплеска ложных отказов.

Вывод
Надёжность проверки документов определяется глубиной KYC и согласованностью его звеньев

Выявление подделок требует выстроенной цепочки: от побайтовой валидации файла и анализа пиксельных артефактов до кросс-проверки MRZ, OCR, штрихкодов и биометрии. Ни один слой не самодостаточен — грубую вклейку пропустит шумовой анализ без сверки с эталонным шаблоном, а корректно пересчитанные контрольные цифры MRZ не спасут от морфинга фотографии. Агрегация множества слабых сигналов в единый риск-скоринг с объяснимыми причинами позволяет удерживать баланс между пропущенными подделками, ложными отказами и объёмом ручных проверок.

Процесс KYC остаётся живой системой: бланки обновляются, тактики фальсификации усложняются, распределение входного потока смещается. Мониторинг дрейфа, замкнутая петля обратной связи от операторов и регулярное обновление моделей и шаблонов — условия, без которых даже точно настроенное решение со временем теряет качество. Понимание архитектуры проверки на каждом уровне даёт команде внедрения чёткие критерии оценки: какие сигналы должны извлекаться, как они комбинируются и какие метрики подтверждают, что система работает.

Оставьте заявку, чтобы внедрить топ-1 KYC от NeuroVision

С нами уже работают
OZON
Почта Банк
CSVT
БКС
Svargo
Материк
Озон банк
Arvix