Проверка подлинности документа в KYC‑системе — от AI‑OCR и MRZ до проверки liveness и антифрод‑сигналов

Как KYC‑система проверяет документ

Проверка документа в KYC — цепочка последовательных этапов, каждый из которых решает свою задачу. Система принимает изображение, определяет тип документа, извлекает данные, оценивает подлинность и формирует итоговый вердикт. Весь процесс занимает секунды и проходит без участия человека — до тех пор, пока алгоритм не обнаружит аномалию.

Захват документа и контроль качества

Проверка начинается с получения изображения. Пользователь фотографирует документ через камеру смартфона или загружает скан, а SDK на стороне клиента — мобильное или веб-приложение — передает файл на сервер. Качество входного снимка критично: дальнейшие алгоритмы работают с пикселями, и если изображение размыто, обрезано или снято под острым углом, точность распознавания резко падает.

Поэтому еще до отправки на сервер SDK выполняет предварительную фильтрацию: проверяет достаточность разрешения, отсутствие критичных засветов и теней, наличие всех углов документа в кадре, допустимый уровень перспективного искажения. Если качество не проходит порог, пользователь получает подсказку — сфотографировать заново, убрать блик, расположить документ ровнее. Контроль на входе снижает долю ошибочных отказов и экономит серверные ресурсы: на обработку уходят только пригодные изображения.

После приема сервер выполняет нормализацию: выравнивает перспективу, корректирует экспозицию, при необходимости обрезает фон. Нормализованное изображение становится исходным материалом для всех дальнейших проверок.

Классификация документа и AI‑OCR

Прежде чем извлекать данные, система определяет, что перед ней: паспорт, водительское удостоверение, ID-карта, вид на жительство или иной тип документа. Классификационная модель на основе сверточных нейронных сетей определяет тип и страну выдачи по визуальным признакам — расположению полей, цветовой схеме, размеру и структуре. Зрелые платформы поддерживают десятки тысяч шаблонов из сотен стран и обрабатывают документы практически любой юрисдикции.

После классификации в работу вступает AI-OCR — оптическое распознавание символов на основе нейросетей. Технология распознает печатный и рукописный текст, извлекает значения конкретных полей — имя, фамилию, дату рождения, номер документа, срок действия — и формирует структурированный набор данных в машиночитаемом формате. Точность распознавания печатных полей у зрелых решений достигает 99,8–99,9%; для рукописного текста она ниже — порядка 97–98%, что обусловлено вариативностью почерка.

Классификация и OCR — фундамент для всех последующих проверок: без корректно извлеченных данных невозможно ни сверить поля, ни оценить шаблон, ни сформировать итоговый скоринг.

Оцените точность распознавания на ваших типах документов

Качество извлечённых данных определяет надёжность всей цепочки проверок — от сверки полей до итогового скоринга. Платформа NeuroVision распознаёт более 10 000 типов документов из 200+ стран на 90+ языках со скоростью менее одной секунды и точностью 99,85% для печатного текста.

Мы подберём набор типов документов под ваши сценарии, подключим классификацию и извлечение полей, проверим качество распознавания на реальных данных. Вы получите структурированный результат в формате JSON через REST API или SDK — готовый для передачи в дальнейшие проверки и бизнес-системы. Интеграция через API/SDK занимает от 24 часов, полное внедрение — от 3 до 7 дней в зависимости от контура и требований информационной безопасности.

Запросить тестовый доступ к AI-OCR

Проверка подлинности документа

Извлеченные данные и само изображение проходят многоуровневую проверку подлинности. Каждый уровень нацелен на определенный класс фальсификаций — от примитивной замены текста до профессиональной цифровой подмены фрагментов.

Сверка полей и MRZ

Первый контроль — внутренняя непротиворечивость данных. Система сопоставляет значения, извлеченные из визуальной зоны документа (VIZ), с данными машиночитаемой зоны (MRZ). MRZ — стандартизированная область в нижней части паспорта или ID-карты, структура которой определена стандартом ICAO 9303. Она содержит имя владельца, гражданство, номер документа, дату рождения, пол и срок действия, закодированные шрифтом OCR-B в строго фиксированном формате.

Ключевой механизм защиты MRZ — контрольные цифры (check digits). Они вычисляются по алгоритму «модуль 10» с циклически повторяющимися весовыми коэффициентами 7–3-1 для каждого из критичных полей: номера документа, даты рождения, срока действия. Если хотя бы один символ в поле изменен, контрольная цифра перестает совпадать. Система пересчитывает каждую контрольную сумму и сравнивает результат с указанным в документе. Несовпадение — сигнал о возможной подделке или механическом повреждении.

Помимо MRZ, перекрестно сверяются все дублирующиеся данные: имя в визуальной зоне и в MRZ, дата рождения на разных страницах, номер документа в разных местах бланка. Любое расхождение фиксируется и передается на этап скоринга.

Проверка шаблона и оформления

Каждый тип документа имеет эталонный шаблон: фиксированные позиции полей, размеры шрифтов, палитру цветов, расположение фотографии, герба и элементов защиты. Система сопоставляет полученное изображение с эталоном и фиксирует отклонения.

Анализируются геометрические пропорции полей, соответствие шрифтов (гарнитура, кегль, межбуквенные интервалы), расположение и размеры фотографии, цветовая гамма фона и элементов оформления. Поддельный документ, изготовленный по неточному шаблону, выдает себя даже на уровне отступа в доли миллиметра — нейросетевые модели фиксируют расхождения, незаметные человеческому глазу.

Отдельно оценивается логика содержимого: серия и номер должны соответствовать формату страны-эмитента, дата выдачи — укладываться в допустимый диапазон, возраст на фото — быть когерентным дате рождения. Эти проверки отсекают грубые подделки, созданные без знания правил оформления конкретного документа.

Проверка целостности и защитных элементов

На следующем уровне система анализирует физические признаки подлинности, доступные на цифровом изображении. Современные паспорта и ID-карты содержат защитные элементы, часть которых остается видимой на фотографии: микротекст, гильоширные узоры, оптически переменные элементы (OVI), голограммы и кинеграммы.

Нейросетевые модели обучены распознавать наличие и корректное расположение этих элементов. Отсутствие голограммы, ее смещение или замена однотонной заливкой фиксируется как аномалия. Аналогично оценивается целостность фоновых узоров: прерывание гильоширной линии в месте расположения фотографии или текста может указывать на монтаж — вклейку фрагмента из другого источника.

Отдельный блок — анализ целостности ламинации. На поддельных документах нередко заметны следы расслоения, заломы или неоднородность отражения в зоне подмены данных. Алгоритмы оценивают текстуру поверхности и однородность бликов, чтобы обнаружить такие следы.

Поиск цифровой подмены изображения

Наиболее сложный класс подделок — цифровая модификация: злоумышленник берет скан подлинного документа и редактирует отдельные поля или фотографию в графическом редакторе. Для обнаружения подобных манипуляций применяется цифровая криминалистика изображений.

Один из базовых методов — анализ уровней ошибок (Error Level Analysis, ELA). Изображение пересохраняется с известным уровнем JPEG-сжатия, после чего сравнивается с оригиналом попиксельно. Области, подвергавшиеся редактированию и повторному сохранению, демонстрируют аномальные компрессионные артефакты, отличающиеся от остальной части документа.

Помимо ELA, используются дополнительные методы. Анализ метаданных (EXIF) позволяет обнаружить следы обработки: несоответствие заявленной камеры фактическому разрешению, присутствие меток графических редакторов. Модели на базе сверточных нейросетей оценивают однородность шумовой структуры изображения — у фрагмента, вставленного из другого файла, шумовой профиль неизбежно отличается от фона документа. Отдельные алгоритмы обнаруживают клонирование — копирование участка изображения внутри того же файла для маскировки удаленных данных.

Совокупность этих методов формирует многослойный барьер: даже если подделка пройдет одну проверку, ее с высокой вероятностью зафиксирует другая.

Риск‑скоринг и ручная проверка

Результаты всех проверок агрегируются в единый риск-скоринг. Каждому сигналу — несовпадение контрольной цифры, аномальный шрифт, подозрительный уровень ошибок в зоне фотографии — присваивается вес, и по итогам формируется числовая оценка доверия к документу.

На основе скоринга система принимает одно из трех решений: документ признается подлинным и проходит автоматически; документ отклоняется как подделка; документ направляется на ручную проверку оператору. Пороги для каждого решения настраиваются под конкретный бизнес-процесс: банк с жесткими требованиями регулятора задаст более низкий порог автоматического одобрения, онлайн-сервис с массовой регистрацией — более высокий, чтобы не перегружать операторов.

Ручная проверка — осознанный элемент архитектуры, а не признак слабости системы. Она нужна для пограничных случаев: документ поврежден, но подлинен; качество снимка на грани допустимого; формат документа нетипичный и не полностью покрыт шаблоном. Оператор видит изображение документа, результаты каждой автоматической проверки с пояснениями, извлеченные данные и итоговый скоринг — и принимает взвешенное решение за минуты.

Зрелые KYC-платформы автоматически пропускают до 90% заявок без участия человека. Оставшиеся 10% — не обязательно подделки, а в значительной мере нестандартные случаи, для которых алгоритму не хватает уверенности. Такой подход балансирует скорость прохождения для добросовестных пользователей и надежность выявления фальсификаций.

Настройте пороги -скоринга под ваш допустимый уровень риска

Баланс между автоматическим одобрением и ручной проверкой зависит от требований регулятора и допустимого фрод-риска конкретного бизнеса. Платформа NeuroVision позволяет гибко настраивать сценарии KYC: набор требуемых документов, последовательность шагов, пороги скоринга и маршрутизацию пограничных случаев на оператора. При корректной конфигурации до 90% заявок проходят без участия человека, а спорные кейсы поступают в операторский интерфейс с полным набором данных, результатами автоматических проверок и причинами решения.

Мы проведём пилот на ваших потоках, соберём метрики конверсии и ложных срабатываний, подберём оптимальные пороги для вашего профиля рисков. Полный rollout занимает 3–7 дней в зависимости от контура и требований информационной безопасности.

Оставить заявку на пилотный запуск

Какие сигналы вне документа помогают выявить подделку

Проверка самого документа — лишь часть уравнения. Даже технически безупречная подделка проваливается, если система анализирует контекст: соответствует ли лицо на селфи фотографии в паспорте, присутствует ли перед камерой живой человек, не указывают ли параметры устройства и поведение пользователя на мошенническую схему. Этот внешний контур проверок превращает KYC из сканера документов в полноценный антифрод-барьер.

Сопоставление селфи с фото в документе

После извлечения фотографии из документа система сравнивает ее с селфи, которое пользователь делает в реальном времени. Технически это задача биометрической верификации 1:1 — алгоритм строит математическое представление лица (биометрический шаблон) для каждого изображения и вычисляет степень сходства между ними. Если показатель ниже порогового значения, верификация не пройдена.

Основной вызов — разница условий съемки. Фото в паспорте сделано в студии при контролируемом освещении, возможно, несколько лет назад. Селфи снимается на камеру смартфона, часто при неравномерном свете, под произвольным углом, а внешность человека могла измениться: появились борода, очки, другая прическа, изменился вес. Современные нейросетевые модели учитывают эти вариации и сопоставляют не пиксели, а геометрию и уникальные признаки лица — расстояния между ключевыми точками, форму скул, контур надбровных дуг, — что позволяет корректно работать даже при существенных возрастных и визуальных отличиях.

Подключите биометрическую верификацию с подтверждённой точностью 99,74%

Разница условий съёмки — студийное фото в документе и селфи со смартфона — требует алгоритма, устойчивого к возрастным изменениям, освещению и ракурсу. Модуль NeuroVision проходит бенчмаркирование NIST FRVT, занимает первую позицию среди российских участников и входит в TOP-30 мировых решений. Верификация выполняется менее чем за 0,1 секунды при вероятности ложного совпадения на уровне одного случая на миллион сравнений.

Мы встроим NeuroVision в ваш процесс через SDK для iOS, Android или Web — с контролем качества селфи прямо на устройстве пользователя, что сокращает число повторных попыток. Вы получите результат биометрического сравнения, скоринг и флаги в формате JSON, готовые к обработке в вашем backend. Развёртывание доступно в облаке или в защищённом контуре вашей инфраструктуры.

Запросить демо модуля NeuroVision

Точность сравнения определяет два критических показателя: долю ложных отказов (когда настоящему владельцу документа отказывают в верификации) и долю ложных совпадений (когда мошенник проходит по чужому документу). Алгоритмы, протестированные по методологии NIST FRVT, демонстрируют верификацию на уровне 99,7–99,9% при частоте ложных совпадений порядка одного случая на миллион сравнений. Платформа NeuroVision использует для этой задачи модуль NeuroVision, который в тестировании NIST FRVT входит в число лучших мировых решений (в пределах TOP-30) и занимает первую позицию среди российских участников.

Нюанс, который часто недооценивают, — качество входного изображения. Если SDK на стороне клиента не контролирует резкость, освещенность и положение лица до отправки селфи на сервер, алгоритм получает зашумленный вход, и точность падает вне зависимости от мощности модели. Поэтому зрелые KYC-решения включают модуль контроля качества прямо на устройстве пользователя — это снижает число повторных попыток и ускоряет конверсию.

Проверка liveness против фото, видео и дипфейков

Совпадение лиц само по себе не гарантирует, что перед камерой находится живой человек. Мошенник может поднести к камере распечатанное фото владельца документа, воспроизвести видеозапись на экране планшета или — в более продвинутых случаях — применить дипфейк в реальном времени, подменяя собственное лицо синтетическим изображением жертвы.

Для противодействия таким атакам в KYC-пайплайне используется модуль liveness, или, в терминологии стандарта ISO/IEC 30107, — Presentation Attack Detection (PAD). Его задача — подтвердить, что биометрический образец поступает от живого, физически присутствующего человека, а не от артефакта.

Существуют два подхода. Активный liveness требует от пользователя выполнить действие — моргнуть, повернуть голову, произнести фразу. Пассивный liveness анализирует единственный кадр или короткий фрагмент видеопотока без дополнительных действий со стороны пользователя: система оценивает микродвижения глаз, текстуру кожи, характер отражений, глубину сцены и десятки других признаков, отличающих живое лицо от плоского изображения или цифровой генерации.

Пассивный подход удобнее и не увеличивает время проверки — результат возвращается менее чем за секунду.

Закройте вектор атак через дипфейки и подмену лица

Рост числа атак с синтетическими изображениями и инъекциями в программный канал делает liveness-проверку обязательным элементом KYC-контура. Модуль liveness платформы NeuroVision работает в пассивном режиме: пользователь просто смотрит в камеру, без дополнительных действий. Система анализирует микродвижения глаз, текстуру кожи, глубину сцены и другие признаки, отличающие живое лицо от фото, видео, 3D-маски или дипфейка, и возвращает результат менее чем за секунду с точностью 99,9%.

Мы подключим liveness как отдельный модуль или как шаг внутри KYC-сценария — через REST API и SDK, в облаке или в вашем защищённом контуре с контейнерной поставкой Docker/VM. Для оценки совместимости с вашей инфраструктурой достаточно оставить заявку — мы подготовим тестовое окружение сроком до одного месяца.

Запросить тестовое окружение для liveness

Угроза дипфейков качественно изменила ландшафт атак. По данным отраслевых исследований, количество попыток обхода биометрических проверок с помощью дипфейков и подмены лица в реальном времени (face swap) за последние два года выросло в разы. Отдельным вектором стали инъекционные атаки: злоумышленник не показывает подделку камере, а внедряет синтетическое изображение напрямую в программный канал передачи данных, минуя физический сенсор. Европейская спецификация CEN/TS 18099 уже определяет требования к обнаружению таких атак (Injection Attack Detection, IAD), а на уровне ISO ведется разработка глобального стандарта ISO/IEC 25456, который формализует процедуры тестирования устойчивости к инъекциям.

Отраслевым ориентиром надежности liveness-модуля служит оценка соответствия ISO/IEC 30107-3 через аккредитованные лаборатории. Тестирование проводится на нескольких уровнях сложности атак: на первом уровне проверяется защита от простых атак (распечатанные фото, видео на экране), на втором — от более сложных (качественные 3D-маски, композитные муляжи), на третьем — от экспертных атак с применением специально изготовленных артефактов. При выборе решения стоит уточнять, какой уровень пройден и в какой лаборатории, а также запрашивать метрики APCER (доля успешных атак) и BPCER (доля ложных отказов настоящим пользователям).

Надежный liveness-модуль — критический элемент KYC-системы. Без него биометрическая верификация превращается в формальность: мошенник, получивший фото жертвы из открытых источников, преодолевает проверку за секунды.

Вывод

Почему только многослойная проверка защищает от поддельных документов

Обнаружение подделки — результат согласованной работы нескольких независимых механизмов: извлечения и перекрестной сверки данных, анализа шаблона и защитных элементов, цифровой криминалистики изображения, биометрического сопоставления лица и оценки десятков сигналов со стороны устройства и поведения пользователя. Каждый слой закрывает свой класс атак, а риск-скоринг объединяет результаты в единое решение — именно эта совокупность делает систему устойчивой к фальсификациям разного уровня сложности, от грубой правки в графическом редакторе до дипфейков и инъекционных атак.

Для бизнеса это означает конкретный выбор: KYC-платформа должна покрывать всю цепочку — от контроля качества входного изображения до антифрод-контура — а не ограничиваться отдельными модулями. При оценке решения стоит проверять глубину каждого слоя, наличие независимых тестирований и сертификаций, а также гибкость настройки порогов под профиль рисков конкретного сценария.

Оцените готовность вашего к актуальным типам фальсификаций

Выбор платформы начинается с оценки глубины каждого слоя защиты и соответствия регуляторным требованиям конкретного рынка. Платформа NeuroVision покрывает полную цепочку — от контроля качества входного изображения и AI-OCR до биометрии с подтверждённым результатом NIST FRVT, liveness-модуля и антифрод-контура с более чем 40 алгоритмами. Решение зарегистрировано в реестре российского ПО (запись №19972), а развёртывание доступно в формате SaaS, on-premises или гибридной модели.

Мы проведём стратегическую сессию, разберём ваши сценарии и профиль рисков, согласуем состав модулей и модель развёртывания. Тестовый период — до одного месяца, запуск пилота — от 3 до 7 дней в зависимости от контура. Оставьте заявку — мы подготовим предложение с учётом вашей инфраструктуры и требований информационной безопасности.

Получить консультацию по запуску KYC

Как KYC‑системы выявляют поддельные документы