Как KYC‑система проверяет документ
Проверка документа в KYC — цепочка последовательных этапов, каждый из которых решает свою задачу. Система принимает изображение, определяет тип документа, извлекает данные, оценивает подлинность и формирует итоговый вердикт. Весь процесс занимает секунды и проходит без участия человека — до тех пор, пока алгоритм не обнаружит аномалию.
Захват документа и контроль качества
Проверка начинается с получения изображения. Пользователь фотографирует документ через камеру смартфона или загружает скан, а SDK на стороне клиента — мобильное или веб-приложение — передает файл на сервер. Качество входного снимка критично: дальнейшие алгоритмы работают с пикселями, и если изображение размыто, обрезано или снято под острым углом, точность распознавания резко падает.
Поэтому еще до отправки на сервер SDK выполняет предварительную фильтрацию: проверяет достаточность разрешения, отсутствие критичных засветов и теней, наличие всех углов документа в кадре, допустимый уровень перспективного искажения. Если качество не проходит порог, пользователь получает подсказку — сфотографировать заново, убрать блик, расположить документ ровнее. Контроль на входе снижает долю ошибочных отказов и экономит серверные ресурсы: на обработку уходят только пригодные изображения.
После приема сервер выполняет нормализацию: выравнивает перспективу, корректирует экспозицию, при необходимости обрезает фон. Нормализованное изображение становится исходным материалом для всех дальнейших проверок.
Классификация документа и AI‑OCR
Прежде чем извлекать данные, система определяет, что перед ней: паспорт, водительское удостоверение, ID-карта, вид на жительство или иной тип документа. Классификационная модель на основе сверточных нейронных сетей определяет тип и страну выдачи по визуальным признакам — расположению полей, цветовой схеме, размеру и структуре. Зрелые платформы поддерживают десятки тысяч шаблонов из сотен стран и обрабатывают документы практически любой юрисдикции.
После классификации в работу вступает AI-OCR — оптическое распознавание символов на основе нейросетей. Технология распознает печатный и рукописный текст, извлекает значения конкретных полей — имя, фамилию, дату рождения, номер документа, срок действия — и формирует структурированный набор данных в машиночитаемом формате. Точность распознавания печатных полей у зрелых решений достигает 99,8–99,9%; для рукописного текста она ниже — порядка 97–98%, что обусловлено вариативностью почерка.
Классификация и OCR — фундамент для всех последующих проверок: без корректно извлеченных данных невозможно ни сверить поля, ни оценить шаблон, ни сформировать итоговый скоринг.
Качество извлечённых данных определяет надёжность всей цепочки проверок — от сверки полей до итогового скоринга. Платформа NeuroVision распознаёт более 10 000 типов документов из 200+ стран на 90+ языках со скоростью менее одной секунды и точностью 99,85% для печатного текста.
Мы подберём набор типов документов под ваши сценарии, подключим классификацию и извлечение полей, проверим качество распознавания на реальных данных. Вы получите структурированный результат в формате JSON через REST API или SDK — готовый для передачи в дальнейшие проверки и бизнес-системы. Интеграция через API/SDK занимает от 24 часов, полное внедрение — от 3 до 7 дней в зависимости от контура и требований информационной безопасности.
Проверка подлинности документа
Извлеченные данные и само изображение проходят многоуровневую проверку подлинности. Каждый уровень нацелен на определенный класс фальсификаций — от примитивной замены текста до профессиональной цифровой подмены фрагментов.
Сверка полей и MRZ
Первый контроль — внутренняя непротиворечивость данных. Система сопоставляет значения, извлеченные из визуальной зоны документа (VIZ), с данными машиночитаемой зоны (MRZ). MRZ — стандартизированная область в нижней части паспорта или ID-карты, структура которой определена стандартом ICAO 9303. Она содержит имя владельца, гражданство, номер документа, дату рождения, пол и срок действия, закодированные шрифтом OCR-B в строго фиксированном формате.
Ключевой механизм защиты MRZ — контрольные цифры (check digits). Они вычисляются по алгоритму «модуль 10» с циклически повторяющимися весовыми коэффициентами 7–3-1 для каждого из критичных полей: номера документа, даты рождения, срока действия. Если хотя бы один символ в поле изменен, контрольная цифра перестает совпадать. Система пересчитывает каждую контрольную сумму и сравнивает результат с указанным в документе. Несовпадение — сигнал о возможной подделке или механическом повреждении.
Помимо MRZ, перекрестно сверяются все дублирующиеся данные: имя в визуальной зоне и в MRZ, дата рождения на разных страницах, номер документа в разных местах бланка. Любое расхождение фиксируется и передается на этап скоринга.
Проверка шаблона и оформления
Каждый тип документа имеет эталонный шаблон: фиксированные позиции полей, размеры шрифтов, палитру цветов, расположение фотографии, герба и элементов защиты. Система сопоставляет полученное изображение с эталоном и фиксирует отклонения.
Анализируются геометрические пропорции полей, соответствие шрифтов (гарнитура, кегль, межбуквенные интервалы), расположение и размеры фотографии, цветовая гамма фона и элементов оформления. Поддельный документ, изготовленный по неточному шаблону, выдает себя даже на уровне отступа в доли миллиметра — нейросетевые модели фиксируют расхождения, незаметные человеческому глазу.
Отдельно оценивается логика содержимого: серия и номер должны соответствовать формату страны-эмитента, дата выдачи — укладываться в допустимый диапазон, возраст на фото — быть когерентным дате рождения. Эти проверки отсекают грубые подделки, созданные без знания правил оформления конкретного документа.
Проверка целостности и защитных элементов
На следующем уровне система анализирует физические признаки подлинности, доступные на цифровом изображении. Современные паспорта и ID-карты содержат защитные элементы, часть которых остается видимой на фотографии: микротекст, гильоширные узоры, оптически переменные элементы (OVI), голограммы и кинеграммы.
Нейросетевые модели обучены распознавать наличие и корректное расположение этих элементов. Отсутствие голограммы, ее смещение или замена однотонной заливкой фиксируется как аномалия. Аналогично оценивается целостность фоновых узоров: прерывание гильоширной линии в месте расположения фотографии или текста может указывать на монтаж — вклейку фрагмента из другого источника.
Отдельный блок — анализ целостности ламинации. На поддельных документах нередко заметны следы расслоения, заломы или неоднородность отражения в зоне подмены данных. Алгоритмы оценивают текстуру поверхности и однородность бликов, чтобы обнаружить такие следы.
Поиск цифровой подмены изображения
Наиболее сложный класс подделок — цифровая модификация: злоумышленник берет скан подлинного документа и редактирует отдельные поля или фотографию в графическом редакторе. Для обнаружения подобных манипуляций применяется цифровая криминалистика изображений.
Один из базовых методов — анализ уровней ошибок (Error Level Analysis, ELA). Изображение пересохраняется с известным уровнем JPEG-сжатия, после чего сравнивается с оригиналом попиксельно. Области, подвергавшиеся редактированию и повторному сохранению, демонстрируют аномальные компрессионные артефакты, отличающиеся от остальной части документа.
Помимо ELA, используются дополнительные методы. Анализ метаданных (EXIF) позволяет обнаружить следы обработки: несоответствие заявленной камеры фактическому разрешению, присутствие меток графических редакторов. Модели на базе сверточных нейросетей оценивают однородность шумовой структуры изображения — у фрагмента, вставленного из другого файла, шумовой профиль неизбежно отличается от фона документа. Отдельные алгоритмы обнаруживают клонирование — копирование участка изображения внутри того же файла для маскировки удаленных данных.
Совокупность этих методов формирует многослойный барьер: даже если подделка пройдет одну проверку, ее с высокой вероятностью зафиксирует другая.
Риск‑скоринг и ручная проверка
Результаты всех проверок агрегируются в единый риск-скоринг. Каждому сигналу — несовпадение контрольной цифры, аномальный шрифт, подозрительный уровень ошибок в зоне фотографии — присваивается вес, и по итогам формируется числовая оценка доверия к документу.
На основе скоринга система принимает одно из трех решений: документ признается подлинным и проходит автоматически; документ отклоняется как подделка; документ направляется на ручную проверку оператору. Пороги для каждого решения настраиваются под конкретный бизнес-процесс: банк с жесткими требованиями регулятора задаст более низкий порог автоматического одобрения, онлайн-сервис с массовой регистрацией — более высокий, чтобы не перегружать операторов.
Ручная проверка — осознанный элемент архитектуры, а не признак слабости системы. Она нужна для пограничных случаев: документ поврежден, но подлинен; качество снимка на грани допустимого; формат документа нетипичный и не полностью покрыт шаблоном. Оператор видит изображение документа, результаты каждой автоматической проверки с пояснениями, извлеченные данные и итоговый скоринг — и принимает взвешенное решение за минуты.
Зрелые KYC-платформы автоматически пропускают до 90% заявок без участия человека. Оставшиеся 10% — не обязательно подделки, а в значительной мере нестандартные случаи, для которых алгоритму не хватает уверенности. Такой подход балансирует скорость прохождения для добросовестных пользователей и надежность выявления фальсификаций.
Баланс между автоматическим одобрением и ручной проверкой зависит от требований регулятора и допустимого фрод-риска конкретного бизнеса. Платформа NeuroVision позволяет гибко настраивать сценарии KYC: набор требуемых документов, последовательность шагов, пороги скоринга и маршрутизацию пограничных случаев на оператора. При корректной конфигурации до 90% заявок проходят без участия человека, а спорные кейсы поступают в операторский интерфейс с полным набором данных, результатами автоматических проверок и причинами решения.
Мы проведём пилот на ваших потоках, соберём метрики конверсии и ложных срабатываний, подберём оптимальные пороги для вашего профиля рисков. Полный rollout занимает 3–7 дней в зависимости от контура и требований информационной безопасности.
Какие сигналы вне документа помогают выявить подделку
Проверка самого документа — лишь часть уравнения. Даже технически безупречная подделка проваливается, если система анализирует контекст: соответствует ли лицо на селфи фотографии в паспорте, присутствует ли перед камерой живой человек, не указывают ли параметры устройства и поведение пользователя на мошенническую схему. Этот внешний контур проверок превращает KYC из сканера документов в полноценный антифрод-барьер.
Сопоставление селфи с фото в документе
После извлечения фотографии из документа система сравнивает ее с селфи, которое пользователь делает в реальном времени. Технически это задача биометрической верификации 1:1 — алгоритм строит математическое представление лица (биометрический шаблон) для каждого изображения и вычисляет степень сходства между ними. Если показатель ниже порогового значения, верификация не пройдена.
Основной вызов — разница условий съемки. Фото в паспорте сделано в студии при контролируемом освещении, возможно, несколько лет назад. Селфи снимается на камеру смартфона, часто при неравномерном свете, под произвольным углом, а внешность человека могла измениться: появились борода, очки, другая прическа, изменился вес. Современные нейросетевые модели учитывают эти вариации и сопоставляют не пиксели, а геометрию и уникальные признаки лица — расстояния между ключевыми точками, форму скул, контур надбровных дуг, — что позволяет корректно работать даже при существенных возрастных и визуальных отличиях.
Разница условий съёмки — студийное фото в документе и селфи со смартфона — требует алгоритма, устойчивого к возрастным изменениям, освещению и ракурсу. Модуль NeuroVision проходит бенчмаркирование NIST FRVT, занимает первую позицию среди российских участников и входит в TOP-30 мировых решений. Верификация выполняется менее чем за 0,1 секунды при вероятности ложного совпадения на уровне одного случая на миллион сравнений.
Мы встроим NeuroVision в ваш процесс через SDK для iOS, Android или Web — с контролем качества селфи прямо на устройстве пользователя, что сокращает число повторных попыток. Вы получите результат биометрического сравнения, скоринг и флаги в формате JSON, готовые к обработке в вашем backend. Развёртывание доступно в облаке или в защищённом контуре вашей инфраструктуры.
Точность сравнения определяет два критических показателя: долю ложных отказов (когда настоящему владельцу документа отказывают в верификации) и долю ложных совпадений (когда мошенник проходит по чужому документу). Алгоритмы, протестированные по методологии NIST FRVT, демонстрируют верификацию на уровне 99,7–99,9% при частоте ложных совпадений порядка одного случая на миллион сравнений. Платформа NeuroVision использует для этой задачи модуль NeuroVision, который в тестировании NIST FRVT входит в число лучших мировых решений (в пределах TOP-30) и занимает первую позицию среди российских участников.
Нюанс, который часто недооценивают, — качество входного изображения. Если SDK на стороне клиента не контролирует резкость, освещенность и положение лица до отправки селфи на сервер, алгоритм получает зашумленный вход, и точность падает вне зависимости от мощности модели. Поэтому зрелые KYC-решения включают модуль контроля качества прямо на устройстве пользователя — это снижает число повторных попыток и ускоряет конверсию.
Проверка liveness против фото, видео и дипфейков
Совпадение лиц само по себе не гарантирует, что перед камерой находится живой человек. Мошенник может поднести к камере распечатанное фото владельца документа, воспроизвести видеозапись на экране планшета или — в более продвинутых случаях — применить дипфейк в реальном времени, подменяя собственное лицо синтетическим изображением жертвы.
Для противодействия таким атакам в KYC-пайплайне используется модуль liveness, или, в терминологии стандарта ISO/IEC 30107, — Presentation Attack Detection (PAD). Его задача — подтвердить, что биометрический образец поступает от живого, физически присутствующего человека, а не от артефакта.
Существуют два подхода. Активный liveness требует от пользователя выполнить действие — моргнуть, повернуть голову, произнести фразу. Пассивный liveness анализирует единственный кадр или короткий фрагмент видеопотока без дополнительных действий со стороны пользователя: система оценивает микродвижения глаз, текстуру кожи, характер отражений, глубину сцены и десятки других признаков, отличающих живое лицо от плоского изображения или цифровой генерации.
Пассивный подход удобнее и не увеличивает время проверки — результат возвращается менее чем за секунду.
Рост числа атак с синтетическими изображениями и инъекциями в программный канал делает liveness-проверку обязательным элементом KYC-контура. Модуль liveness платформы NeuroVision работает в пассивном режиме: пользователь просто смотрит в камеру, без дополнительных действий. Система анализирует микродвижения глаз, текстуру кожи, глубину сцены и другие признаки, отличающие живое лицо от фото, видео, 3D-маски или дипфейка, и возвращает результат менее чем за секунду с точностью 99,9%.
Мы подключим liveness как отдельный модуль или как шаг внутри KYC-сценария — через REST API и SDK, в облаке или в вашем защищённом контуре с контейнерной поставкой Docker/VM. Для оценки совместимости с вашей инфраструктурой достаточно оставить заявку — мы подготовим тестовое окружение сроком до одного месяца.
Угроза дипфейков качественно изменила ландшафт атак. По данным отраслевых исследований, количество попыток обхода биометрических проверок с помощью дипфейков и подмены лица в реальном времени (face swap) за последние два года выросло в разы. Отдельным вектором стали инъекционные атаки: злоумышленник не показывает подделку камере, а внедряет синтетическое изображение напрямую в программный канал передачи данных, минуя физический сенсор. Европейская спецификация CEN/TS 18099 уже определяет требования к обнаружению таких атак (Injection Attack Detection, IAD), а на уровне ISO ведется разработка глобального стандарта ISO/IEC 25456, который формализует процедуры тестирования устойчивости к инъекциям.
Отраслевым ориентиром надежности liveness-модуля служит оценка соответствия ISO/IEC 30107-3 через аккредитованные лаборатории. Тестирование проводится на нескольких уровнях сложности атак: на первом уровне проверяется защита от простых атак (распечатанные фото, видео на экране), на втором — от более сложных (качественные 3D-маски, композитные муляжи), на третьем — от экспертных атак с применением специально изготовленных артефактов. При выборе решения стоит уточнять, какой уровень пройден и в какой лаборатории, а также запрашивать метрики APCER (доля успешных атак) и BPCER (доля ложных отказов настоящим пользователям).
Надежный liveness-модуль — критический элемент KYC-системы. Без него биометрическая верификация превращается в формальность: мошенник, получивший фото жертвы из открытых источников, преодолевает проверку за секунды.
Обнаружение подделки — результат согласованной работы нескольких независимых механизмов: извлечения и перекрестной сверки данных, анализа шаблона и защитных элементов, цифровой криминалистики изображения, биометрического сопоставления лица и оценки десятков сигналов со стороны устройства и поведения пользователя. Каждый слой закрывает свой класс атак, а риск-скоринг объединяет результаты в единое решение — именно эта совокупность делает систему устойчивой к фальсификациям разного уровня сложности, от грубой правки в графическом редакторе до дипфейков и инъекционных атак.
Для бизнеса это означает конкретный выбор: KYC-платформа должна покрывать всю цепочку — от контроля качества входного изображения до антифрод-контура — а не ограничиваться отдельными модулями. При оценке решения стоит проверять глубину каждого слоя, наличие независимых тестирований и сертификаций, а также гибкость настройки порогов под профиль рисков конкретного сценария.
Выбор платформы начинается с оценки глубины каждого слоя защиты и соответствия регуляторным требованиям конкретного рынка. Платформа NeuroVision покрывает полную цепочку — от контроля качества входного изображения и AI-OCR до биометрии с подтверждённым результатом NIST FRVT, liveness-модуля и антифрод-контура с более чем 40 алгоритмами. Решение зарегистрировано в реестре российского ПО (запись №19972), а развёртывание доступно в формате SaaS, on-premises или гибридной модели.
Мы проведём стратегическую сессию, разберём ваши сценарии и профиль рисков, согласуем состав модулей и модель развёртывания. Тестовый период — до одного месяца, запуск пилота — от 3 до 7 дней в зависимости от контура. Оставьте заявку — мы подготовим предложение с учётом вашей инфраструктуры и требований информационной безопасности.