README

Автоматическое распознавание капчи в игровом сервисе Steam.

Проблема

При написании библиотеки Steam Client, я сталкивался с вводом капчи. В какой-то момент постоянный ввод капчи стал надоедать, поэтому было принято решение сделать распознование капчи.

Решение

Для распознования используется Tesseract OCR + отдельно обученная модель (языковой файл) на основе 5000 разных капч.

Обучение модели сделано на основе этого репозитория.

Процесс распознования следующий: каждый раз ссылка на картинку с капчей генерирует один и тот же текст в течении некоторого времени, а потом умирает. Но текст на картинке всегда будет один и тот же, меняется только хаотичность букв и шума. Поэтому на основе этого, задается количество итераций распознования, например 10 итераций, после окончания цикла, выбираются те символы которые встречались чаще всего.

Зависимости

Imagick

Tesseract OCR

Trained model (for better recognition)

Установка

$ composer require chipslays/cracker

Использование

use Cracker\Crack;

require 'vendor/autoload.php';


/**
 * Можно передать файл или ссылку.
 * Например:
 *      https://steamcommunity.com/public/captcha.php?gid=387475048XXXXXXXXXXXXXXXX
 *      images/captcha.png
 */
$cracked = (new Crack('https://raw.githubusercontent.com/chipslays/cracker/master/.github/captcha.png'))
    ->temp(__DIR__ . '/storage') // папка для временных файлов
    ->tessdata(__DIR__) // указываем путь где храняться модели
    ->model('steam') // используем свою модель
    ->iterations(1) // количество итераций
    ->resolve(true); // true - вернуть массив

print_r($cracked);

/** output */
Array
(
    [sortedChars] => Array
        (
            [0] => Array
                (
                    [M] => 1
                )

            [1] => Array
                (
                    [J] => 1
                )

            [2] => Array
                (
                    [X] => 1
                )

            [3] => Array
                (
                    [N] => 1
                )

            [4] => Array
                (
                    [P] => 1
                )

            [5] => Array
                (
                    [9] => 1
                )

        )

    [mostUsedChars] => Array
        (
            [0] => M
            [1] => J
            [2] => X
            [3] => N
            [4] => P
            [5] => 9
        )

    [captcha] => MJXNP9
    [time] => 0.9768
)

Капча:

Как видно из результата, в sortedChars все 3 итерации распознали одни и те же символы.

Время выполнение (ключ time) заняло 0.9 сек, чем больше итераций, тем больше времени занимает распознование.

В примере указана обученная модель, ей достаточно 1 итерации для корректного распознования, но так как изображение модифицируется, в некоторых случаях бывают артефакты, когда буква залита или наоборот ее не видно, либо видно только маленький кусок, в таких случаях конечно есть погрешности.

Внимание! Этот репозиторий не содержит обученную модель, поэтому вам необходимо самостоятельно собрать данные и обучить ее. Я лишь показал, что это возможно сделать. Информация по обучению находится здесь.

Можно попробовать использовать стандартную модель eng:

$cracked = (new Crack($fileOrUrl))
    ->temp(__DIR__ . '/storage')
    ->model('eng')
    ->iterations(10)
    ->resolve(true);

Для модели eng нужно больше итераций и времени, но качество распознавания в любом случае оставляет желать лучшего.

TODO

Рефакторинг кода
Возможность модифицировать изображение

chipslays / cracker

Maintainers

Package info

Statistics

Security