chipslays / cracker
Crack, crack aaand crack it!
Requires
- guzzlehttp/guzzle: 7.0
- intervention/image: ^2.5
- thiagoalessio/tesseract_ocr: ^2.9
README
Автоматическое распознавание капчи в игровом сервисе Steam.
Проблема
При написании библиотеки Steam Client, я сталкивался с вводом капчи. В какой-то момент постоянный ввод капчи стал надоедать, поэтому было принято решение сделать распознование капчи.
Решение
Для распознования используется Tesseract OCR + отдельно обученная модель (языковой файл) на основе 5000 разных капч.
Обучение модели сделано на основе этого репозитория.
Процесс распознования следующий: каждый раз ссылка на картинку с капчей генерирует один и тот же текст в течении некоторого времени, а потом умирает. Но текст на картинке всегда будет один и тот же, меняется только хаотичность букв и шума. Поэтому на основе этого, задается количество итераций распознования, например 10 итераций, после окончания цикла, выбираются те символы которые встречались чаще всего.
Зависимости
Imagick
Tesseract OCR
Trained model (for better recognition)
Установка
$ composer require chipslays/cracker
Использование
use Cracker\Crack; require 'vendor/autoload.php'; /** * Можно передать файл или ссылку. * Например: * https://steamcommunity.com/public/captcha.php?gid=387475048XXXXXXXXXXXXXXXX * images/captcha.png */ $cracked = (new Crack('https://raw.githubusercontent.com/chipslays/cracker/master/.github/captcha.png')) ->temp(__DIR__ . '/storage') // папка для временных файлов ->tessdata(__DIR__) // указываем путь где храняться модели ->model('steam') // используем свою модель ->iterations(1) // количество итераций ->resolve(true); // true - вернуть массив print_r($cracked); /** output */ Array ( [sortedChars] => Array ( [0] => Array ( [M] => 1 ) [1] => Array ( [J] => 1 ) [2] => Array ( [X] => 1 ) [3] => Array ( [N] => 1 ) [4] => Array ( [P] => 1 ) [5] => Array ( [9] => 1 ) ) [mostUsedChars] => Array ( [0] => M [1] => J [2] => X [3] => N [4] => P [5] => 9 ) [captcha] => MJXNP9 [time] => 0.9768 )
Как видно из результата, в sortedChars
все 3 итерации распознали одни и те же символы.
Время выполнение (ключ time
) заняло 0.9 сек, чем больше итераций, тем больше времени занимает распознование.
В примере указана обученная модель, ей достаточно 1 итерации для корректного распознования, но так как изображение модифицируется, в некоторых случаях бывают артефакты, когда буква залита или наоборот ее не видно, либо видно только маленький кусок, в таких случаях конечно есть погрешности.
Внимание! Этот репозиторий не содержит обученную модель, поэтому вам необходимо самостоятельно собрать данные и обучить ее. Я лишь показал, что это возможно сделать. Информация по обучению находится здесь.
Можно попробовать использовать стандартную модель eng
:
$cracked = (new Crack($fileOrUrl)) ->temp(__DIR__ . '/storage') ->model('eng') ->iterations(10) ->resolve(true);
Для модели eng
нужно больше итераций и времени, но качество распознавания в любом случае оставляет желать лучшего.
TODO
- Рефакторинг кода
- Возможность модифицировать изображение