ricardosierra / phpspider
The PHPSpider Framework.
Installs: 3
Dependents: 0
Suggesters: 0
Security: 0
Stars: 0
Watchers: 1
Forks: 1 173
Open Issues: 0
Requires
- php: >=5.5.0
Suggests
- ext-pcntl、ext-redis: For better performance.
README
Crawler em PHP
"Usei o rastreador para" roubar "um programa que conhece cerca de um milhão de usuários, apenas para provar que o PHP é a melhor linguagem do mundo."
O Phpspider é um framework de desenvolvimento de rastreador. Com essa estrutura, você não precisa entender a implementação técnica subjacente dos rastreadores, os rastreadores são bloqueados por sites e alguns sites exigem reconhecimento de código de login ou verificação para rastrear. Com algumas linhas de código PHP, você pode criar seu próprio rastreador, usando a biblioteca de classes Worker multiprocessada empacotada pela estrutura, o código é mais conciso, a eficiência de execução é mais rápida e mais rápida.
Existem algumas regras de rastreamento para sites específicos no diretório de demonstração, desde que você instale o ambiente PHP, o código pode ser executado diretamente a partir da linha de comando. Desenvolvedores interessados em rastreadores podem se juntar ao grupo QQ para discutir: 147824717.
Requirements:
- PHP 7.0+
- Composer
Installation
You can install this library via Composer: composer require ricardosierra/phpspider
Examples
Vamos dar uma anedota como exemplo para ver como é o nosso réptil:
$configs = array(
'name' => 'Anedota',
'domains' => array(
'qiushibaike.com',
'www.qiushibaike.com'
),
'scan_urls' => array(
'http://www.qiushibaike.com/'
),
'content_url_regexes' => array(
"http://www.qiushibaike.com/article/\d+"
),
'list_url_regexes' => array(
"http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"
),
'fields' => array(
array(
// Extraia o conteúdo do artigo na página de conteúdo
'name' => "article_content",
'selector' => "//*[@id='single-next-link']",
'required' => true
),
array(
// Autor do artigo que extraiu a página de conteúdo
'name' => "article_author",
'selector' => "//div[contains(@class,'author')]//h2",
'required' => true
),
),
);
$spider = new phpspider($configs);
$spider->start();
A estrutura geral do rastreador é assim: Primeiro, defina uma matriz $ configs, que define algumas informações sobre o site a ser rastreado e, em seguida, chama-o.$spider = new phpspider($configs);
E$spider->start();
Para configurar e iniciar o rastreador.
For more information
Contributing
For contributing guidelines, please see CONTRIBUTING.md
Credits
- Seatle Yang