Как зайти в Даркнет?!
25th January, 01:11
6
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
894
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
948
0
Очень долго работает Update запрос Oracle
27th January, 09:58
914
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
905
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
938
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1724
0
период по дням
25th October, 10:44
3955
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3720
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4613
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4381
0
Помогите пожалуйста решить задачи
24th November, 23:53
6086
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4350
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4396
0
Метода Крамера С++
23rd October, 11:55
4309
0
помогите решить задачу на C++
22nd October, 17:31
4002
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4492
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2599
0
Как реализовать веб-скребок в PHP?
Какие встроенные функции PHP полезны для веб-скрейпинга? Каковы некоторые хорошие ресурсы (веб или печать) для получения до скорости на веб-скрейпинга с PHP?
Выскабливание обычно включает в себя 3 этапа:
- сначала вы GET или POST ваш запрос к указанному URL
- далее вы получаете html, который возвращается как ответ
- наконец вы разбираете из это html текст, который вы хотели бы получить царапина.
Для выполнения шагов 1 и 2 Ниже приведен простой класс php, который использует Curl для извлечения веб-страниц с помощью GET или POST. После того, как вы получите HTML обратно, вы просто используете регулярные выражения для выполнения шага 3, разбирая текст, который вы хотите очистить.
Для регулярных выражений моим любимым учебным сайтом является следующий: Учебник По Регулярным Выражениям
Моя любимая программа для работы с RegExs-это Regex Buddy . Я бы посоветовал вам попробовать демонстрацию этого продукта, даже если вы не собираетесь его покупать. Это бесценный инструмент и даже будет генерировать код для ваших регулярных выражений, которые вы делаете на вашем языке выбора (включая php).
Использование:
$curl = new Curl(); $html = $curl->get("http://www.google.com");
// now, do your regex work against $html
Я рекомендую Goutte, простой PHP веб-скребок .
Пример Использования:-
Создайте экземпляр клиента Goutte (который расширяется
Symfony\Component\BrowserKit\Client ):
use Goutte\Client;
$client = new Client();
Делайте запросы с помощью метода request() :
$crawler = $client->request('GET', 'http://www.symfony-project.org/');
Метод request возвращает объект Crawler
(33).
Нажмите на ссылки:
$link = $crawler->selectLink('Plugins')->link();
$crawler = $client->click($link);
Отправить формы:
$form = $crawler->selectButton('sign in')->form();
$crawler = $client->submit($form, array('signin[username]' => 'fabien', 'signin[password]' => 'xxxxxx'));
Извлечь данные:
$nodes = $crawler->filter('.error_list');
if ($nodes->count())
{
die(sprintf("Authentification error: %s\n", $nodes->text()));
}
printf("Nb tasks: %d\n", $crawler->filter('#nb_tasks')->text());
ScraperWiki -довольно интересный проект. Помогает вам построить скребки онлайн в Python, Ruby или PHP - я смог получить простую попытку за несколько минут.
Если вам нужно что-то, что легко поддерживать, а не быстро выполнять, это может помочь использовать браузер с поддержкой сценариев, например SimpleTest .
Выскабливание может быть довольно сложным, в зависимости от того, что вы хотите сделать. Прочтите эту учебную серию по основам написания скребка в PHP и посмотрите, сможете ли вы справиться с ним.
Вы можете использовать аналогичные методы для автоматизации регистрации форм, Логинов, даже поддельных кликов по объявлениям! Однако основные ограничения использования CURL заключаются в том, что он не поддерживает использование javascript, поэтому, если вы пытаетесь очистить сайт, который использует AJAX для разбиения на страницы, например, он может снова стать немного tricky...but, есть способы обойти это!
Класс скребка из моего фреймворка:
<?php
/*
Example:
$site = $this->load->cls('scraper', 'http://www.anysite.com');
$excss = $site->getExternalCSS();
$incss = $site->getInternalCSS();
$ids = $site->getIds();
$classes = $site->getClasses();
$spans = $site->getSpans();
print '<pre>';
print_r($excss);
print_r($incss);
print_r($ids);
print_r($classes);
print_r($spans);
*/
class scraper
{
private $url = '';
public function __construct($url)
{
$this->url = file_get_contents("$url");
}
public function getInternalCSS()
{
$tmp = preg_match_all('/(style=")(.*?)(")/is', $this->url, $patterns);
$result = array();
array_push($result, $patterns[2]);
array_push($result, count($patterns[2]));
return $result;
}
public function getExternalCSS()
{
$tmp = preg_match_all('/(href=")(\w.*\.css)"/i', $this->url, $patterns);
$result = array();
array_push($result, $patterns[2]);
array_push($result, count($patterns[2]));
return $result;
}
public function getIds()
{
$tmp = preg_match_all('/(id="(\w*)")/is', $this->url, $patterns);
$result = array();
array_push($result, $patterns[2]);
array_push($result, count($patterns[2]));
return $result;
}
public function getClasses()
{
$tmp = preg_match_all('/(class="(\w*)")/is', $this->url, $patterns);
$result = array();
array_push($result, $patterns[2]);
array_push($result, count($patterns[2]));
return $result;
}
public function getSpans(){
$tmp = preg_match_all('/(<span>)(.*)(<\/span>)/', $this->url, $patterns);
$result = array();
array_push($result, $patterns[2]);
array_push($result, count($patterns[2]));
return $result;
}
}
?>