• Программирование ,
  • Параллельное программирование
  • Недавно я попробовал pthreads и был приятно удивлен - это расширение, которое добавляет в PHP возможность работать с несколькими самыми настоящими потоками. Никакой эмуляции, никакой магии, никаких фейков - все по-настоящему.



    Я рассматриваю такую задачу. Есть пул заданий, которые надо побыстрее выполнить. В PHP есть и другие инструменты для решения этой задачи, тут они не упоминаются, статья именно про pthreads.



    Что такое pthreads

    Вот и все! Ну почти все. На самом деле есть то, что может огорчить пытливого читателя. Все это не работает на стандартном PHP, скомпилированным с опциями по умолчанию. Чтобы насладиться многопоточностью, надо, чтобы в вашем PHP был включен ZTS (Zend Thread Safety).

    Настройка PHP

    Далее, PHP с ZTS. Не обращайте внимание на такую большую разницу во времени выполнения в сравнении с PHP без ZTS (37.65 против 265.05 секунд), я не пытался привести к общему знаменателю настройки PHP. В случае без ZTS у меня включен XDebug например.


    Как видно, при использовании 2-х потоков скорость выполнения программы примерно в 1.5 раза выше, чем в случае с линейным кодом. При использовании 4-х потоков - в 3 раза.


    Можно обратить внимание, что хоть процессор и 8-ядерный, время выполнения программы почти не менялось, если использовалось более 4 потоков. Похоже, это связано с тем, что физических ядра у моего процессора 4. Для наглядности изобразил табличку в виде диаграммы.


    Резюме

    В PHP возможна вполне элегантная работа с многопоточностью с использованием расширения pthreads. Это дает ощутимый прирост производительности.

    Теги:

    • php
    • pthreads
    Добавить метки

    В статье описана организация мультизапросов средствами PHP с использованием библиотеки cURL. Данный механизм предполагается использовать для создания скриптов, осуществляющих автоматизированные запросы ко множеству веб-серверов.

    В своей практике веб-мастерам часто приходится использовать программных роботов, осуществляющих регулярный или массовый запрос веб-страниц, заполениние регистрационных форм или выполняющих другие подобные действия. Традиционно и вполне оправданно для этой цели используется язык PHP и библиотека cURL, которая установлена практически на всех веб-серверах. Библиотека cURL, по сути, является наложением на сокеты и представляет из себя лишь удобный в использовании сервис по формированию http-запроса в зависимости от заданных параметров программиста.

    В тех случаях, когда необходимо сделать запрос к одному веб-серверу, вполне достаточно обычных средств cURL, однако если требуется формировать большое количество веб-запросов, то применение механизма многопоточности может дать существенный прирост производительности и ускорение работы скрипта.

    Прежде чем начать описывать механизм разработки скриптов сначала о том, что же я подразумеваю под многопоточностью. Дело тут в том, что ни какой многопоточности в PHP на самом деле нет и когда употребляется термин «многопоточность » касательно библиотеки cURL, то речь идет о мультизапросах.

    Механизм мультизапросов заключается в том, что во время посылки запросов веб-серверам, PHP не дожидается ответа от каждого поочередно посланного запроса, а посылает (опять же поочередно) сразу несколько запросов, и уже после этого обрабатывает приходящие от них ответы. Поэтому применять многопоточность имеет смысл только тогда, когда осуществляются запросы к разным серверам – если необходимо осуществить большое количество запросов к одному серверу, то многопоточность не принесет заметного увеличения производительности скрипта.

    Сразу хочу заметить, что средства работы с многопоточностью в cURL весьма скудные, но даже с теми что есть можно организовать полноценную работу с мультизапросами.

    Итак, теперь о практике… Рассмотрим пример, когда нужно загрузить большое количество веб-страниц, чтобы, например, проверить наличие на них кода обратной ссылки. Для этого понадобится следующее:

    1. Список всех URI помещаем в массив
    2. Создаем массив «обычных» cURL в требуемом количестве (количество потоков) и один cURL_multi
    3. Инициализируем каждый созданный cURL (URL из подготовленного ранее массива, переменные post, если требуется, прокси и т.д.)
    4. Добавляем каждый cURL в cURL_multi
    5. Запускаем все потоки при помощи вызова cURL_multi
    6. В цикле опрашиваем состояние cURL_multi и если есть отработавший поток, обрабатываем полученную страницу и на его место запускаем новый cURL. Если список URI закончился, то только обрабатываем результат. Цикл продолжается до тех пор, пока есть хотя бы один незавершенный поток.
    7. Закрываем все cURL.

    Теперь, собственно, скрипт который выполняет данную операцию:

      function Parse(&$urls ,$flowcount ) {

      // $urls — массив с URL-адресами

      // $flowcount — количество потоков

      //Запуск потоков

      $ch =array () ;

      $lcount0 =count ($urls ) ;

      if ($flowcount >$lcount0 ) $flowcount =$lcount0 ;

      for ($flow =0 ;$flow <$flowcount ;$flow ++) $ch =curl_ini(array_pop ($urls ) ) ; //создание массива cURL

      $mh =curl_multi_init() ; //создание cURL_multi

      for ($flow =0 ;$flow <$flowcount ;$flow ++) { //В этом цикле инициализируются cURL

      curl_setopt($ch [ $flow ] ,CURLOPT_REFERER,‘TESTREFERER’ ) ;

      curl_setopt($ch [ $flow ] ,CURLOPT_USERAGENT,” ) ;

      curl_setopt($ch [ $flow ] ,CURLOPT_RETURNTRANSFER,1 ) ;

      curl_setopt($ch [ $flow ] ,CURLOPT_POST,1 ) ;

      curl_setopt($ch [ $flow ] ,CURLOPT_POSTFIELDS,‘TEST=TESTVAR’ ) ;

      curl_setopt($ch [ $flow ] ,CURLOPT_COOKIE,‘TEST=TESTCOOKIE’ ) ;

      curl_multi_add_handle($mh ,$ch [ $flow ] ) ;

      $flows =null ;

      do { //Основной цикл, продолжается до тех пор, пока есть хотябы один работающий поток

      do curl_multi_exec($mh ,$flows ) ; while ($flows ==$flowcount ) ; //циклическая проверка количества работающих потоков

      $info =curl_multi_info_read($mh ) ;

      if (!count ($urls ) ) { //Больше нет URL для обработки

      curl_close($info [ ‘handle’ ] ) ;

      $flowcount –;

      } else { //Есть еще URL для обработки

      curl_setopt($info [ ‘handle’ ] ,CURLOPT_URL,array_pop ($urls ) ) ;

      $res =curl_multi_getcontent($info [ ‘handle’ ] ) ;

      curl_multi_remove_handle($mh ,$info [ ‘handle’ ] ) ;

      В тексте кода достаточно комментариев, чтобы разобраться что происходит. Поясню несколько моментов…

      1. Вызов curl_multi_init должен быть осуществлен ОБЯЗАТЕЛЬНО после того, как все “обычные” cURL будут проинициализированы, т.е. нельзя поменять 9ю и 10ю строки местами, поэтому участки кода по инициализации $ch и задания необходимых параметров разделены.

      2. При каждом вызове curl_multi_exec в строке 22 в переменную $flows помещается количество активных потоков, которое далее сравнивается с количеством запущенных потоков (переменная $flowcount будет уменьшаться, если в списке обрабатываемых URL (массив $urls) больше нет записей).

      3. curl_multi_info_read возвращает информацию об очередном отработавшем потоке, или false, если с момента предыдущего вызова этой функции никаких изменений небыло.

      4. Функция curl_multi_info_read обновляет данные, помещаемые в переменную $info только после того, как будет выполнен curl_multi_exec, поэтому для обработки каждого потока необходимо использовать обе функции.

      5. Чтобы добавить новый поток необходимо последовательно выполнить вызов трех функций: curl_multi_remove_handle, curl_multi_add_handle и curl_multi_exec.

      Ну и последнее: иногда важно знать какую-либо дополнительную информацию, связанную с обрабатываемым потоком. В этом случае можно создать ассоциативный массив, ключами которого будут являться идентификаторы потока, т.е. значения в $info[‘handle’].

    В программировании постоянно приходиться работать с различными ресурсами: файлами, сокетами, http-соединениями . И у них у всех есть некий интерфейс доступа, часто несовместимый друг с другом. Поэтому, чтобы устранить данные несоответствия и унифицировать работу с различными источниками данных, начиная с PHP 4.3 были придуманы PHP Streams - потоки .

    Несмотря на то, что PHP 4.3 вышел давным-давно, многие PHP-программисты имеют весьма отдаленное представление о потоках в PHP , и продолжают использовать CURL везде, хотя в PHP для этого существует более удобная альтернатива в виде контекста потоков (Stream Context) .

    Следующие виды потоков существуют в PHP :

    • Файл на жестком диске;
    • HTTP-соединение с веб-сайтом;
    • Соединение UDP с сервером;
    • ZIP-файл ;
    • Файл *.mp3 .

    Что общего есть во всех этих ресурсах? Все они могут быть прочитаны и записаны, т.е. к ним ко всем могут быть применены операции чтения и записи. Сила потоков PHP как раз и заключается в том, что вы можете получить доступ ко всем этим ресурсам, используя один и тот же набор функций. Это очень удобно. Также, если вдруг возникнет такая необходимость, Вы можете написать свою собственную реализацию обработчика потоков "stream wrapper" . Помимо чтения и записи, потоки в PHP также позволяет выполнять другие операции, такие как переименование и удаление.

    Программируя на PHP , Вы уже встречались с потоками, хотя возможно не догадывались об этом. Так, функции, работающие с потоками - это fopen() , file_get_contents() , file() и т.д. Поэтому, фактически, Вы уже используете файловые потоки все это время, полностью прозрачно.

    Для работы с другим типом потока, необходимо указать его протокол (wrapper) следующим образом: wrapper://some_stream_resource , где wrapper:// - это, например http:// , file:// , ftp:// , zip:// и т.д., а some_stream_resource - URI-адрес , идентифицирует то, что вы хотите открыть. URI-адрес не накладывает каких-либо ограничений на формат. Примеры:

    • http://сайт/php-stream-introduction.html
    • file://C:/Projects/rostov-on-don.jpg
    • ftp://user:[email protected]/pub/file.txt
    • mpeg://file:///music/song.mp3
    • data://text/plain;base64,SSBsb3ZlIFBIUAo=

    Однако, учтите, что не все протоколы и обработчики могут работать у Вас, так как поддержка некоторых оболочек зависит от Ваших настроек. Поэтому, чтобы узнать какие протоколы поддерживаются необходимо выполнить следующий скрипт:

    // список зарегистрированных транспортов сокета
    print_r(stream_get_transports());

    // список зарегистрированных потоков (обработчиков)
    print_r(stream_get_wrappers());

    // список зарегистрированных фильтров
    print_r(stream_get_filters();

    Контексты потоков PHP

    Часто возникает необходимость указания дополнительных параметров при http-запросе. Контексты потоков решают эту проблему, позволяя указать дополнительные параметры. У многих функций, поддерживающих работу с потоками, есть необязательный параметр контекста потока. Давайте посмотрим на функцию file_get_contents() :

    String file_get_contents(string $filename [, int $flags = 0 [, resource $context [, int $offset = -1 [, int $maxlen = -1]]]])

    Как видно, третьим параметром передается контекст потока. Контексты создаются с помощью функции stream_context_create() , которая принимает массив и возвращает ресурс контекста.

    $options = array(
    "http" => array(
    "method" => "GET",
    "header" => "Accept-language: en\r\n".
    "Cookie: foo = bar\r\n"
    );

    $context = stream_context_create($options);

    // Используя это с file_get_contents ...
    echo file_get_contents ("http://www.example.com/", 0, $context);

    Таким образом, сегодня мы узнали, что такое потоки и контексты потоков в PHP , рассмотрели примеры их использования, а в следующих статьях мы поговорим о метаданных потока и создадим свой собственный обработчик.

    Иногда появляется необходимость выполнять несколько действий одновременно, например, проверять изменения в одной таблице БД и вносить модификации в другую. Причем если одна из операций (например, проверка изменений), занимает много времени, очевидно, что последовательное выполнение не обеспечит балансировки ресурсов.

    Для решения такого рода задач, в программировании используется многопоточность - каждая операция помещается в отдельный поток с выделенным объемом ресурсов и работает внутри него. При таком подходе, все задачи будут выполнятся отдельно и независимо.

    Хотя PHP и не поддерживает многопоточность, есть несколько методов её эмуляции, о них и пойдет речь ниже.

    1. Запуск нескольких копий скрипта - по копии для операции

    //woman.php if (!isset($_GET["thread"])) { system("wget http://localhost/woman.php?thread=make_me_happy"); system("wget http://localhost/woman.php?thread=make_me_rich"); } elseif ($_GET["thread"] == "make_me_happy") { make_her_happy(); } elseif ($_GET["thread"] == "make_me_rich") { find_another_one(); }

    Когда мы выполняем этот скрипт без параметров, он автоматически запускает две копии себя, с идентификаторами операций ("thread=make_me_happy" и "thread=make_me_rich"), которые инициируют выполнение необходимых функций.

    Таким образом мы достигаем нужного результата - две операции выполняются одновременно - но это конечно же не многопоточность, а просто костыль для выполнения задач одновременно.

    2. Путь джедая - использование расширения PCNTL

    PCNTL - расширение, позволяющее полноценно работать с процессами. Кроме управления, поддерживает отправку сообщений, проверку состояния и установку приоритетов. Вот так выглядит предыдущий скрипт с использованием PCNTL:

    $pid = pcntl_fork(); if ($pid == 0) { make_her_happy(); } elseif ($pid > 0) { $pid2 = pcntl_fork(); if ($pid2 == 0) { find_another_one(); } }

    Выглядит довольно запутанно, пройдемся построчно.

    В первой строке мы "форкаем" текущий процесс (форк - копирование процесса из сохранением значений всех переменных), разделяя на два процесса (текущий и дочерний) выполняющихся параллельно.

    Чтобы понять, где мы находимся в данный момент, в дочернем или материнском процессе, функция pcntl_fork возвращает 0 для дочернего и идентификатор процесса для материнского. Поэтому, во второй строке, мы смотрим на $pid, если он равен нулю, значит мы в дочернем процессе - выполняем функцию, в противном случае, мы находимся в материнском (строка 4), тогда создаем еще один процесс и аналогично выполняем задачу.

    Процесс выполнения скрипта:

    Таким образом скрипт создает еще 2 дочерних процесса, которые являются его копиями, содержат те же переменные с аналогичными значениями. А при помощи идентификатора возвращаемого функцией pcntl_fork мы ориентируемся в каком потоке находимся в данный момент и выполняем необходимые действия.

    Существует ли реалистичный способ реализации многопоточной модели в PHP, действительно ли это или просто имитировать ее. Некоторое время назад было высказано предположение, что вы можете заставить операционную систему загружать другой экземпляр исполняемого файла PHP и обрабатывать другие одновременные процессы.

    Проблема заключается в том, что когда PHP-код завершает выполнение экземпляра PHP, он остается в памяти, потому что нет способа его убить из PHP. Поэтому, если вы имитируете несколько потоков, вы можете себе представить, что произойдет. Поэтому я все еще ищу способ многопоточности, который можно эффективно или эффективно имитировать из PHP. Есть идеи?

    Многопоточность возможна в php

    Да, вы можете делать многопоточность в PHP с помощью pthreads

    Из документации PHP:

    pthreads – это объектно-ориентированный API, который предоставляет все инструменты, необходимые для многопоточности в PHP. Приложения PHP могут создавать, читать, писать, исполнять и синхронизировать с Threads, Workers и Threaded.

    Предупреждение . Расширение pthreads нельзя использовать в среде веб-сервера. Поэтому потоки в PHP должны оставаться в приложениях на базе CLI.

    Простой тест

    #!/usr/bin/php arg = $arg; } public function run() { if ($this->arg) { $sleep = mt_rand(1, 10); printf("%s: %s -start -sleeps %d" . "\n", date("g:i:sa"), $this->arg, $sleep); sleep($sleep); printf("%s: %s -finish" . "\n", date("g:i:sa"), $this->arg); } } } // Create a array $stack = array(); //Initiate Multiple Thread foreach (range("A", "D") as $i) { $stack = new AsyncOperation($i); } // Start The Threads foreach ($stack as $t) { $t->start(); } ?>

    Первый забег

    12:00:06pm: A -start -sleeps 5 12:00:06pm: B -start -sleeps 3 12:00:06pm: C -start -sleeps 10 12:00:06pm: D -start -sleeps 2 12:00:08pm: D -finish 12:00:09pm: B -finish 12:00:11pm: A -finish 12:00:16pm: C -finish

    Второй прогон

    12:01:36pm: A -start -sleeps 6 12:01:36pm: B -start -sleeps 1 12:01:36pm: C -start -sleeps 2 12:01:36pm: D -start -sleeps 1 12:01:37pm: B -finish 12:01:37pm: D -finish 12:01:38pm: C -finish 12:01:42pm: A -finish

    Пример реального мира

    Error_reporting(E_ALL); class AsyncWebRequest extends Thread { public $url; public $data; public function __construct($url) { $this->url = $url; } public function run() { if (($url = $this->url)) { /* * If a large amount of data is being requested, you might want to * fsockopen and read using usleep in between reads */ $this->data = file_get_contents($url); } else printf("Thread #%lu was not provided a URL\n", $this->getThreadId()); } } $t = microtime(true); $g = new AsyncWebRequest(sprintf("http://www.google.com/?q=%s", rand() * 10)); /* starting synchronization */ if ($g->start()) { printf("Request took %f seconds to start ", microtime(true) - $t); while ($g->isRunning()) { echo "."; usleep(100); } if ($g->join()) { printf(" and %f seconds to finish receiving %d bytes\n", microtime(true) - $t, strlen($g->data)); } else printf(" and %f seconds to finish, request failed\n", microtime(true) - $t); }

    почему вы не используете popen ?

    For ($i=0; $i<10; $i++) { // open ten processes for ($j=0; $j<10; $j++) { $pipe[$j] = popen("script2.php", "w"); } // wait for them to finish for ($j=0; $j<10; ++$j) { pclose($pipe[$j]); } }

    Threading недоступен на складе PHP, но одновременное программирование возможно с использованием HTTP-запросов в виде асинхронных вызовов.

    Если параметр таймаута завитка установлен равным 1 и использует тот же session_id для процессов, которые вы хотите связать друг с другом, вы можете связываться с переменными сеанса, как в моем примере ниже. С помощью этого метода вы даже можете закрыть свой браузер, и одновременный процесс все еще существует на сервере.

    Не забудьте проверить правильный идентификатор сеанса, например:

    http: //localhost/test/verifysession.php? sessionid = [ правильный идентификатор]

    startprocess.php

    $request = "http://localhost/test/process1.php?sessionid=".$_REQUEST["PHPSESSID"]; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $request); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_TIMEOUT, 1); curl_exec($ch); curl_close($ch); echo $_REQUEST["PHPSESSID"];

    process1.php

    set_time_limit(0); if ($_REQUEST["sessionid"]) session_id($_REQUEST["sessionid"]); function checkclose() { global $_SESSION; if ($_SESSION["closesession"]) { unset($_SESSION["closesession"]); die(); } } while(!$close) { session_start(); $_SESSION["test"] = rand(); checkclose(); session_write_close(); sleep(5); } с set_time_limit(0); if ($_REQUEST["sessionid"]) session_id($_REQUEST["sessionid"]); function checkclose() { global $_SESSION; if ($_SESSION["closesession"]) { unset($_SESSION["closesession"]); die(); } } while(!$close) { session_start(); $_SESSION["test"] = rand(); checkclose(); session_write_close(); sleep(5); } в set_time_limit(0); if ($_REQUEST["sessionid"]) session_id($_REQUEST["sessionid"]); function checkclose() { global $_SESSION; if ($_SESSION["closesession"]) { unset($_SESSION["closesession"]); die(); } } while(!$close) { session_start(); $_SESSION["test"] = rand(); checkclose(); session_write_close(); sleep(5); }

    verifysession.php

    if ($_REQUEST["sessionid"]) session_id($_REQUEST["sessionid"]); session_start(); var_dump($_SESSION);

    closeprocess.php

    if ($_REQUEST["sessionid"]) session_id($_REQUEST["sessionid"]); session_start(); $_SESSION["closesession"] = true; var_dump($_SESSION);

    В то время как вы не можете нить, у вас есть определенная степень управления процессом в php. Вот два полезных набора:

    Функции управления процессом http://www.php.net/manual/en/ref.pcntl.php

    Вы можете разветвить свой процесс с помощью pcntl_fork – вернуть PID дочернего элемента. Затем вы можете использовать posix_kill для использования этого PID.

    Тем не менее, если вы убиваете родительский процесс, сигнал должен быть отправлен дочернему процессу, говоря ему, чтобы он умер. Если сам php не распознает это, вы можете зарегистрировать функцию для управления им и выполнить чистый выход, используя pcntl_signal.

    Вы можете имитировать потоки. PHP может запускать фоновые процессы через popen (или proc_open). Эти процессы могут быть переданы с помощью stdin и stdout. Конечно, эти процессы могут быть программой php. Это, вероятно, так близко, как вы доберетесь.

    Вы можете использовать exec () для запуска сценария командной строки (например, командной строки php), и если вы подключите вывод к файлу, ваш скрипт не будет ждать завершения команды.

    Я не могу вспомнить синтаксис CLI php, но вам нужно что-то вроде:

    Exec("/path/to/php -f "/path/to/file.php" | "/path/to/output.txt"");

    Я думаю, что для нескольких общих серверов хостинга по умолчанию отключен exec () по соображениям безопасности, но, возможно, стоит попробовать.

    В зависимости от того, что вы пытаетесь сделать, вы также можете использовать curl_multi для его достижения.

    Он поддерживает двунаправленную межпоточную связь, а также имеет встроенную защиту для уничтожения дочерних потоков (предотвращение сирот).

    У вас может быть опция:

    1. multi_curl
    2. Можно использовать системную команду для того же
    3. Идеальный сценарий – создание функции потоковой передачи на языке C и компиляция / настройка в PHP. Теперь эта функция будет функцией PHP.

    Как насчет pcntl_fork?

    проверьте нашу страницу руководства на примерах: PHP pcntl_fork

    pcntl_fork не будет работать в среде веб-сервера, если включен безопасный режим . В этом случае он будет работать только в версии CLI для PHP.

    Класс Thread доступен начиная с PECL pthreads ≥ 2.0.0.