perl の面白さ　６ー１ホームページのコンテンツ（ホームページのデータ）の取得の続き

2017/01/08

2018/02/04

この記事を書いている人 - WRITER -

2016/12/11の記事で「ホームページのコンテンツ取得」の記事を書きました。
しかし、[ワードプレスのホームページ]は「取得」出来ませんでした。
原因？は、[ワードプレスホームページの構造」に有るのでしょう。。。
今、[ワードプレスのホームページを構築」しているのですが、そもそも、[ホームページのディレクトリ」には、「xxxx.html」が有りません。。。
それらしき物は[index.php]ですが、ファイル日付は変わっていません。
ファイル日付が変わっているのは、[c:\xampp\mysql\data\xxx.xx]位しか見当たりません。
どう考えても、[php]が[mysql]のデータベースからデータを取り出して、[apache]に[html]を渡しているようにしか見えません。
[php]が吐き出す動的？な[html]の取得は、方法を変えなくてはだめなのでしょうね。。。
「方法」を変えてみました。。。
「perl」には、[HTTP::Request]という「HTTP 形式のリクエスト」を行う「モジュール」が有ります。
＊詳しい事を知らないのは、秘密です*。Y(–)Y
とりあえず、以下のようにやって、[取得]出来ました。
#——————————-
use HTTP::Request;
use LWP::UserAgent;
my $URL = ‘http://hogehoge.com/’;
my $ua = new LWP::UserAgent;
$ua->agent(“Mozilla/4.0 (compatible; MSIE 6.0\”; Windows NT 5.0;)”);
my $request = new HTTP::Request(“GET”, $url);
my $response = $ua->request($request);
if ($response->is_success){$content = $response->content;}
print $content;
#——————————-
これは、１個の「url」のみなので、実際は、取得した [$content]から[url] を抜き出します。
そこで、再度[$request = new HTTP::Request(“GET”, $url);]する等、ループ（再帰：リカーシブル）にします。
そうすれば、[ホームページ]のある程度を取得することが出来ます。
　　＊＊追伸：[ホームページを取得するソフト（GetHTMLW）等」が有るのは分かっていますが、ＣＰＵが６４ｂｉｔだと動きませんでした。しょうがないので、[PERL http]で検索したところ、簡単に探すことが出来ました。。。
[ad#wpx-01]