Just another Windows perl site

perl の面白さ 6ー1 ホームページのコンテンツ(ホームページのデータ)の取得の続き

2018/02/04
 
この記事を書いている人 - WRITER -

2016/12/11の記事で「ホームページのコンテンツ取得」の記事を書きました。
しかし、[ワードプレスのホームページ]は「取得」出来ませんでした。
原因?は、[ワードプレスホームページの構造」に有るのでしょう。。。
今、[ワードプレスのホームページを構築」しているのですが、そもそも、[ホームページのディレクトリ」には、「xxxx.html」が有りません。。。
それらしき物は[index.php]ですが、ファイル日付は変わっていません。
ファイル日付が変わっているのは、[c:\xampp\mysql\data\xxx.xx]位しか見当たりません。
どう考えても、[php]が[mysql]のデータベースからデータを取り出して、[apache]に[html]を渡しているようにしか見えません。
[php]が吐き出す動的?な[html]の取得は、方法を変えなくてはだめなのでしょうね。。。
「方法」を変えてみました。。。
「perl」には、[HTTP::Request]という「HTTP 形式のリクエスト」を行う「モジュール」が有ります。
*詳しい事を知らないのは、秘密です*。Y(–)Y
とりあえず、以下のようにやって、[取得]出来ました。
#——————————-
use HTTP::Request;
use LWP::UserAgent;
my $URL = ‘http://hogehoge.com/’;
my $ua = new LWP::UserAgent;
$ua->agent(“Mozilla/4.0 (compatible; MSIE 6.0\”; Windows NT 5.0;)”);
my $request = new HTTP::Request(“GET”, $url);
my $response = $ua->request($request);
if ($response->is_success){$content = $response->content;}
print $content;
#——————————-
これは、1個の「url」のみなので、実際は、取得した [$content]から[url] を抜き出します。
そこで、再度[$request = new HTTP::Request(“GET”, $url);]する等、ループ(再帰:リカーシブル)にします。
そうすれば、[ホームページ]のある程度を取得することが出来ます。
  **追伸:[ホームページを取得するソフト(GetHTMLW)等」が有るのは分かっていますが、CPUが64bitだと動きませんでした。しょうがないので、[PERL http]で検索したところ、簡単に探すことが出来ました。。。
[ad#wpx-01]

この記事を書いている人 - WRITER -

- Comments -

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

Copyright© 仕事の進め方の効率化ブログ , 2017 All Rights Reserved.