perl の面白さ　６ー２ホームページのコンテンツ取得後の処理

2017/01/12

2018/02/04

この記事を書いている人 - WRITER -

とりあえず、[wordprese]で作られたホームページを取得することが出来ました。
しかしファイル名が[%e3%82]等と[url エンコード]されたものが有りました。
[%e3%82]は「漢字の文字コード」を表すものです。
このままじゃ、いくら何でも見難いので、[url デコード]しました。
perl だと [use URI::Escape;]のモジュールで簡単に処理できます。
# $unescaped = uri_unescape( $escaped ); #URLエンコード済み文字列のデコード
# $escaped = uri_escape( $unescaped ); #URLエンコード済み文字列へのエンコード
ファイル名を[$html]とすると
$decode_u = decode(“utf-8”,uri_unescape( $html)); #URLエンコード済み文字列のデコード
と、[文字コードがUTF-8]で返ってきます。
Windows は[文字コードがshift-jis]なので、[use Encode;]モジュールを使って
use Encode qw(from_to encode decode is_utf8 encode_utf8);
$decode_s = encode(“shift-jis”,$decode_u);
等として、見やすく出来ました。
このように、手軽にサクッと処理し、目的の「ホームページのディレクトリ構造」を把握します。
「ホームページのディレクトリ構造」の一例を書くと、
・ブログ
└contents
｜ └ category
└tag
└articles:kyword
└audios:kyword
└photos:kyword
└videos:kyword
となっていました。
一つのキーワードに対して、「記事・音楽・写真・動画」で分類し、保存しているようです。。。
これにより「カテゴリ・タグ・キーワード」の関係が、よく理解できました。