Just another Windows perl site

perl の面白さ 6ー2 ホームページのコンテンツ取得後の処理

2018/02/04
 
この記事を書いている人 - WRITER -

とりあえず、[wordprese]で作られたホームページを取得することが出来ました。
しかしファイル名が[%e3%82]等と[url エンコード]されたものが有りました。
[%e3%82]は「漢字の文字コード」を表すものです。
このままじゃ、いくら何でも見難いので、[url デコード]しました。
perl だと [use URI::Escape;]のモジュールで簡単に処理できます。
# $unescaped = uri_unescape( $escaped ); #URLエンコード済み文字列のデコード
# $escaped = uri_escape( $unescaped ); #URLエンコード済み文字列へのエンコード
ファイル名を[$html]とすると
$decode_u = decode(“utf-8”,uri_unescape( $html)); #URLエンコード済み文字列のデコード
と、[文字コードがUTF-8]で返ってきます。
Windows は[文字コードがshift-jis]なので、[use Encode;]モジュールを使って
use Encode qw(from_to encode decode is_utf8 encode_utf8);
$decode_s = encode(“shift-jis”,$decode_u);
等として、見やすく出来ました。
このように、手軽にサクッと処理し、目的の「ホームページのディレクトリ構造」を把握します。
「ホームページのディレクトリ構造」の一例を書くと、
・ブログ
└contents
| └ category
└tag
└articles:kyword
└audios:kyword
└photos:kyword
└videos:kyword
となっていました。
一つのキーワードに対して、「記事・音楽・写真・動画」で分類し、保存しているようです。。。
これにより「カテゴリ・タグ・キーワード」の関係が、よく理解できました。

スポンサードリンク


この記事を書いている人 - WRITER -

- Comments -

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

Copyright© 仕事の進め方の効率化ブログ , 2017 All Rights Reserved.