こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

-広告-

締切り済みの質問

Amazon サイトからhtmlを取得すると文字化

すみません。素人です。
Amazon サイトからhtmlを取得すると文字化けしてしまいます。
方法ってないでしょうか?

***************
use strict;
use warnings;
use Web::Scraper;
use URI;
use Encode qw/encode_utf8/;

my $scraper = scraper {

process('div', 'title' => 'TEXT');

};
my $url = URI->new('https://www.amazon.co.jp/s/ref=nb_sb_noss?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&url=search-alias%3Daps&field-keywords=test');
my $res = $scraper->scrape($url);
print encode_utf8($res->{title}) . "\n";
******************

投稿日時 - 2018-01-07 18:54:55

QNo.9415957

困ってます

このQ&Aは役に立ちましたか?

1人が「このQ&Aが役に立った」と投票しています

-広告-
-広告-

回答(6)

ANo.6

このperlを実行しているターミナル(Windowsのコマンドプロンプト?)が
UTF-8の文字コードの表示に対応できていないだけのことでしょう。

perl実行 コマンド > ファイル
でファイル化したのちに、UTF-8に対応したエディターでそのファイルを閲覧するか

もしくは、perlの最後を
use Encode 'encode';
print encode('Shift_JIS',$res->{title}) . "\n";
のようにしてSJISでprintするようにして コマンドプロンプト上で確認するか

でいけると思います。

投稿日時 - 2018-01-09 16:13:31

ANo.5

ごめんなさい。バケという意味ではバケてますが、URLは機能します。

投稿日時 - 2018-01-07 23:15:13

ANo.4

このサイトでも文頭に

meta http-equiv="Content-Type" content="text/html; charset=UTF-8"

と宣言され、UTF-8 の漢字コードを使ってます。

どうしても面白くない!

という場合は、コピー・アンド・ペースト ではなく、打鍵せねばなりません。

投稿日時 - 2018-01-07 22:38:35

ANo.3

>>Amazon サイトからhtmlを取得すると文字化けしてしまいます。

それは文字化けではありません。
htmlへの出力する場合、漢字や記号などは、そういうふうに変換するのが基本ルールです。

投稿日時 - 2018-01-07 20:36:42

ANo.2

この文字化けがどの様な内容のメールか分かりませんが、
注文の過程で、注文の確認や支払いなどのメールが来ますが、
私の場合、最後の発送の状況だけが何故か文字化けします。

問い合わせたところ、Amazonサイドに問題があるとの
回答でした。改善するのを待っています。

尚、配信メールの設定で、テキスト形式にできますので、
ご検討下さい。

投稿日時 - 2018-01-07 20:20:38

補足

実行すると下のように文字列で表示されます。
(Amazoの検索にTESTと入力した検索結果を取得してます。)

Amazon 繝励Λ繧、繝繧貞縺吶∋縺ヲ Select the department you want to search in 縺吶∋縺ヲ縺ョ繧ォ繝・ざ繝ェ繝シKindle繧ケ繝医い Amazon繝薙ョ繧
ェ繝・ず繧ソ繝ォ繝溘Η繝シ繧ク繝・けAndroid 繧「繝励Μ譛ャ豢区嶌繝溘Η繝シ繧ク繝・け繧ッ繝ゥ繧キ繝・けDVDTV繧イ繝シ繝PC繧ス繝輔ヨ繝代た繧ウ繝ウ繝サ蜻ィ霎コ讖溷勣螳カ髮サ
&繧ォ繝。繝ゥ譁・袷蜈キ繝サ繧ェ繝輔ぅ繧ケ逕ィ蜩√・繝シ繝&繧ュ繝・メ繝ウ繝壹ャ繝育畑蜩√ラ繝ゥ繝・げ繧ケ繝医い繝薙Η繝シ繝・ぅ繝シ繝ゥ繧ー繧ク繝・繧「繝ェ繝シ繝薙Η繝シ繝
・ぅ繝シ鬟溷刀繝サ鬟イ譁吶・縺企・繝吶ン繝シ&繝槭ち繝九ユ繧」繝輔ぃ繝・す繝ァ繝ウツツツ繝ャ繝・ぅ繝シ繧ケツツツ繝。繝ウ繧コツツツ繧ュ繝・ぜ・・・繝薙・譛
搾シ・ヵ繧。繝・す繝ァ繝ウ蟆冗黄繧キ繝・繝シ繧コ・・ヰ繝・げ閻墓凾險医ず繝・繧ィ繝ェ繝シ縺翫b縺。繧・・繝薙・讌ス蝎ィ繧ケ繝昴・繝・繧「繧ヲ繝医ラ繧「繧ォ繝シ繝サ繝舌う繧ッ
逕ィ蜩.IY繝サ蟾・蜈キ螟ァ蝙句ョカ髮サ繧ッ繝ャ繧ク繝・ヨ繧ォ繝シ繝峨ぐ繝輔ヨ蛻ク逕」讌ュ繝サ遐皮ゥカ髢狗匱逕ィ蜩、mazon繝代Φ繝医Μ繝シAmazon繧「繧ヲ繝医Ξ繝・ヨ讀懃エ「 讀
懃エ「 縲€繧ォ繝・ざ繝ェ繝シ JP ツ 縺薙s縺ォ縺。縺ッ縲・繧オ繧、繝ウ繧、繝ウ繧「繧ォ繧ヲ繝ウ繝茨シ・Μ繧ケ繝域ウィ譁・ア・豁エ莉翫☆縺千匳骭イ繝励Λ繧、繝 繧ォ繝シ
繝・繝槭う繧ケ繝医い繧ソ繧、繝繧サ繝シ繝ォ繧ョ繝輔ヨ蛻クAmazon縺ァ螢イ繧九・繝ォ繝玲、懃エ「邨先棡 260 縺ョ縺・■ 1-24莉カ "繧オ繧ャ繝・0.01" 荳ヲ縺ケ譖ソ縺・ツ繧ュ
繝シ繝ッ繝シ繝峨↓髢「騾」縺吶k蝠・刀萓。譬シ縺ョ螳峨>鬆・分萓。譬シ縺ョ鬮倥>鬆・分繝ャ繝薙Η繝シ縺ョ隧穂セ。鬆・怙譁ー蝠・刀繧オ繧ャ繝溘が繝ェ繧ク繝翫Ν 0.01 5蛟句・

投稿日時 - 2018-01-07 23:44:40

ANo.1

化けてないです(今Windowsなんで見えません)

相手のサーバーが UTF-8 なんでしょうね。

参考URL:https://www.export-japan.co.jp/blog/

投稿日時 - 2018-01-07 19:14:05

補足

一様、Window10 で実行してます。

投稿日時 - 2018-01-07 23:46:58

-広告-
-広告-

あなたにオススメの質問

-広告-
-広告-