wget あれこれ。

というか、はまったコトなんですが…。

・とあるサイトのhtmlをwgetで取得して整形しようとした。
wget で取得したのと、iceweasel から取得したものの文字コードが違う
・どういうこったー!!!!

で、以下私が勘違い?していたこと。
1. どうも、そのサイトはブラウザの言語によってヘッダーのcharsetが変わるようになっていた(wgetでアクセスすると空っぽ)。でも、html内の記述はutf8だったので、なんで出てこないのかと小一時間なやんだ。
2. wget の言語がロケールに依存していなかった。

特に、2. が全く想定していないことで…。
ちょっとやられた気分。ロケールに合わせるようにしてもいいのかな、と思ったりもしますが、どうでしょうね?
で、これは、--header オプションをつけてやって解決。

--header='Accept-Language: ja'

とりあえず、alias にでも突っ込んで、毎回 ja で取るようにすべきなのかしら。
まぁ、解決方法がわかったんでいいか!