wget あれこれ。 - 人生当然unstable

というか、はまったコトなんですが…。

・とあるサイトのhtmlをwgetで取得して整形しようとした。
・wget で取得したのと、iceweasel から取得したものの文字コードが違う
・どういうこったー！！！！

で、以下私が勘違い？していたこと。
1. どうも、そのサイトはブラウザの言語によってヘッダーのcharsetが変わるようになっていた（wgetでアクセスすると空っぽ）。でも、html内の記述はutf8だったので、なんで出てこないのかと小一時間なやんだ。
2. wget の言語がロケールに依存していなかった。

特に、2. が全く想定していないことで…。
ちょっとやられた気分。ロケールに合わせるようにしてもいいのかな、と思ったりもしますが、どうでしょうね？
で、これは、--header オプションをつけてやって解決。

--header='Accept-Language: ja'

とりあえず、alias にでも突っ込んで、毎回 ja で取るようにすべきなのかしら。
まぁ、解決方法がわかったんでいいか！