NKF変換
文字コードの問題に半日使ってしまいました。
WEBからHTTPデータ取得後にデコードやSJIS変換しても文字化けが解消できませんでした。
今回は『-E』でNKF変換なで解消できました。
場当たりで色々なデーコードや変換組み合わせで試してみました。
どうも文字コードの理屈が未だわかっていないので詳しく書けませんが
デコードや変換などの手順もエンコード時の逆順になるので嵌るポイントになります。
まあ、
滅多に使わないので忘れないようにメモです。
オプション -b バッファリング出力を行う -u 出力時にバッファリングを行わない -j JISコードに変換する -e EUCコードに変換する -s シフトJISコードに変換する -w UTF8コードに変換する(BOM無し) -i? JIS漢字を指示するシーケンスとして ESC-'$'-?を使用する -o? 1バイト英数文字セットを指示するシーケンスとしてESC-'('-?を使用する -r ROT13/47の変換する -T テキスト・モードで出力する -l 0x80-0xfeのコードをISO-8859-1 (Latin-1)として扱う。ただし,JISコードの時のみ有効 -f? 一行?文字になるように簡単な整形を行う -Z X0208中の英数字と一部の記号をASCIIに変換する -J JIS(ISO-2022-JP)と仮定して処理する -E 日本語EUCと仮定して処理する -S シフトJISと仮定して処理する -X シフトJISと仮定して処理する。ただし,X0201仮名があるものとする -B 壊れた(ESCが欠損した)JISと仮定して処理する。-B1の場合はESC-(およびESC-$)のあとのコードを問わない。-B2の場合は改行の後に強制的にASCIIに戻す -x 通常行われるX0201仮名->X0208の仮名変換しない -Lu unix改行形式(LF)に変換 -Lw windows改行形式(CRLF)に変換 -Lm macintosh改行形式(CR)に変換 -g(--guess) 自動判別の結果を表示 --overwrite 引数のファイルに直接上書き --version バージョン情報を表示(インストール済チェック)