wget 筆記 |
2008/08/09 ~ 阿亮 ~ |
wget 筆記
◎ 用 wget 抓檔案,我想從 log 檔取得 url 列表,但發現 log 檔內的 url 會變成亂碼,如下圖:
這是 wget 試得所得的 url 轉成 OS 預設字體,以供我們易讀。但在 MacOSX 下,系統預設是 MacOSX Big5(I guess),所以,轉換後有問題。
這種在環境設定成 LANG=zh_TW=UTF-8 也是沒用的。正解是 wget 加上下述的參數即可。
--restrict-file-names=nocontrol
◎ 今天另有類似的問題,但不是在於 wget 的問題,而是 php 的問題,用 fprintf 的方式將 utf-8 的字元,寫出到檔案,會發生檔案編碼不是 vi/vim 可讀的情形,雖然用 more/less 的方式去讀該檔時是正常。根據此頁的情形 ,將
export LANG=zh_TW.UTF-8
改成
export LANG=zh_TW.UTF8
即可,但這又很奇怪了,用 locale -a 來查,前者才是列表內的項目 (至少目前手上的 MacOSX Leopard 是),所以,php (v.5.2.6) 只認得後者,設成前者就亂了? 但 more 等就兩個都認?
但設成 LANG=zh_TW.UTF8,用 locale 查又呈現下述的情形,
LANG="zh_TW.UTF8" LC_COLLATE="C" LC_CTYPE="C" LC_MESSAGES="C" LC_MONETARY="C" LC_NUMERIC="C" LC_TIME="C" LC_ALL="C"
會不會 php 輸出可以用,變成其他不能用啊
補:freebsd 用 zh_TW.utf8,在 MacOSX 下用 zh_TW.UTF-8