好的,今天就來簡單講一下 UTF-8 的編碼格式吧!
UTF-8 編碼真的是 到處都是!
舉例來說,你複製的連結,那些百分比就是用 UTF8:
看看上面的「亂碼」,我們之所以叫它「亂碼」,是因為我們看不懂它,
但相信看完這篇,你就能理解它了!
好的,首先介紹這張圖,來源是維基百科。
簡單講,就是:
1. 第一個 Byte(8 個 bit)會告訴你總共有幾個 Byte。如果是 0 開頭,代表總共就只有一個 Byte。如果是 110 開頭,代表總共有兩個,以此類推。
2. 如果總共不只一個 Byte,那麼接下來每一個 Byte 都必須是 10 開頭。
現在,可以打開你電腦裡的「小算盤」,切換到「程式設計人員」模式
點一下 HEX,然後輸入 E8 B3 87,像這樣:
仔細看一下上面的 BIN,有沒有看到,前八個 bit 是 1110 1000,
再對照一下剛剛那個表,它的意思就是「總共有三個 Byte」。
然後,有沒有,第二個 Byte 的開頭也是 10,第三個 Byte 開頭也是 10。
接下來,把這些「開頭符號」以外的數字兜起來,像這樣:
11101000 10110011 10000111 => 1000 1100 1100 0111
按一下小算盤的 BIN,然後把這些數字輸入進去,你會得到 8C C7:
恭喜你,
你到了這邊,就已經解開了「Unicode Code Point 」了!
它是一個 UTF-8 的編號,每一個文字、符號、表情符號都有一個對應的編號。
如果你是使用「微軟新注音」的話,你可以進一步這樣玩:
1. 先打 左上角的 ` 。
2. 打 U,然後輸入 8CC7,按 Enter。
登愣~你就能夠把 UTF-8 的文字還原出來啦!
課後練習:
(跟文章一開頭的那串 URL 相同)
%E8 %B3 %87 %E5 %B7 %A5 %E6 %89 %80 %E8 %80 %83 %E8 %A9 %A6 %E5 %BF %83 %E5 %BE %97
解答:在留言版
留言列表