Read it later.

Web製作に関するサーバ構成やコーディングネタの備忘録として使ってます。

*

UTF

   

『事の発端は、UTF-8のBOMって具体的に何だろう。』から始まり。

じゃあ、テキストエディタでUTF-8にBOMをつけて保存し、バイナリエディタで見てみました。

半角数字「1234567890」のみを入力し保存したファイルの比較が上図。
上がBOM在りで、下がBOM無しの場合。

先頭に3Byte[ EF BB BF ]が付与されているか否かの差のようだ。
『ん?数字は1Byte?』
そこで初めて自分の勘違いに気づいたのだけど、『UTF-8ってすべての文字が2Byteで保存される』って思ってました。
で、ググって見ると、「UTF-8とUTF16の違いは?」にたどり着きました。

ここにUTF-8とUTF-16の定義が記載されていたので転記。

UTF-8 (8-bit UCS Transformation Format)
UCS-2で定義される文字集合を用いて記述された文字列をByte列に変換する方式の1つ。1文字を1~6Byteの可変長マルチByteに変換する。

UTF-16 (16-bit UCS Transformation Format):
UCS-2で定義される文字集合を用いて記述された文字列に、UCS-4の一部の文字を埋め込むためのエンコード方式。UTF-8と併用することができる。UCS-2で利用できる文字数を大幅に増やすことができる。

『へぇ、可変長なんだ』(トオイメ

UTF-8では、
英数は1Byteで表現し、日本語は3Byteで表現するようになっている
らしい。

ちなみに、
BOMとは、byte order markの略で、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータのこと。
符号化形式によって、BOMの中身は異なるとのこと。

 - その他

Message

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

  関連記事

no image
国コードを調べるには

↓一覧でみたい場合は、ここ。 ISO 3166-1-alpha-2 code ↓ …

no image
Redmineの機能紹介

Redmineの機能について、分かりづらいところがあったので調べてみると、下記の …

no image
Sender Policy Framework(SPF)

電子メールの送信者偽称を防ぐ送信ドメイン認証技術の1つ。 詳しくは、財団法人イン …

no image
ローカルSEO

Googleプレイスの表示順位付けについて調べたのだけど、 検索用語って「MEO …