[PHP-dev 1477] Re: UTF-8文字の長さ
Tomoyuki Asakawa
tom @ asakawa.ne.jp
2009年 4月 15日 (水) 16:04:07 JST
あさかわ
> 文字エンコーディングの解釈が違ったり、いい加減だったりする
> ことが原因で
> 脆弱性がよく発生します。
それは、わかっているのだけど。
>
> 私用領域が使えなくなるのは分かりますが、規格が変ったら合わ
> せておかないと
> 予期しない脆弱性の原因になります。
>
それを、制限で避けるのもおかしいと思うのです。
判定する場所が違うと。
ましてや、制限があると、規格が変わると、古いデータの移行がで
きなくなるわけです。
> 現状、この領域は私的でも使っている方はいるのでしょうか?
実際にこの領域をつかってる人は少ないでしょう、つかいたくても
つかえないのだから。
> いるのであれば、compatibility_mode=offがデフォル
> ト、onなら5,6バイトでもOK
> とするのが良いのでは無いでしょうか?
いるかいないかに関わらず。私用領域という、想定された領域なの
だからつかえるべきだと思うので
上記の様な、対応が必要だと思うのです。
DBだけじゃなく、iconvや、その他の、コードコンバータも、
制限がきつくて困る。
コードコンバーターが、制限かけてるので、私的領域をつかった
データを、変換するには
スクラッチでコンバータを書かないとならなくなるのが現状です。
しかも、最近は、UTFを中継するから、EUC-JP -> SJIS
間でも化けてしまう。
googleが、携帯絵文字を、UTFに登録しようとしてるのはいい
のだけど
あらたな、ユニファイをしてるから、たとえば、ソフトバンク同士
でも、化けてしまう事になる
ソフトバンクのデータだとわかってるなら、そのまま格納したい。
AUなら、そのまま格納したい。
たぶん、データベース屋さんは、データベース内部を、一意にした
いのだろうけど。
#たぶん、レガシーエンコーディングでも言ったこととは同じなんだ
けど。
PHP-dev メーリングリストの案内