php⽇⽂汉字代码,⽇⽂UTF-8编码
UTF-8范围(PHP正则):
UTF-8のエンコード⽅法
UTF-8は、UnicodeとASCIIコードを混在させるための規格です。Unicodeでは、0x0000-0x007Fの⽂字コードは、ASCIIコードの0x00-0x7Fと同じとなっていることを利⽤して変換します。
UTF-8では、ASCIIコードは、1バイトで表しますが、0x0800から0xFFFFまでのマルチバイト⽂字は、3バイトで表します。
UTF-8では、各⽂字の先ビットにより、⽂字の種類を簡単に判定できます。
0、ASCII: 00-ff \x{00}-\x{ff}
1、⽇式标点: 3000 - 303f \x{3000}-\x{303f}
2、平假名: 3040 - 309f \x{3040}-\x{309f}
3、⽚假名: 30a0 - 30ff \x{30a0}-\x{30ff}
4、全⾓标点和半宽⽚假名:
ff00 - ffef \x{ff00}-\x{ffef}
unicode汉字5、中⽇韩unifed象形⽂字-汉字常见和罕见:
4e00 - 9faf \x{4e00}-\x{9faf}
6、中⽇韩统⼀表意⽂字扩展区A -罕见汉字
3400 - 4dbf \x{3400}-\x{4dbf}
正则表达式:/(.*)/u
1、⾮半⾓字符(⾮ASCII码字符)
/([^\x{00}-\x{ff}]+)/u
2、⾮半⾓字符、⽇式标点、全⾓标点和半宽⽚假名
/([^\x{00}-\x{ff}\x{3000}-\x{303f}\x{ff00}-\x{ffef}]+)/u
3、半⾓字符、⽇式标点、全⾓标点和半宽⽚假名
/([\x{30a0}-\x{30fa}\x{30fc}-\x{30ff}\x{4e00}-\x{9faf}\x{3400}-\x{4dbf}0-9a-zA-Z]+)/u

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。