|
|
|
|
|
для: а-я
(16.07.2008 в 22:59)
| | >=) от темы совсем отошли. Но раз спор зашел.
>Тогда меня интересует почему такое пишут в руководствах?
Какое - такое? Ничего противоречивого не заметил. | |
|
|
|
|
|
|
|
для: Trianon
(16.07.2008 в 19:31)
| | =) от темы совсем отошли. Но раз спор зашел.
Тогда меня интересует почему такое пишут в руководствах?
MYSQL:
1.
Корейские, китайские и японские иероглифы использует трехбайтовые последовательности.
2.
RFC 3629 описывает последовательности кодирования,
которые берут от одного до четырех байтов.
В настоящее время MySQL-поддержка для UTF-8 не включает последовательности
с четырьмя байтами.
Старый стандарт для кодирования UTF-8 задан RFC 2279 и
описывает UTF-8-последовательности, которые берут от одного до шести байтов.
RFC 3629 объявляет RFC 2279 устаревшим, по этой причине последовательности
с пятью и шестью байтами больше не используются.
3.
MySQL не поддерживает дополнительные символы, то есть символы,
которые нуждаются больше, чем в 3 байтах для UTF-8.
Пакет поддерживает только Basic Multilingual Plane/Plane 0 .
Только несколько очень редких символов Han дополнительны;
поддержка для них необыкновенна. Это привело к отчетам типа найденного в Глюке #12600,
который авторы отклонили как не ошибка. С utf8 мы должны усечь входную строку,
когда сталкиваемся с байтами, которые не понимаем. Иначе мы не знали бы,
какой длины многобайтовый символ.
|
и что означет Maxlen ?
SHOW CHARACTER SET LIKE 'utf%';
Charset Description Default collation Maxlen
utf8 UTF-8 Unicode utf8_general_ci 3
|
может глупые вопросы. но я еще учусь) | |
|
|
|
|
|
|
|
для: Trianon
(16.07.2008 в 19:31)
| | Вы меня убедили:) | |
|
|
|
|
|
|
|
|
для: Trianon
(15.07.2008 в 10:11)
| | > современных
Не знаю:) | |
|
|
|
|
|
|
|
для: Trianon
(15.07.2008 в 10:11)
| | Не знаю, не знаю...
http://en.wikipedia.org/wiki/Unicode: "Unicode now includes more than 70,000 Han characters". Это уже означает, что в 16 бит не уложиться. | |
|
|
|
|
|
|
|
для: BinLaden
(14.07.2008 в 22:28)
| | Справедливости ради стоит упомянуть, что диапазоны символов современных языков за 16-битовую границу не выходят. Или я неправ? | |
|
|
|
|
|
|
|
для: MAR_NIKOZA
(14.07.2008 в 23:59)
| | >Юникод - всегда 2 байта.
Не всегда. UTF-8 имеет переменный размер символа. (1-6 байтов)
UTF-16 - 2 байта
UTF-32 - 4 байта | |
|
|
|
|
|
|
|
для: BinLaden
(14.07.2008 в 22:28)
| | Юникод - всегда 2 байта.
UTF-16 и его 655365 вариантов кодируют 100.000 символов и более.
Дело в том что диапазон от UD800 до UDFFF содержит вспомогательные символы связки
Также имеет значение сложение частей. (Умляуты, тильды, и т.д.)
например въетнамская ХРЮ со своей дугой и тильдой
пишется как U006f + U0302 + U0303 | |
|
|
|
|
|
|
|
для: MAR_NIKOZA
(14.07.2008 в 22:01)
| | > Можно теоретически выразить 65635 символов
Их практически в Unicode уже около 100000. Следовательно, два байта тут уже не в теме:) | |
|
|
|
|