Кодування в xml документі

XML документи можуть містити символи в різних міжнародних кодуваннях.

Щоб не виникало помилок, необхідно вказувати, яка кодування використовується в XML документі, або зберігати файл в універсальній кодуванні UTF-8.

символьна кодування

Символьна кодування визначає унікальний бінарний код для різних символів, які використовуються в документі.

У комп'ютерних термінах символьну кодування також називають символьним набором, символьної розкладкою, кодовою набором і кодом сторінки.

Юнікод - це промисловий стандарт для символьного кодування текстового документа. Він визначає (майже) всі можливі міжнародні символи по іменах і числам.

Юнікод має два різновиди: UTF-8 і UTF-16.

UTF = формат перетворення Юнікоду (анг. Unicode Transformation Format).

UTF-8 використовує один байт (8 біт) для подання загальноприйнятих символів і два (або три) байта для всіх інших символів.

UTF-16 використовує два байта (16 біт) для більшості символів і три байта для всього іншого.

UTF-8 - Веб-стандарт

UTF-8 - стандартна кодування символів в мережі Інтернет.

Кодування XML документа

Перший рядок у XML документі називається прологом:

Пролог є необов'язковим і, як правило, містить номер версії XML.

Крім цього, він може містити інформацію про кодування XML документа. Наступний пролог визначає кодування UTF-8:

Стандартизація XML встановлює, що всі додатки XML повинні розуміти кодування UTF-8 і UTF-16.

UTF-8 є кодуванням за замовчуванням для XML документів без інформації про кодування.

Крім цього, більшість систем додатків XML працюють з такими кодуваннями, як ISO-8859-1, Windows -1252 і ASCII.

помилки XML

Дуже часто XML документи створюються на одному комп'ютері, на сервер вивантажується з іншого, а в браузері відображаються на третьому комп'ютері.

Якщо кодування некоректно інтерпретується всіма трьома комп'ютерами, то браузер відобразить безглуздий набір символів, або взагалі видасть повідомлення про помилку.

Найкращим вибором в цьому випадку буде використання кодування UTF-8. UTF-8 дозволяє відображати практично всі міжнародні символи, і, крім цього, вона вважається кодуванням за замовчуванням, якщо не вказана інша кодування.

висновок

Коли ви пишете XML документ:

Схожі статті