формати файлів

JSON - простий формат файлів, який легко читається будь-якою мовою програмування. Простота означає, що комп'ютерам з ним легше працювати, ніж з іншими, наприклад, з XML.







XML широко використовується для обміну даними, оскільки дозволяє зберігати структуру в даних і способі їх збереження в файлах, а також дозволяє розробникам зберігати частини документації разом з даними, не заважаючи їх читання.

Консорціум W3C рекомендує формат під назвою RDF. У ньому інформацію можна уявити таким чином, щоб дані з різних джерел можна було легко комбінувати. Дані RDF можуть зберігатися в XML і JSON, крім інших уявлень. RDF заохочує ідентифікацію через URL, завдяки чому можна зручно обмінювати через мережу. RDF поки ще мало поширений, але став тенденцією ініціатив в області відкритого уряду, включаючи британський та іспанський проекти в області пов'язаних даних. Винахідник Веб, Тім Бернерс-Лі, нещодавно запропонував пятізвёздную_ схему, в якій пов'язані дані RDF значаться однією з цілей для ініціатив в області відкритих даних.

електронні таблиці

Багато чиновників мають інформацію, що зберігається в електронних таблицях, таких, наприклад, як Microsoft Excel. Ці дані можуть використовуватися відразу після виконання коректного опису значень кожного стовпчика.

Однак, в електронних таблицях часом зустрічаються макроси і формули, через що працювати з ними може бути важко. Тому краще зберігати опису подібних обчислень разом з таблицями - таким чином, користувачам буде простіше їх прочитати.

Файли з роздільниками

CSV - дуже корисний формат завдяки своїй компактності, що дозволяє передавати великі набори даних з однаковою структурою. Однак, цей формат настільки простий, що дані в ньому часто не приносять користі без документації, що пояснює що є що. Наявність такої документації та її актуальність для подібних форматів особлива важлива.

текстовий документ

Для демонстрації багатьох типів даних, наприклад, - відносно стабільних списків розсилки або чогось подібного, - може бути досить звичайних форматів типу Word, ODF, OOXML або PDF. Їх поширення може бути недорогим, оскільки часто саме в цьому форматі дані і виробляються на світло. Формат не надає ніяких засобів контролю за структурою, через що ввести дані автоматично часто буває важко. Намагайтеся використовувати шаблони для документів, які будуть показувати дані для повторного використання, так щоб їх, принаймні, можна було витягти.

Крім того, для подальшого використання даних було б корисно максимально можливе використання друкарської розмітки, оскільки це полегшує машині завдання відрізнити заголовки від інформації і т.п. Зазвичай не рекомендується викладати дані в форматі текстового процесора, якщо вони є в іншому форматі.

простий текст

Комп'ютери легко читають документи в форматі простого тексту (.txt). Однак, метадані про структуру в них, як правило, відсутні, через що розробникам доводиться писати парсер для розбору документа.

При обміні текстовими файлами між операційними системами можливі проблеми. MS Windows, Mac OS і інші Unix-подібні ОС по-різному повідомляють комп'ютера, що досягли кінця рядка.







скани документів

пропрієтарні формати

Деякі спеціалізовані системи і т.п. мають власні формати, в яких вони зберігають дані. Часом досить викласти дані в такому форматі - особливо якщо передбачається, що і в подальшому їх оброблятимуть в подібній же системі. Завжди слід відзначати, де можна знайти подальшу інформацію про це пропрієтарного форматі - наприклад, давши посилання на сайт компанії-виробника. Найчастіше варто викладати дані у вільному форматі, якщо це можливо.

В наші дні дані часто викладаються на сайти в форматі HTML. Для досить рідко мінливих даних з невеликим охопленням цього буває достатньо. Часом краще мати дані в форматі, що дозволяє легко їх скачати і легко ними маніпулювати, зате на сторінку на веб-сайті простіше посилатися, вона може бути хорошим місцем для початкового відображення даних.

Відкриті формати файлів

Навіть якщо інформація подається в електронному, машиночитаемом форматі, з усіма деталями, можуть виникнути проблеми через формат самого файлу.

Формати, в яких публікується інформація - іншими словами, цифрова база, в якій вона зберігається - можуть бути «відкритими» або «закритими». Формат відкритий, якщо специфікації для програм доступні кожному без будь-якої плати - тобто, будь-хто може використовувати ці специфікації в своїй програмі без будь-яких обмежень через «прав інтелектуальної власності».

Якщо формат «закритий», це означає, що або його специфікація недоступна публіці, або вона доступна, але запатентована, так що її використання обмежене. Якщо інформація випущена в закритому форматі, з на шляху її повторного використання можуть виникнути значні перешкоди; можливо, тим що захоче нею скористатися, доведеться купувати потрібні програми.

Перевага відкритих форматів файлів в тому, що розробники можуть створити кілька програмних пакетів і сервісів, що працюють з цими форматами. Це усуває більшість перешкод на шляху використання інформації з цих файлів.

Використання закриті формати файлів, специфікації яких недоступні, може привести до залежності від сторонніх програм або ліцензіарів на формат. У гіршому випадку це може означати, що інформацію можна буде прочитати тільки якоїсь однієї програмою, яка може виявитися вкрай дорогий або втратити свою актуальність.

, таким чином, краще всього публікувати у відкритих машиночитаємих форматах.

Приклад: дані британського трафіку

Настільки, наскільки дозволяють міркування практичності і розумні обмеження, установи повинні публікувати інформацію онлайн у відкритих форматах, так, щоб її можна було отримувати, завантажувати, індексувати і шукати поширеними програмами пошуку. Відкритий формат означає це переносних незалежний, машинозчитуваний і доступний суспільству без будь-яких обмежень, які могли б перешкодити повторному використанню цієї інформації.

Як використовується цей формат?

Коли владі доводиться публікувати нові дані - дані, які раніше не публікувалися - намагайтеся вибрати формат, виходячи з балансу між ціною і придатністю до вашої мети. Для кожного формату є кілька речей, які вам слід було б знати; мета цього розділу - пояснити їх.

У цьому розділі говориться тільки про те, як найкраще поширювати зрізи даних, призначені для машинної обробки. Поради та інструкції по розробці веб-сайтів і веб-додатків см. В інших розділах.

Веб-сервіси

Якщо дані часто змінюються, а розмір кожної порції обмежена, варто відкрити до них доступ через веб-сервіси. Є кілька способів створення веб-сервісів, але частіше за все використовують SOAP і REST. Зазвичай SOAP краще, зате REST-сервіси дуже легко розробляти і використовувати, так що цей стандарт використовується дуже широко.

База даних

Бази даних, як і веб-сервіси, дають прямий динамічний доступ до даних. Перевага баз даних полягає в тому, що вони дозволяють користувачам вибирати саме ті шматки, які їх цікавлять.

Віддалений доступ до даних викликає певні проблеми з безпекою; крім того, доступ до даних має сенс тільки якщо структура бази даних і значення окремих полів і записів добре задокументовані. Найчастіше найпростіший і недорогий спосіб вирішити проблеми безпеки - створити веб-сервіс для демонстрації даних.

If you have found this useful and would like to support our work please consider making a small donation.

формати файлів

Supported by






Схожі статті