Прочитавши статтю, ви дізнаєтеся:
Чому не КЛАДР?
Пекло в номерах будинків або страшний сон програміста
Запис номера будинку і його розширення (все, що стоїть після числа: корпус, будова, літера) в КЛАДР зберігається одним рядком через кому. При цьому загальні правила формування домовик частини, описані в документації, на практиці далеко не завжди застосовуються. Так, якщо ви вирішите підключити КЛАДР аж до будинку, то доведеться розібратися, що робити з такими позначеннями:
Із слабкими нервами не дивитися
1кА, 1_А, 31', 2к1_А, 1п, 21_25, 5 / 34к1, 21/13 / а, 6влд2, 5 / 2влд2б, 42влд1_4, 21к5 / 2стр2б, 2к6стр2_7, Н (1-700), двлд14_14А, 5кПОД'ЕЗД_3, двлд7 / кв .2, кГсооруженіе1, влд22 / 7сооруженіе3ЕСТ, сооруженіеВПЛ_11 ...
Всього є 6436 різних видів записи домовик частини без урахування цифр.
Схоже, що через велику кількість різних написань в довіднику заплутуються навіть його творці, так як на одній вулиці можна часто зустріти різні діючі записи одного будинку. Наприклад, в селищі Новий (Красногорський район Московської області) в КЛАДР є запис з будинком 8 і окремо з двлд8. Теоретично, домоволодіння і будинок - різні речі, проте в реальності мало хто пише «домоволодіння», і можна сміливо вважати, що двдлд і просто будинок - одне і те ж.
Де ця вулиця, де цей провулок?
І знову: слабкими нервами не дивитися
Тип: «Чувашія»
Найменування: «Чуваська Республіка -»
Так-так, прямо так - з дефісом в кінці. І тип відмінний.
Лев або Толстой?
У КЛАДР багато помилок. Індекси з п'яти символів, дублюючі записи будинків з подвійною нумерацією та інше.
Ось деякі з них більш детально:
Ймовірно, причина помилок в тому, що відповідальними за актуальний стан довідника є органи місцевого самоврядування, і, можливо, яку вносить інформація ніяк не перевіряється. Як би там не було, проблеми довідника збільшуються відсутністю підтримки: ми не раз писали листи в ФНС із зазначенням помилок, але жодна з них не була виправлена.
Що з ФИАС
Давайте подивимося, що вдає із себе ФИАС, і вирішує він проблеми КЛАДР.
Дані та структура
Таким чином, з корисного можна виділити тільки фіксований ID будинку, який, як передбачається, ніколи не буде змінюватися і може служити ключем для зовнішніх систем, а також дати початку і закінчення дії записи. В іншому вся нова інформація складається з ідентифікаторів, які періодично дублюють один одного або є частиною інших.
Якість інформації про будинки
У ФИАС є дві таблиці для будинків. Структура даних сама по собі дуже радує: для всього є свій поле.
Перша таблиця, HOUSE, в кімнаті конференцій будинків, і для кожного є наступна інформація:
- Номер будинку
- Ознака володіння (володіння, будинок, домоволодіння, ділянка)
- номер корпусу
- номер будови
- Ознака будови (будівля, споруда, літер)
- індекс
- стан будинку
Які основні відмінності від таблиці будинків в КЛАДР?
- Структурована інформація про номер будинку і його розширенні. Записи виду двлд12стр1 приведені до нормального вигляду.
- Записи виду 11_13 приведені до 11-13. У КЛАДР, згідно з документацією, через дефіс записуються інтервали будинків (багато будинків в одному записі), тому дефіс в номерах будинків доводилося замінювати на нижнє підкреслювання. У ФИАС цієї проблеми немає. Один рядок - один будинок.
- Фіксований ID для кожного будинку.
Друга таблиця з будинками, HOUSEINT, містить інтервали будинків. У КЛАДР в таблиці будинків містяться записи виду Н (1-999), - це означає все непарні будинки з інтервалу 1 - 999. У ФИАС вони розбиті на поля: початок інтервалу, кінець, і його ознака. На жаль, вміст цієї таблиці так само далеко від істини, як і в КЛАДР: наприклад, в Кірові є неправдоподібно довга вулиця Щорса, на якій є всі будинки в діапазоні від 1 до 9999.
Якість всього іншого
ФИАС доступний в трьох видах: формат КЛАДР, dbf і xml. Останній мені здався найбільш зручним - файли не розбиваються по регіонах на відміну від dbf, а зберігаються в скомпонувати вигляді в xml. Однак вага вихідного довідника в такому форматі становить близько 14Гб.
ФИАС в форматі dbf важить 9Гб замість 14Гб, однак має не дуже зручну структуру: таблиці будинків і нормативних документів розбиті по регіонах, і в підсумку ФИАС в такому поданні містить 187 файлів.
ФИАС в форматі КЛАДР по суті і наповнення - те ж саме, що і сам КЛАДР, за рідкісним винятком, і важить він ті ж самі 330Мб. Порядкове порівняння таблиць КЛАДР і ФИАС в форматі КЛАДР виявило менш 0.1% розбіжностей, які, ймовірно, викликані різним часом вивантаження розглянутих баз КЛАДР і ФИАС.
Що думає бізнес
Як може вплинути на роботу перемикання з КЛАДР на ФИАС? Чи готовий бізнес переходити на цей довідник?
Найбільшою проблемою офіційних довідників в Росії була і залишається неактуальність поданої інформації. Поки не буде нормальної налагодженої системи по поповненню ФИАС, що не буде перевірятися якість даних і не буде проведений рефакторинг того, що вже є в довіднику, ми будемо зустрічатися з усіма тими ж проблемами, що і в КЛАДР.