Наръчник Отворени данни

Наръчникът е изготвен от НПО Линкс, като са използвани и материали на Open Knowledge Foundation

 

Можете да свалите пълния текст на наръчника за отворени данни в PDF формат - 110.1KB

1.1. Въведение

Знаете ли каква сума от вашите данъци отива за улично осветление или пък за изследвания на рака? Коя е най-краткият, безопасен и живописен маршрут, по който да стигнете с колело от вкъщи до работа? И какво има във въздуха, който дишате? Къде в близост до вас има най-добри възможности за работа или пък къде е най-високата концентрация на овощни дървета на глава от населението? Кога можете да влияете на решенията по теми, които ви интересуват и към кого да се обърнете във връзка с тези решения?

Новите технологии вече правят възможно разработването на услуги, които да дават отговори на тези въпроси. Много голяма част от данните, които ще са ви нужни, за да намерите тези отговори, се генерират от публични институции. Често обаче данните все още не са налични в лесно използваем формат. Целта на този наръчник е да отключи потенциала, който публичната информация има за изграждане на нови услуги, целящи да подобрят живота на гражданите и да усъвършенстват начина, по който обществото и институциите функционират.

Понятието „отворени данни“ – т.е. информация, генерирана от публични и други органи, която е свободно достъпна за повторна употреба – съществува от години. През 2009 г. то започва да придобива все по-голяма популярност сред различни правителства по света, които стартират инициативи за публикуване на данни в отворен формат.

1.2. Защо отворени данни?

Отворените данни са огромен все още неизползван ресурс. Много хора и организации събират широк набор от данни. В това отношение от особено значение са държавните институции, които по силата на закона събират голямо количеството информация, която може да се отвори и да стане полезна и за други заинтересовани страни. Защо това е важно?

Има много области, в които отворените данни добавят стойност и вече са налице положителни примери за тяхното използване. Има и много различни хора и организации, които могат да се възползват от наличните данни, в т.ч. и самите държавни институции.

Вече могат да се очертаят голям брой сфери, в които отворените публични данни създават допълнителна стойност. Някои от тях са:

  • Прозрачност и контрол над институциите
  • Гражданско участие
  • Овластяване на гражданите
  • По-добри продукти и услуги, предлагани от частния бизнес
  • Иновации
  • Подобрена ефективност на публичните услуги
  • Възможност за измерване на ефективността на публичните политики
  • Ново познание, получено от свързването на данни от различни източници

1.3. Какво представляват отворените данни?

Отворените данни са данни, които са свободни за ползване, повторна употреба и разпространение.

Основните измерения на отвореността са:

  • Наличност и достъп – данните следва да са налични в тяхната цялост и на разумна цена (само на основа на разходи), като е най-добре те да могат да се даунлоудват от интернет. Данните трябва да се налични в удобен формат, който позволява модифициране.
  • Повторна употреба и разпространение – условията, при които данните се предоставят, трябва да позволяват повторна употреба и разпространение, както и смесването им с други масиви от данни.
  • Всеобщ достъп – всеки трябва да има възможност за повторна употреба и разпространение на данни; не следва да се поставят дискриминационни условия за определени групи или области. Например ограничение за „нетърговска“ употреба или за ползване на данни „само в областта на образованието“.

Ако се чудите защо е важно да е ясно какво точно означава „отворени данни“ и защо се налага обща дефиниция, отговорът е един: оперативна съвместимост.

Оперативната съвместимост е способността на различни системи и организации да работят заедно. В нашия случай съвместимостта се отнася до възможността различни масиви от данни да бъдат свързвани и смесвани.

Оперативната съвместимост е важна, защото позволява на различни компоненти да функционират заедно, а това е от особено значение за големи, комплексни системи. Без оперативна съвместимост това става невъзможно, като добър пример в тази посока е историята за Вавилонската кула, когато невъзможността за комуникация довежда до пълен провал на усилието да се построи кулата.

Това важи и за данните. Основен елемент при отворените данни е условието всяка „отворена“ единица в масива от данни да може свободно да се смесва с други „отворени“ единици. Тази оперативна съвместимост е ключова с оглед извличане на оптимална полза от „отвореността“: съществено разширени възможности различни набори от данни да бъдат комбинирани, така че да доведат до разработване на повече и по-добри продукти и услуги.

Наличието на ясна дефиниция за „отвореност“ дава гаранции, че когато получите два различни масива данни от два различни източника, ще можете да ги свържете и ще избегнете синдрома „Вавилонска кула“: много масиви от данни, но невъзможност те да бъдат обединени в по-големи системи.

1.4. Как да отворим данните?

Има три основни правила, които е добре да се спазват при отваряне на данните:

  • Процесът не трябва да е сложен. Започнете с нещо малко, бързо и простичко. Не е нужно всички масиви да се отворят наведнъж. Започнете с един, или дори с част от масив, и продължете нататък. Колкото повече успеете да отворите, толкова по-добре.
  • Не забравяйте, че става дума за иновация. Ако се движите бързо, набирате инерция и се учите от опита си – в иновациите неуспехът е точно толкова важен колкото и успехът, а е добре да знаете, че не всички данни ще бъдат полезни.
  • Установете контакт с потребителите на ранен етап и комуникирайте често. Поддържайте връзка с бъдещи и настоящи потребители – граждани, бизнес, разработчици - от възможно най-ранния момент и търсете често мнението им. Така всяка следваща услуга ще отговаря все по-адекватно на техните нужди.

Важно е да си давате сметка, че голяма част от данните ще достигне крайния потребител непряко посредством информационни посредници. Това са хората, които взимат данните, трансформират ги, комбинират ги и ги представят. Затова установете контакт първо с тези хора. Те ще се тези, които ще използват и разпространят информацията.

Не пренебрегвайте често разпространените страхове и неразбиране. Това е особено важно, ако работите с или в големи държавни институции. Когато започнете да отваряте данни, ще се сблъскате с много въпроси и опасения. Важно е (а) да идентифицирате значимите притеснения и въпроси и (б) да намерите отговори на тези въпроси на възможно най-ранен стадий от процеса.

Процесът на отваряне на данни обхваща четири основни стъпки. Те могат да бъдат изпълнявани последователно, но и едновременно:

1. Избор на база(и) данни. Изберете данните, които ще отваряте. Помнете, че винаги можете да се върнете към тази първа стъпка, ако възникнат проблеми.

2. Отворен лиценз:

  • (а) Определете какви са правата на интелектуална собственост върху данните
  • (б) Приложете подходящ „отворен“ лиценз за тези права
  • (в) Ако това не е възможно, върнете се към стъпка 1 и опитайте с друга база данни.

3. Осигурете наличност на данните – в тяхната цялост и в ползваем формат. Може да помислите и за алтернативен начин за осигуряване на наличност чрез приложно-програмен интерфейс (API).

4. Осигурете откриваемост на данните – качете ги в интернет или създайте централен каталог на отворените масиви данни.

1.4.1. Избор на база(и) данни

Изборът на данни, които да отворите е първата стъпка в процеса – но не бива да забравяте, че този процес е повторяем и можете да започвате отначало, ако срещнете трудности.

В много случаи, особено в големи институции, изборът на данни е предизвикателство. Как може да се подходи тогава? Добра идея е да се състави списък с масивите от данни, които може да бъдат отворени. Не е задължително този списък да е изчерпателен. Той подлежи на допълване и редакция.

Попитайте ползвателите

Като начало е добре да попитате хората, които ще ползват данните, защото те са наясно с това, кои данни биха им били от полза.

1. Изгответе кратък списък от данни, по които да потърсите обратна връзка от ползвателите. Не е задължително този списък да съвпада с вашите очаквания, тук целта е да получите представа за търсенето.

2. Публикувайте въпросник по списъка на интернет страницата си.

3. Постарайте се да направите формуляра максимално лесен за попълване. Не изисквайте например регистрация.

4. Разпространете въпросника по форуми, социални медии и др. като предвидите линк към страницата си.

5. Организирайте консултативно събитие.

6. Потърсете подходящ лектор за събитието - за предпочитане политическо лице от вашата институция. Отворените данни обикновена са част от по-широка политика за по-добър достъп до информация.

Разходен критерий

Колко пари отделят институциите за събиране и поддържане на бази данни? Ако харчат много, вероятността други хора да искат достъп до тези данни е висока.

Тук, разбира се, възниква въпросът „Защо другите да ползват безплатно нещо толкова скъпо?“. Отговорът е, че тези разходи са направени с публични средства, за да може публичният сектор да изпълни определена функция. Разходите за предоставяне на данните, след като веднъж са били събрани, на трети страни са нищожни. Т.е. от тези трети страни не следва да се търси заплащане.

Лесно ли е да се отворят данните?

Понякога, когато решавате кои данни биха били най-ценни, е добре да помислите и кои масиви ще е най-лесно да се отворят. Отварянето на малки и лесни бази данни може да послужи като катализатор за по-голяма поведенческа промяна в институциите.

Внимавайте с този подход обаче. Често тези малки и лесни данни носят толкова малка стойност, че от тях не може да произтече нищо. Това може да подкопае доверието в целия проект за отваряне на данни.

Какво правят другите?

Отворените данни са световно движение, което набира популярност. Проучете какво правят другите и адаптирайте техния опит.

1.4.2. Отворен лиценз (правни аспекти на отвореността)

В повечето юрисдикции се в сила права на интелектуална собственост, които не дават възможност за ползване, повторна употреба и разпространение на данните без изрично разрешение. Затова ако планирате да предоставите данните си, те трябва да са под лиценз, като това важи в особено голяма степен за отворените данни.

Какви лицензи може да ползвате? Препоръчително е да ползвате лицензи, които отговарят на дефиницията за „отворени данни“. Списък на такива и инструкции за ползване можете да намерите на:

http://opendefintion.org/licenses

http://opendatacommons.org/guide

1.4.3. Осигурете наличност на данните (технически аспекти на отвореността)

Отворените данни следва да се отворят както от правна, така и от техническа гледна точка. Данните трябва да са налични в тяхната цялост и в машинно-читаем формат.

Наличност. Цената за данните трябва да покрива в разумна степен разходите за възпроизвеждане, като е желателно те да могат да се свалят свободно през интернет.

Цялост. Данните трябва да се предоставят под формата на пълен набор от данни. Ако имате регистър, който се поддържа по закон, достъпна за даунлоуд следва да бъде цялата база данни от регистъра.

В отворен, машинно-читаем формат. Повторната употреба на данни от публичния сектор не трябва да подлежи на патентни ограничения. Още по-важно е да осигурите данни в машинно-читаем формат, който дава повече възможности за повторна употреба.

Ето няколко правила, които ще ви помогнат:

  • Не трябва да е сложно
  • Действате бързо
  • Бъдете прагматични

Винаги е по-добре да публикувате сурови данни сега, отколкото да чакате шест месеца за да получите идеалния масив.

Има много начини данните да бъдат налични за трети страни. Най-естественият начин е да бъдат публикувани онлайн. В рамките на този модел има много вариации. Най-просто е данните да се качат на интернет страниците на съответните институции, но има и други възможности.

Чрез интернет страницата

Обичайният подход е файловете да бъдат достъпни за даунлоуд на интернет страницата ви, точно както публикувате документи и друга информация.

Една от трудностите, свързани с този подход е, че за външния човек е трудно да разбере къде да намери актуализирана информация. Това създава някои пречки за тези, които биха искали да разработят различни софтуерни инструменти на базата на вашите данни.

Чрез интернет страници на трети страни

Много хранилища се превръщат в хъбове за данни в различни области. Например страници като Infochimps.com и Talis.com дават възможност на публични институции да съхраняват огромни масиви данни безплатно.

Страниците на трети страни могат бъдат много полезни. Основно защото те вече са създали общност от заинтересовани страни и на тях са публикувани много бази данни. Когато вашите данни станат част от такива платформи, се получава ефект на допълнителен интерес към вашата информация.

Тези платформи притежават инфраструктурата, необходима за поддръжка на търсенето. Те често предлагат допълнителни услуги като статистика и данни за потребление.

Този подход обаче има два недостатъка. Първият е загуба на независимост. Вашата институция трябва да отстъпи контрола на друг. Това често поражда политически, правни и оперативни трудности. Вторият е, че може да бъде жертвана отвореността. Проверете дали съответната платформа позволява достъп на всички и от всякакъв тип устройства.

Чрез FTP сървъри

По-малко модерният метод за осигуряване на достъп до файлове е през FTP сървър. Това е подходящ метод, ако вашите потребители са технически напреднали – софтуерни разработчици и учени. FTP системата замества HTTP, но е създадена специално за пренос на файлове.

Под формата на торенти

BitTorrent е система, която взимащите решения познават, тъй като е свързана с нарушаване на авторски права. Тя работи с файлове, наречени торенти, като разделя разходите за разпространение на файловете между всички, който достъпват тези файлове. Вместо сървърите да се претоварват, предлагането се увеличава с увеличаване на търсенето. Затова тази система е успешна при обмен на филми. Тя е прекрасен начин да се разпространяват и големи обеми данни.

Под формата на приложно -програмен интерфейс (API)

Данни могат да се публикуват чрез приложно-програмен интерфейс (API). Този тип интерфейси са много популярни. Те дават възможност на програмистите да избират конкретни части от данни, вместо да предоставят всичките данни в огромен файл. API обикновено са свързани с база данни, която се актуализира в реално време. Това означава, че ако информацията е предоставена посредством API, то са създадени гаранции, че тя е актуална.

Публикуването на сурови данни в тяхната цялост трябва да е приоритет на всички инициативи за отваряне на данни. Предоставянето на данни през API предполага да се отчетат и някои други съображения:

1. Цена. Те изискват повече работа за разработване и поддръжка.

2. Очаквания. Важно да се гарантира сигурност с оглед привличането на общност от потребители на системата. При възникване на проблем, вие трябва да покриете разходите за решаването му.

Достъпът до пълните масиви данни дава гаранции, че:

1. няма зависимост от първоначалния доставчик на данните, т.е. при промени например в бюджетния цикъл, данните остават налични.

2. всеки може да получи копие и да го разпространи. Това намалява разходите за разпространение при източника.

3. други могат да разработят собствени услуги въз основа на данните, тъй като ще бъдат сигурни, че данните няма да им бъдат отнети.

Предоставянето на пълен масив от данни дава възможност данните да бъдат ползвани и за цели, различни от първоначалното им предназначение. Например, те могат да бъдат конвертирани в друг формат, свързани с други ресурси или архивирани на много места. Макар че последната версия на данните може да се предостави през API, пълният масив от сурови данни трябва да се предоставя на равни интервали от време.

Например, статистическата служба на ЕС Евростат има инструмент за даунлоуд на пълния масив от данни, който се състои от над 4000 файла. Той се актуализира два пъти дневно, като се предлага в TSV формат и включва документация за самия инструмент и за файловете от данни.

1.4.4. Осигурете откриваемост на данните

Отворените данни нямат никакъв смисъл, ако не се ползват. Трябва да гарантирате, че хората могат да намерят изходния материал.

Най-важното е да осигурите неутрално място, което не зависи от междуведомствени интриги или бюджетни промени. Колкото по-лесно е за потребителите да открият данните, толкова по-бързо ще могат да се разработят полезни инструменти.

Налични инструменти

Има немалко инструменти в интернет, които са разработени специално, за да осигурят по-лесно откриване на данните.

Един от най-известните е DataHub, който представлява каталог и хранилище за данни от целия свят. На този сайт хората могат лесно да публикуват материали, а потребителите да намерят лесно данните, които търсят.

За държавата

Обичайната практика е водещата институция да създаде каталог на публичните данни. Когато изготвяте такъв каталог, постарайте се той да бъде структуриран така, че отделните ведомства да могат лесно да обновяват информацията в него.

Не се подавайте на изкушението да разработвате чисто нов софтуер за тази цел. Има много безплатни софтуерни решения с отворен код (като CKAN), които много правителства по света вече ползват.

В повечето каталози за отворени данни се допускат посочените по-долу пропуски. Вашата програма за отворени данни трябва да отчете следното:

възможност организации от частния и граждански сектор да добавят данни.

улеснено усъвършенстване на данните, като се предвиди възможност деривати на масиви от данни да се включат в каталога. Например някой може вече да е кодирал географски адреси и да иска да сподели резултатите. Ако позволите единични версии на данните, подобни подобрения ще останат скрити.

бъдете толерантни и давайте възможност вашите данни да се появяват на други места. Т.е. съдържанието ще се мултиплицира към заинтересованите общности. Ако имате данни за нивата на реките, те може да се появят в каталог за хидролози.

достъпът трябва да е равнопоставен. Не е добре служители или други лица да имат по-високо ниво на достъп, защото това ще подкопае ангажираността и активността на останалите потребители.

За гражданското обществото

Предвидете допълнителен каталог за неофициални данни.

Често държавните служители полагат сериозни усилия да избегнат политическо неудобство или други щети, свързани със злоупотребата с данни. Освен това държавните институции често не желаят да подкрепят дейности, при които техни данни се смесват с данни от фирми. Затова е добре да има отделен каталог за граждански организации, бизнес и други заинтересовани страни.

1.5. И сега като отворих данните, какво да правя?

След като вече разгледахме подходите, по които държавните институции могат да отворят данните за повторна употреба по подходящия от правна и техническа гледна точка начин, следващата стъпка е да се насърчи ползването на тези данни.

1.5.1. Похвалете се!

На първо място разпространете новината, че осъществявате инициатива за отваряне на данни в своята институция или сфера на компетентност.

Ако сте отворили няколко набора от данни, определено си струва да отделите време да запознаете хората с този факт.

Наред с прессъобщения, пресконференции и т.н., може да:

  • се свържете с уважавани организации или хора, които имат интерес по темата.
  • обявите новината чрез социалните мрежи.
  • установите контакт с потенциални потребители

Опознайте публиката си

Общото правило в публичните комуникации за таргетиране на конкретни групи важи и по отношение на общността на потребители на данни. И в този случай дори и най-доброто послание би се загубило, ако не се насочи правилно.

Цифровата общност е като цяло готова да споделя нова информация, но тя и бързо я консумира. Вашите послания трябва да бъдат написани, като се отчита фактът, че ще бъдат четени набързо и адресатите няма да отделят много време за подробен анализ.

Членовете на технологичната общност в по-малка степен от обикновените хора ползват MS Windows. Това означава, че не трябва да запазвате документи във формат MS Office, които да се четат офлайн. Има две причини за това:

първо тези документи са по-малко достъпни. Вместо да виждат същото, което вие виждате на екрана си, потребителите често виждат несъвършено копие от алтернативен източник.

второ по този начин вашата институция изпраща имплицитно послание, че не желае да направи допълнително усилие за разработчиците. Вместо това вие им казвате, че очаквате технологичната общност да направи усилие и да се пригоди към вас.

Качете промоционални материали на страниците на трети страни

Много блогове се радват на многобройни читатели в определена област или по определени теми. Може би си струва да публикувате статия за своята инициатива в такива блогове. Това би било от взаимен интерес. Вие имате възможност да повишите интереса към своята инициатива, а те получават допълнително съдържание за блога по темата, която е значима за тях.

Вашите комуникационни усилия трябва да бъдат пригодени за социални медии

Не е реалистично да се очаква, че държавните служители ще отделят много време за публикации в социалните медии. Но има няколко неща, които може да се направят, за да може съдържанието, което произвеждате, да може по-лесно да се споделя от по-технологично напредналите потребители.

Всяко отделно съдържание трябва да се публикува на отделна страница. Когато дадено послание се споделя с други хора, получателите на връзката към него трябва да могат бързо да прегледат съответното съдържание.

Не карайте хората да данулоудват вашите прессъобщения. Добре е да има пресъсобщения. Те са кратки съобщения по конкретен въпрос. Но, ако карате хората да ги свалят от Интернет, за която цел да отварят браузър, няма да са много тези, които ще ги прочетат. Търсачките също рядко индексират подобно съдържание.

Публикувайте съдържанието си под отворен лиценз. Освен че дава сигурност на хората, които искат да споделят вашето съдържание, че споделянето е разрешено, така вие изпращате послание, че вашата институция цени отвореността. Това означава много повече за активистите за отворени данни от всичко, което ще напишете в пресъобщението си.

Социални медии

Не е ефективна практика недофинансираните държавни ведомства да прекарват часове по сайтове в социални медии. Най-добрият начин вашият глас да бъде чут в социалните медии е постовете в блоговете да бъдат лесни за споделяне. Това означава да сте чели тези блогове. Ето няколко предложения:

Платформи за дискусия. Туитър се превърна в предпочитаната платформа за бързо разпространение на информация. Всичко с таг #отворени данни (#opendata) ще бъде видяно веднага от хиляди хора.

LinkedIn предлага голям избор от групи, които споделят интерес към отворените данни.

Макар че Facebook е отлична платформа за широката публика, той не успява да привлече вниманието на общността от активисти за отворени данни.

Агрегатори на линкове. Изпратете съдържанието си на еквивалента на информационна агенция за техничари. Reddit и Hacker News са двете най-големи платформи в момента. Полезни също са и Slashdot и Diggs.

През тези сайтове се генерира сериозен трафик, ако материалът представлява интерес.

1.5.2. Съберете хората в зала: конференции, чиято програма се определя от участниците, работни срещи и др.

Провеждането на събитие, на които хората участват на живо, е добър начин да се поощри използването на данните. Сред основните мотиви за организиране на такова събитие са:

  • така ще научите повече за потенциалните потребителите
  • така ще научите повече за това какви данни се търсят
  • така ще научите повече за това как хората ползват вашите данни
  • така давате възможност на потенциалните потребители да научат повече за видовете информация, които събирате
  • така давате възможност на потенциалните потребители да се запознаят и да започнат да работят заедно
  • така представяте своите данни пред по-широка публика.

1.5.3. Практическа работа. Хакатони, конкурси, награди.

Структурата на тези събития е следната: след отварянето на определен набор от данни на програмистите се дава срок – може да е само 48 часа или няколко седмици – да разработят приложения въз основа на данните.

Това е и един от най-добрите начини организациите от гражданския сектор да демонстрират на правителството колко ценни могат да бъдат публичните данни е да се покажат практически примери за социалната и икономическа полза от отворените данни.

1.6. Формати на данните

JSON

JSON е прост файлов формат, който много лесно се чете от програмен език. Фактът, че не е сложен, означава, че той по-лесно се обработва компютърно от други формати като XML например.

XML

XML е широко използван формат за обмен на данни, като дава възможност да се запази структурата на данните и позволява на разработчиците да пишат части от документите с данните без да се налага намеса при четенето им.

RDF

Този формат дава възможност данните да се представят във форма, която улеснява комбинирането на данни от различни източници. Данните в RDF може да се съхраняват в XML и JSON. RDF не е широко разпространен, но е популярен сред активистите за отворени данни, като се ползва от британското и испанското правителства за проекти за свързани отворени данни.

Таблици

Много институции събират информация в табличен вид, например в Excel. Тези данни често могат да се ползват веднага, ако има коректно описание на съдържащото се в различните колони.

В някои случаи обаче може да има макроси и формули в таблицата, които затрудняват обработката.

CSV

CSV файловете се много полезен формат, защото са компактни и дават възможност за пренос на големи масиви от данни с една и съща структура. Този формат обаче е толкова спартански, че често данните са безполезни, тъй като e почти невъзможно да се разгадае какво означават различните колони.

Текстови документи

Класическите формати като Word, ODF, OOXML или PDF, може да послужат да се покажат определени видове данни – например списъци. Но този формат не позволява консистентна структура, което често води до трудности при автоматичното въвеждане на данни.

Plain text

Документи във формат .txt лесно се четат от компютри. Те обикновено изключват структурирани метаданни обаче, което означава, че разработчиците трябва да създадат добавка, която да интерпретира всеки документ.

Сканирани копия

Това е най-неподходящияj вариант за представяне на данни.

Специални формати

Някои системи имат собствени формати за съхранение или експорт на данни. Ако данните се публикуват в такъв формат е добре да се предостави линк към страницата на доставчика за допълнителни инструкции. Но когато е възможно, е желателно данните да не се предоставят в такива специфични формати.

HTML

В днешни дни голяма част от данни са налични във формат HTML на различни интернет страници. Това е достатъчно, ако данните са стабилни и в малък мащаб. Понякога е за предпочитане данните да са в лесен за сваляне и обработка формат, но е по-евтино и лесно да се направи препратка към интернет сайт. Затова този формат е добра начална стъпка за публикуване на данни.