На сторінках газети «Світ» (№ 25-26 (1109-1110), липень 2020 року)вийшло друком інтерв’ю віцепрезидента Національної академії наук України, директора Інституту теоретичної фізики імені М.М. Боголюбова НАН України академіка Анатолія Загороднього, присвячене Європейській хмарі відкритої науки. Нижче пропонуємо ознайомитися з повним текстом цієї розмови.
* * *
Добігає кінця Рамкова програма з досліджень та інновацій Європейського Союзу «Горизонт 2020». 2021 року розпочнеться нова програма – «Горизонт Європа», для входження до якої Україні вже варто розгортати роботу. Серед головних завдань, які стоять перед нашою країною на цьому шляху, – розширення представництва в Європейському дослідницькому просторі (European Research Area, ERA), зокрема долучення до Відкритої хмари європейської науки (European Open Science Cloud, EOSC). Про те, навіщо створювалась EOSC і які можливості вона відкриває перед дослідниками з різних країн, ми поспілкувалися з віцепрезидентом Національної академії наук України, директором Інституту теоретичної фізики імені М.М. Боголюбова НАН України академіком Анатолієм ЗАГОРОДНІМ.
Академік Анатолій Загородній. Фото: Пресслужба НАН України |
– Анатолію Глібовичу, більшість розмов із науковцями сьогодні зводяться до теми COVID-19, що зрозуміло. Пропоную поговорити про стратегічні питання у науці, які стануть ключовими після пандемії. Скажімо, нещодавно Європейський Союз оприлюднив план дій «ERA проти CORONA», пункт 9 якого стосується інструментів для обміну даними досліджень, а серед іншого – Європейської хмари відкритої науки та принципів FAIR для даних, моделей, робочих процесів і результатів. Поясність, будь ласка, що мається на увазі.
– Ми живемо в дуже цікавий час, коли одночасно відбуваються майже протилежні процеси. З одного боку, країни переорієнтують інтернаціональні ланцюжки виробництва товарів на національний рівень. З іншого боку, виклики, що постають перед суспільством, потребують відкриття досліджень і залучення глобального наукового та промислового ресурсу для їх подолання. Крім того, карантин вплинув на занурення громадянських суспільств у віртуальне середовище, яке за визначенням є відкритим і глобальним. Пандемія стимулювала спільні дії урядів та спонукала наукові співтовариства до інтенсифікації досліджень нового коронавірусу. Це було б неможливо без відкритості досліджень, експериментальних даних, цифрових ресурсів, необхідних для обробки даних, та програмних платформ для проведення досліджень, створених на основі відкритого коду.
Ці платформи, на яких зберігаються дані попередніх досліджень, будувалися за бюджетні кошти багатьох країн світу (зокрема у межах уже згаданої програми «Горизонт 2020») і нарешті отримали потужний запит на їх використання.
COVID-19 також привернув увагу до відсутності відтворюваності великої кількості даних досліджень, які почали відкриватися для усунення загроз життю і здоров’ю людей. Це питання порушувалось і раніше, але не сприймалось настільки гостро. Наприклад, 2012 року з’явилась інформація про відтворюваність даних біохімічних досліджень, на яких ґрунтувалися результати, що ввійшли до наукових публікацій. Було встановлено, що половина даних не відтворюються і, фактично, є «хижацькими». Інше дослідження показало, що 80% статей не мають посилання на дані досліджень, до яких потенційно є доступ. Саме ці факти взяли до уваги експерти найвищого рівня, які почали проєктувати EOSC. Вони дійшли до висновку, що пов’язані з цими негараздами потенційні втрати бюджету ЄС на дослідження – а це загалом близько 120 млрд. євро – можуть бути значними. Ці оцінки стали основою для започаткування проєкту OpenAIR – репозитарію відкритих даних, програмних платформ і публікацій, які мали зберігати учасники проєктів програми «Горизонт 2020» і забезпечувати дотримання принципів FAIR. Хотів би коротко пояснити, що це таке.
Дослідницьку інфраструктуру складають обладнання та прилади для проведення досліджень за певним науковим напрямом. Донедавна цифрові інфраструктури для досліджень (або е-інфраструктури), які включають обчислювальні ресурси для обробки й отримання нових даних відокремлювали введення ресурсів для збереження даних та каналів передачі даних у будь-які куточки світу. Сучасні тенденції поєднання великих дослідницьких інфраструктур з е-інфраструктурами для збереження, оброблення й віддаленого доступу до експериментальних даних призводять до того, що дослідники абстрагуються від такої інфраструктури й інфраструктурою для них стають самі дані. Дані удоступнюються не лише для людей, а й для машин, комп’ютерів, програмних платформ, якщо вони відкриті для використання та відповідають певним стандартам, зокрема FAIR. FAIR – це принципи, яким мають відповідати дані та метадані (опис даних), аби забезпечувати легкий пошук наявних даних (Findable), надавати до них доступ (Accessible), бути інтероперабельними, тобто сумісними для спільного використання (Interoperable), та допускати їх багаторазове використання, тобто мати доступні ліцензії для цього (Reusable). Інфраструктурою таких відкритих даних і є EOSC – Європейська хмара відкритої науки. Хмарою тут називають технологію, яку використовують здебільшого для спільних інструментів з оброблення даних. Цей інструмент не є виключно європейським – першою аналогічною інфраструктурою даних стала інфраструктура Національного інституту здоров’я США. За зразком EOSС зараз розбудовуються Австралійська й Африканська хмари відкритої науки. Японія ж вирішила долучити свою національну інфраструктуру даних до європейської. До речі, EOSC є складовою трьох різних політик ЄС – Стратегії цифрового єдиного ринку та Європейської хмарної ініціативи, Європейського дослідницького простору, Цифровізації промисловості. Крім того, концепція EOSC охоплює не тільки технологічну інфраструктуру, а й є частиною Відкритої науки в Європі – від інфраструктур і даних до послуг і навичок, які мають сприяти створенню конкурентоспроможної економіки даних і знань у глобальному світі. Загалом політика EOSC зосереджується нині на чотирьох важливих для інтероперабельності елементах – даних, навичках, сервісах та інфраструктурі.
Варто зауважити, що будь-яка дослідницька інфраструктура, особливо глобальна, виникає на запит учених, урядів і спільнот, які шукають відповідей на новопосталі виклики. Першими це питання поставили на порядок денний дослідники, які займалися фізикою високих енергій та пошуком бозону Хіггса. Під ці завдання було не лише збудовано унікальний Великий адронний колайдер (ВАК), а й створено грід-інфраструктуру для моделювання експериментів, оброблення даних, яка охопила вчених, ІТ-фахівців, інноваторів, бізнес і громадян практично з усіх країн. Після Кремнієвої долини – як інноваційного локального кластеру світового рівня – ЦЕРН став прикладом інноваційного прориву на основі глобальної цифровізації наукових процесів та створення розподіленої світової відкритої інноваційної екосистеми, яка забезпечила швидкий обмін даними, їх обробку на основі відкритого коду, глобального співробітництва, залучення ІТ-спеціалістів і уможливила наукові відкриття світового рівня. А завдяки відкритому обміну результатів досліджень було усунуто перешкоди й затримки на шляху їх перевірки. Наступного разу принципи Відкритої науки тестувалися на практиці під час спалаху лихоманки Ебола. Близько пів тисячі вчених з усього світу відкрили тоді для обміну й використання необроблені дані своїх досліджень.
– А чи може EOSC прискорити створення ліків проти COVID-19?
– Європейська Комісія вважає, що EOSC – це ідеальний інструмент для реагування на надзвичайні ситуації на кшталт пандемій вірусних інфекцій. Раніше перевагами глобального генерування й обміну даними уже скористались астрономія та фізика високих енергій, тепер це доступно і для біохімічних досліджень.
У лютому 2020 року з’явилася публікація, в якій аналізувалися дані досліджень коронавірусу SARS-CoV-2 чотирма групами вчених і було зроблено висновок про неможливість відтворювати дані досліджень у трьох випадках із чотирьох, тобто результати досліджень викликали недовіру. Подібні випадки дуже перешкоджають глобальній науковій співпраці, що є важливою для подолання надзвичайних ситуацій у сфері охорони здоров’я та потребує безперешкодного доступу до даних, інструментів аналізу й обчислювальної інфраструктури. Стрімке поширення нового коронавірусу вказує на необхідність відкритого аналітичного середовища, яке дає глобальному дослідницькому співтовариству змогу спільно розробляти ефективні контрзаходи.
Для усунення цих недоліків і створення відкритої платформи для боротьби з надзвичайними ситуаціями протягом останніх десяти років з’явилися відкриті програмні забезпечення для аналізу біохімічних даних, а значні національні кошти інвестувались у наукову обчислювальну інфраструктуру. Водночас, спалахи інфекційних захворювань часто трапляються в місцях, де інфраструктура, необхідна для аналізу даних, може бути недоступною, а неупереджена інтерпретація результатів – політично неспроможною. Тож існує потреба у забезпеченні вільного обміну даними та доступу до надійних аналітичних засобів їх аналізу. Останні дослідження доводять, що аналізувати геном вірусу можна із застосуванням відкритої світової наукової інфраструктури, повністю покладаючись на програмне забезпечення з відкритим кодом.
– Які можливості EOSC пропонує користувачам?
– EOSC – це віртуальне середовище з відкритими та безперервними сервісами зберігання, управління, аналізу та повторного використання даних досліджень незалежно від кордонів і наукових дисциплін. Воно створюється шляхом об’єднання наявних і нових інфраструктур наукових даних за дисциплінами та країнами. Хмара є децентралізованою системою, що ґрунтується на співпраці та координації і забезпечує комбіноване використання наявних цифрових інфраструктур, які реалізують принципи FAIR для обміну даними та принципи спільного використання програмного забезпечення на всіх етапах життєвого циклу досліджень.
Формування EOSC відбувається з позиції швидкого старту, а саме інтероперабельності наявних е-інфраструктур і дослідницьких інфраструктур, які мають власні е-інфраструктури. Розбудова Європейської інфраструктури даних має стати базою для високопродуктивних обчислень надвисокого рівня та для сервісів EOSC, які існують уже зараз: EGI, EUDAT, Open AIRE, Indigo Data Cloud, Helix Nebula, PRACE, GEANT.
– Чи замінить EOSC такі інфраструктури, як, наприклад, Українська чи Європейська грід-інфраструктура?
– Навпаки, вона використовуватиме наявні інфраструктури та даватиме користувачам змогу працювати у кількох екосистемах завдяки сумісності складових систем EOSC. Для користувачів EOSC стане точкою входу для пошуку, доступу й використання послуг із різних дослідницьких інфраструктур. Вона визначатиме шляхи безперебійного об’єднаного використання послуг різних інфраструктур для обміну даними, об’єднає ресурси національних центрів обробки даних, європейських дослідницьких інфраструктур і е-інфраструктур. Очікується, що такі інфраструктури та національні хмари відкритої науки поступово увійдуть до федерації EOSC на добровільних засадах, пропонуючи залучення власних ресурсів та дотримуючись встановлених правил. Причому ступінь участі у федерації, тобто набори даних і послуг, які надаватимуться до EOSC, вони визначатимуть самостійно. Обсяг цих ресурсів може містити технічні послуги, а саме – аналітичні й обчислювальні послуги, хмарні сервіси, тематичні послуги, налаштовані на конкретні наукові дисципліни, е-інфраструктуру та сервіс проміжного програмного забезпечення, управління ідентифікацією доступу. На додачу, до хмари увійдуть ресурси знань (передусім набори даних, сховище даних, цифрові бібліотеки й архіви), сервіси доступу (каталог сервісів і портали), наукові інструменти та засоби, а також тренінги, підтримка розробки програмного забезпечення та консультації.
– Чи буде EOSC регулятивним органом?
– Ні, вона не є органом управління, засновником чи міжнародною організацією. Наразі розглядається питання створення партнерства, яке підтримуватиметься програмою «Горизонт Європа». З іншого боку, рекомендації щодо політики, які розробляються Хмарою, призначені для груп зацікавлених сторін EOSC – фінансових агенцій, міністерств, дослідницьких інфраструктур і дослідницьких організацій. EOSC має органи управління й оперативні структури, що розроблюють і затверджують для неї стандарти та процедури, які застосовуватимуться також до провайдерів і користувачів Хмари. Але повноважень нав’язувати політику EOSC не має.
– Які переваги надає впровадження EOSC?
– За оцінками Єврокомісії, відкритий доступ до даних сприяє підвищенню якості досліджень, зменшенню їх дублювання, боротьбі з науковими шахрайствами. А невпровадження принципів FAIR для даних у 28-ми країнах ЄС обчислюється сумою в 10,2 млрд євро в рік. Серед іншого, перехід до відкритої науки відкриває нові можливості для прискорення фундаментальних досліджень, міждисциплінарних досліджень і створення проривних інновацій. З метою налаштування специфічного комплексу сервісів для окремої спільноти з каталогу сервісів EOSC створюються розподілені центри компетенції, в яких об’єднуються зусилля експертів із дослідницьких і е-інфраструктур та розробників технологій. Хмари відкритої науки вже зараз розгортаються, наприклад, для потреб планетології, матеріалознавства, природничих наук, клінічних досліджень, прогностичної токсикології, сільського господарства, захисту довкілля.
– Яким чином наша держава, зокрема, НАН України, інші наукові структури братимуть участь в EOSC?
– 2013 року було започатковано Цільову комплексну програму наукових досліджень НАН України «Грід-інфраструктура і грід-технології для наукових і науково-прикладних застосувань», в рамках якої планується розвивати хмарні технології, створити об’єднану хмару Українського національного гріду (УНГ) і забезпечити його системне інтегрування в Європейську інфраструктуру, включно з мережею суперкомп’ютерів PRACE, репозиторієм EUDAT, об’єднаною Європейською хмарою для наукових та інноваційних досліджень.
На жаль, 2016 року Україна досягла історичного мінімуму державного фінансування науки – 0,16% ВВП, що спричинило зменшення фінансування цільової програми та відтоку найкращих фахівців у ІТ-індустрію та до ЦЕРНу. Попри це, на час прийняття у 2019 році Програми інформатизації НАН України на 2020-2024 роки, до складу УНГ входять 14 ресурсних центрів і 6 віртуальних організацій із різних напрямів наукових досліджень, які належать до EGI Foundation (EGI.eu) – об’єднаної федерації національних ініціатив, а також 10 кластерів, які обслуговують інститути НАН України й університети.
Створено основи хмарної інфраструктури НАН України, що надає ресурси за принципом IaaS (Infrastructure as a Service – Інфраструктура як сервіс). Вона дає змогу ефективно використовувати обчислювальні ресурси, реалізуючи модель «надання ресурсів за вимогою». Побудовано перший хмарний кластер Інституту теоретичної фізики ім. М.М. Боголюбова НАН України, сертифікований та підключений до EGI Federated Cloud. На жаль, цей кластер – єдиний в Україні хмарний ресурс, включений до Європейської хмарної інфраструктури за підтримки EOSC. 2018 року УНГ та EGI Foundation підписали угоду про асоційоване членство. Співпраця з EGI.eu забезпечує можливість побудови Національної ініціативи EOSC.
– Які наступні кроки слід здійснити для пришвидшення процесу входження України до EOSC?
– Вони детально «розписані» у Програмі інформатизації НАН України на 2020-2024 роки. Зокрема, необхідно забезпечити підтримку безперебійної роботи та розвитку гібридної національної грід- та хмарної інфраструктури за моделлю Європейської хмарної та грід-інфраструктури, яка надає грід- та хмарні сервіси у сфері науки, інновацій та бізнесу як самостійно, так і в рамках EOSC.
Потрібно також розробити технічні умови для інтегрування національної грід- та хмарної інфраструктури до аналогічних міжнародних інфраструктур задля реалізації спільних проектів між українськими та міжнародними грід- і хмарними інфраструктурами. Здійснити подальші кроки зі створення об’єднаної «хмари» УНГ та системного інтегрування в об’єднану Європейську хмару для наукових та інноваційних досліджень.
Сприяти активізації міжнародного наукового та науково-технічного співробітництва, розбудовуючи розподілені хмари відкритої науки за тематичними напрямами європейських і глобальних дослідницьких інфраструктур. Створювати механізми та стимули з відкриття даних, управління ними і збереження в надійних репозитаріях відповідно до принципів FAIR.
Не менш важливо запроваджувати навчальні курси з хмарних технологій та Data Science, створені на основі хмарних сервісів, готувати спеціалістів з обробки даних експериментів та кореневих експертів даних і стюардів даних за певними дисциплінами.
– Чи необхідно щось іще, крім «організаційних зусиль»?
– Це запитання з розряду риторичних. Серед ризиків для реалізації програми – відсутність необхідної фінансової підтримки та достатньої кількості ІТ-фахівців у державних наукових інститутах на посадах адміністраторів е-інфраструктур і стюардів даних у центрах компетенції з кожної дисципліни.
Детального опрацювання потребує і питання про надання відкритого доступу до результатів досліджень, отриманих за кошти державного бюджету. Нині такий доступ можна відкривати лише для користувачів з установ, що належать до одного й того ж головного розпорядника бюджетних коштів, і тільки за умови вирішення цього питання на відомчому рівні. Наприклад, Академія не може відкрити безкоштовний доступ до використання своїх обчислювальних ресурсів для користувачів інших відомств. Ситуація може додатково ускладнитися у зв’язку з розглядом у Верховній Раді України Закону України «Про хмарні послуги» (відповідний законопроєкт вже прийнятий за основу), який передбачає, що окрім досить складної процедури реєстрації учасників відносин у сфері хмарних послуг, всі хмарні послуги мають надаватися на договірній (комерційній) основі. Це буде спричиняти додаткові труднощі для наукових та освітянських установ, не кажучи вже про те, що таке унормування ніяк не кореспондується з засадничою ідеєю EOSC – наданням вільного доступу до відкритих даних.
Але все це – проблеми, які можна розв’язати, і вони, як я сподіваюсь, безумовно будуть розв’язані. Однак важливим є фактор часу. Він визначальний. Україна – не просто велика за розміром європейська країна, це країна з величезними науковими досягненнями, яка навіть у надскладні кризові роки не розгубила свого потенціалу. Можливість долучитися до Європейського дослідницького простору і Європейської хмари відкритої науки на принципах FAIR, за умови фінансової підтримки держави, відкриває для всієї України можливість досягти успіхів і в економіці, і в соціальному розвитку.
* * *