Большие данные (англ. big data) —общий термин, используемый для описания огромного количества неструктурированных и частично структурированных данных. Данный термин сформировался в конце 2000-х годов, как альтернатива традиционным системам управления базами данных и решениям класса Business Intelligence.

Сфера Больших Данных характеризуется следующими признаками объем, разнообразие, скорость, достоверность данных, ценность накопленной информации.

В большинстве случаев работа с большими данными подразумевает стандартный рабочий процесс: от сбора необработанных данных и до получения пригодной для использования информации.

Основная цель работы с большими данными – это получение на их основании ценных аналитических выводов для практического применения. В идеале большие данные должны становиться доступными для всех заинтересованных сторон, чтобы они получали возможность легко и быстро изучать пакеты данных с помощью инструментов бизнес-аналитики и настраиваемой визуализации, рассчитанных на самостоятельное использование. В зависимости от типа аналитики конечным пользователям могут предоставляться готовые результаты в форме данных статических «прогнозов» (в случае прогнозирующей аналитики) или рекомендованных действий (в случае предписывающей аналитики).

Большие Данные получили широкое распространение во многих отраслях бизнеса. Их используют в здравоохранении, телекоммуникации, торговле, логистике, в финансовых компаниях, а также в государственном управлении.

Технологии больших данных применяются в основном для анализа клиентской среды. Так, HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью Big Data компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США.

Большие данные, помимо уже известных и распространенных задач, можно использовать в том числе, для борьбы с заболеваниями и отслеживания роста эпидемий, считают эксперты. В Германии, например, уже сегодня благодаря технологиям Больших данных онкологические заболевания либо предрасположенность к ним, выявляются по анализу крови пациентов и доноров.

Современные технологии, которые позволяют накапливать огромное количество информации, создают новые формы бизнеса. Так, по данным исследований International Data Corporation, ежегодно объемы хранимой информации вырастают на 40%. В этих условиях информация перестает быть самоценностью, на передний план выходят способы ее обработки и использования.

В результате использования технологий Big Data компании имеют возможность получать важную информацию за несколько секунд, что позволяет повышать эффективность экономических решений, быстрее реагировать на изменения в поведении клиентов, в режиме реального времени выявить рыночные тренды на самых ранних этапах.

Большую роль в развитии BigData играет и государство, которое располагает, пожалуй, самым большим объемом данных как о физических, так и о юридических лицах. В Европе, скажем, большое количество информации открыто, что дает возможности и для исследователей, и для предпринимателей.

Например, в некоторых европейских странах госорганы располагают данными о сдаваемом внаем жилье. На их основе появились интернет-приложения, которые в режиме реального времени показывают, где есть свободные квартиры. При этом сюда накладываются данные полицейских участков, которые подсказывают, какой уровень преступности в том или ином районе; данные других служб рассказывают об окружающей инфраструктуре. В итоге человек получает возможность подобрать наиболее удобный для себя вариант.

В настоящее время в Казахстане госорганы пытаются внедрять в работу концепты BigData и OpenData (открытые данные).

Так, Министерство информации и коммуникаций Республики Казахстан планирует внедрять новую технологию хранения и обработки больших объемов информации. Также было сказано, что ведомство ставит перед собой масштабную задачу по внедрению новейшей технологии BigData и выведению Казахстана в лидирующие роли мировой отрасли ИКТ.

Применение технологии больших данных в самых разных областях, такие как здавоохранение, банки, розничная торговля, операторы связи и.т. многие из которых стандартизованы или активно стандартизуются как на национальном, так и на международном уровнях, порождает, естественно, вопросы о введении стандартов в области больших данных.

В настоящее время, несколько основных институтов стандартизации вовлечены в работу по разработке стандартов для больших данных- Международная организация по стандартизации и Международная Электротехническая комиссия (ISO/IEC), Международный Союз Электросвязи (ITU), Британский Институт Стандартов (BSI), Национальный Институт Стандартов и Технологии США (NIST).  

Международная организация по стандартизации и Международная электротехническая комиссия (ИСО / МЭК) создали 3 рабочие группы, ориентированные на стандартизацию следующих технологий: большие данных (ISO/IEC JTC1/WG 9 «Большие данные»), интернет вещей (ISO/IEC JTC1/WG 10 «Интернет вещей») и умные города (ISO/IEC JTC1/WG 11 «Умные города»).

В соответствии со стандартом ИСО, Рабочая группа по большим данным будет служить в качестве определяющей для главной темы большой программы стандартизации данных и выявления пробелов в области стандартизации. Она будет разрабатывать основополагающие стандарты - в том числе эталонной архитектуры.

В настоящее время международная рабочая группа по стандартизации ISO/IEC JTC1/WG 9 «Большие данные» разрабатывает следующие проекты международных стандартов: комплекс стандартов на эталонную архитектуру больших данных (серия стандартов ISO/IEC 20547) и стандарт на термины и определения (ISO/IEC 20546). Данные проекты находятся на стадии подготовки проекта (код стадии 30).

В ITU можно отметить несколько областей активности, касающихся больших данных. В документах ITU указываются следующие области активности:

- высоконадежная, гибкая и масштабируемая сетевая инфраструктура с высокой пропускной способностью и с низкой задержкой.

- Агрегирование и анонимизация наборов данных.

В конце 2015 года, члены МСЭ договорились о международном стандарте для больших данных. Новый стандарт, рекомендация МСЭ-Т Y.3600 "Большие данные - требования и возможности на основе облачных вычислений". Стандарт описывает, как облачные вычислительные системы могут быть использованы для предоставления услуг Big Data. Главным образом, он описывает требования к облачным вычислениям на основе больших объемов данных (требования по сбору данных, предварительной обработки данных и требования к хранению данных, анализу, визуализации и управлению, безопасности данных и требования по защите, сбору и хранению данных).

Национальным институтом стандартов и технологий США (NIST) предлагает наиболее проработанный стек стандартов по большим данным - NIST Big Data Interoperability Framework V1.0 включает в себя следующие документы:

- NIST Специальное издание 1500-1, том 1, Определения

- NIST Специальное издание 1500-2, том 2, Таксономия больших данных;

- NIST Специальное издание 1500-3, Том 3, Примеры использования и общие требования;

- NIST Специальное издание 1500-4, том 4, Безопасность и конфиденциальность

- NIST Специальное издание 1500-5, том 5, Архитектура;

- NIST Специальное издание 1500-6, том 6, Эталонная архитектура;

- NIST Специальное издание 1500-7, том 7, Стандарты дорожной карты.

Кроме того, согласно Британский Институт Стандартов (BSI), следующие темы подлежат стандартизации в больших данных:

- Стандарт на метаданные.

- Стандарты на условия работы с данными.

- Стандарты сбора данных.

- Стандарты объяснения для проектов Big Data.

- Руководство "Как сделать" для Big Data.

Здесь сразу можно указать стандарт BSI PAS-212:2016 «Интернет вещей» для обнаружения (раскрытия) данных в умных городах;

Из других институтов, которые имеют инициативы, относящиеся к большим данным, отметим:

- Институт Инженеров Электротехники и Электроники (IEEE)

- Международную Электротехническую Комиссию (IEC)

- Инженерный Совет Интернета (The Internet Engineering Task Force - IETF)

- Консорциум Всемирной Паутины (World Wide Web Consortium -W3C)

- Открытый гео-консорциум (Open Geospatial Consortium - OGC) и другие.

В рамках национальной стандартизации в соответствии с Государственной программой «Информационный – Казахстан 2020» в этом году проводятся работы по разработке проекта СТ РК «Большие данные. Облачные вычисления на основе требований и возможности» (на основе Y.3600: Большие данные - облачных вычислений на основе требований и возможностей).

Проект СТ РК «Большие данные. Облачные вычисления на основе требований и возможности» предусматривает подход использования облачных вычислении для удовлетворения существующих проблем в использовании больших данных.

Кроме того, ТК 34 «Информационные технологии» на базе АО «Национальный инфокоммуникационный Холдинг «Зерде» направлены предложения в План государственной стандартизации для проведения гармонизации следующие стандарты по обработке данных:

на 2017 год:

- СТ РК «Информационная технология. Центры обработки данных. Ключевые показатели эффективности. Часть 1. Обзор и общие требования» на основе ISO/IEC 30134-1:2016;

- СТ РК «Информационная технология. Центры обработки данных. Ключевые показатели эффективности. Часть 2. Коэффициент энергоэффективности (PUE)» на основе   ISO/IEC 30134-2:2016;

- СТ РК «Информационная технология. Центры обработки данных. Ключевые показатели эффективности. Часть 3. Возобновляемая энергетика (REF)» на основе    ISO/IEC 30134-3:2016;

на 2018-2020 года:

- СТ РК «Информационная технология. Устойчивость для ИТ и с помощью ИТ. Контроль и управление интеллектуальными ресурсами центра обработки данных» на основе ISO/IEC 19395:2015;

- СТ РК «Информационные технологии. Телекоммуникации и обмен информацией между системами. Высокоуровневые протоколы управления каналом передачи данных на основе ISO/IEC 13239:2002;

- СТ РК «Информационные технологии. Обработка документов и связанная с ней передача данных. Проверка конформности систем стандартного обобщенного языка описания документов» На основе ISO/IEC 13673:2000;

- СТ РК «Информационные технологии. Описание документа и языки обработки данных. Язык описания гипертекстов» на основе   ISO/IEC 15445:200;0

- СТ РК «Информационные технологии. Идентификация радиочастоты (RFID) для менеджмента частот. Инфраструктура системы программного обеспечения. Часть 2. Управление данными».

Автор: Айжан Серикпаева

Соавтор: Альфия Қази

Источники:

1. https://habrahabr.ru/company/dca/blog/267361/

2. https://group-global.org/sites/.../Большие%20Данные%20для%20решения%20больших%...

3. Статья «Большие Данные для решения больших проблем» Цвингер И.Г

4. https://kapital.kz/business/32991/bolshie-dannye-prinosyat-mirovoj-ekonomike-milliardy.html

5. http://www.kazpravda.kz/news/tehnologii/kazahstanskii-proekt-po-ispolzovaniu-tehnologii-bolshih-dannih-predstavlen-v-rossii/

6. https://www.nist.gov/el/cyber-physical-systems/big-data-pwg

7. http://injoit.org/index.php/j1/article/view/347