5 ключових областей, де великі дані чинять значні наслідки

Відеоролик: Наживо | Ранкове звернення Зеленського. Наслідки нічних бомбардувань міст. Ранок. 16-й день війни.

Зміст

Як це сталося
Великі дані, великі можливості
Щось дивитися

Джерело: Nmedia /Dreamstime.com

Винос:

Великі дані - це великий бізнес скрізь, але декілька конкретних напрямків найбільше використовують цю технологію.

Коли я розпочав цю статтю, я планував перелічити різні типи великих платформ даних. Але, після трьох днів спроб зібрати всі різні пропозиції великих даних - реляційні проти нереляційні, SQL проти NoSQL та бази даних проти фреймворку - в деякий вигляд порядку, я вирішив уникнути цього безладу.

Щоб додати образи до травми, я сподівався представити людину, яка створила термін "великі дані", як частину статті. Але я навіть не можу цього зробити. Немає узгодженої відповіді. Насправді є повноцінний дослідницький проект, який вивчає, хто спочатку придумав великі дані. Натомість я буду розглядати деякі ключові способи використання великих даних. Це набагато важливіше. І це цікавіше і дивніше, ніж можна подумати.

Як це сталося

Аналітики, що використовують традиційний майнінг даних, роками маніпулюють даними. Цим же аналітикам зараз важко впоратися з кількістю та різноманітністю даних, що зберігаються бізнесом, приватними організаціями та державними установами.

Введіть великі дані - наступний еволюційний крок у видобутку даних. Великі дані були розроблені для обробки масивних баз даних і безлічі типів даних, що створюються в сучасному цифровому світі. Якщо ви "масово" думаєте про Google та всі дані, які він збирає, ви опинилися б у рейтингу. Що може вас здивувати, це те, що Google займає лише четверте місце в ТОП списку найбільших баз даних у світі. Станом на січень 2014 року Всесвітній центр з питань клімату очолив цей список з 220 терабайт даних, і вже ніхто не здогадується щодо розміру баз даних, контрольованих певними державними установами.

Звичайно, великі дані зняті, оскільки це дозволяє маніпулювати величезною кількістю різних даних, а також виявляти дивовижні - і дивно детальні та особисті речі. Джон Самсер, аналітик HR-галузі, наводить такий приклад:

"Сьогодні ми створюємо гіпотези і збираємо дані. Завтра ми будемо робити зворотне. Постійне, стійке накопичення даних дасть нам змогу переглянути дані, перш ніж формувати питання. Це означає, що ми отримаємо відповіді на запитання, які ми не робили". Я не знаю, щоб запитати. Ми будемо не задумуватись про цілу купу речей, які ми вважаємо фактами ".

Звичайно, ми всі чули про деякі моторошні способи використання цих даних, як, наприклад, здатність Targets виявити вагітність молодої жінки до того, як її сім'я навіть дізнається про це. Але великі дані також використовуються для набагато менш зловісних причин. Ось кілька організацій, які найбільше використовують це:

Ви не можете покращити свої навички програмування, коли ніхто не піклується про якість програмного забезпечення.

Очевидно, що великі дані допоможуть - це безпечне та акуратне поводження з електронними медичними записами медичних організацій. Наявність точних записів забезпечить пацієнтам більш якісне обслуговування та зменшить помилки. Сфера охорони здоров'я, з очевидних причин, адаптує великі дані повільнішими темпами, щоб відповідати державним нормам щодо конфіденційності пацієнтів.

Як уже згадувалося раніше, великі дані відомі тим, що дають відповіді на незадані запитання. У галузі охорони здоров’я це може означати пошук нового препарату чи лікування, яке не було б знайдено інакше. На думку McKinsey & Company, великі дані можуть зробити таке можливим у не надто віддаленому майбутньому:

Прогностичне моделювання біологічних процесів та лікарських засобів стає все більш досконалим та поширеним.
Пацієнтів ідентифікують для участі в клінічних випробуваннях на основі більшої кількості джерел інформації, таких як соціальні медіа.
Випробування контролюються в режимі реального часу для швидкого виявлення проблем безпеки або експлуатації.
Замість жорстких силосів даних, які важко експлуатувати, дані збираються в електронному вигляді та легко протікають між різними підрозділами.

Великі дані, великі можливості

Хоча великі дані використовуються у деяких конкретних сферах, вони надають можливість для всіх організацій у таких сферах:

Практично про будь-які обчислювальні та мережеві пристрої реєструються дані. Обсяг даних, що реєструються, швидко стає непростим. Великі дані можуть легко керувати цією кількістю даних, дозволяючи адміністраторам стежити за мережевою активністю, діагностувати проблеми або, на прикладі Рубін, який мені дав, шукати певні схеми мережевого трафіку, які б вказували на активність зловмисного програмного забезпечення.

Якщо ви читаєте цю статтю, це досить безпечна ставка, що вам відомо про проблему Heartbleed щодо OpenSSL. Крім технічної проблеми, існує стурбованість тим, що вразливість існує вже кілька років. Рубін зазначив, що великі дані дозволяють мережевим адміністраторам, працюючи з аналітиками даних, створити програму, яка шукатиме у всіх журналах мережі шкідливі серцебиття. У цій публікації EFF згадується:

"Будь-які мережеві оператори, які мають обширні журнали пакетів, можуть перевірити наявність шкідливих серцебиттів, які найчастіше мають навантаження TCP 18 03 02 00 03 01 або 18 03 01 00 03 01 (або, можливо, навіть 18 03 03 00 03 01)."

Наступний приклад - вибір вибірки з команди аудиту show:

Маршрутизатор # показ аудиту

* 14 вересня: 37: 31,535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Користувач:

* 14 вересня: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Користувач:

* 18 вересня: 37: 31,595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Користувач:

* 14 вересня: 37: 32.107:% АУДИТ-1-ФІЛІСИСТЕМА: Хеш:

330E7111F2B526F0B850C24ED5774EDE Користувач:

* 14 вересня: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Користувач:

Якщо дотримуватися часових позначок, інтервал часу для всіх цих записів становив менше однієї секунди. Я б навіть не хотів екстраполювати це на день, не кажучи вже про два роки!

Щось дивитися

Якщо ви перевіряєте оголошення про роботу, то гостро потребують фахівці з великих даних. Я запитав Рубіна про це. Він погодився, згадуючи, що його студенти були схвильовані своїми перспективами. Тоді я зрозумів, що великі платформи даних, зокрема ті, що вважаються відкритими, дотримуються часової шкали, дуже схожої на те, як Linux став мейнстрімом.

Університети використовують версії платформ з великими даними з відкритим кодом, зокрема Hadoop, оскільки вони безкоштовні, і студенти можуть маніпулювати вихідним кодом. Тож випускники, які заповнюють усі ці робочі місця, віддадуть перевагу роботі з платформами з відкритим кодом, оскільки це те, що вони найкраще знають. Це буде цікаво спостерігати.