Як великі дані стають меншими

Автор: Judy Howell
Дата Створення: 28 Липня 2021
Дата Оновлення: 12 Травень 2024
Anonim
Как записать на флешку файл больше 4 Гб? Форматирование флешки
Відеоролик: Как записать на флешку файл больше 4 Гб? Форматирование флешки

Зміст


Винос:

Як збирати та аналізувати великі дані - це лише одна сторона рівняння; інше - як це зрозуміти.

4 жовтня 2012 року Марк Цукерберг оголосив, що досяг важливої ​​віхи: 1 мільярд активних користувачів. Для вирішення цього питання він сказав інтерв'юеру, що єдиними іншими компаніями, які мають 1 мільярд клієнтів, були "ймовірно Coca Cola та McDonalds".

Це лише один приклад дуже великої кількості підприємств, з якими зараз доводиться мати справу. Числа настільки великі, що більшість людей насправді не може обійняти їх, так би мовити. Що відбувається, що ці числа стають абстракціями. Вони такі великі, вони просто не реальні для нас.

Додайте до цього той факт, що ми обробляємо і зберігаємо все більше і більше інформації з кожним днем, і ми виявляємось майже не в змозі впоратися як з кількістю даних, так і з розміром окремих значень.Google обробляє близько 24 петабайтів на день, тоді як відеоігра "World of Warcraft" використовує 1,3 петабайта для зберігання своєї гри.


Зараз це велика кількість. Проблема тоді стає не тільки в тому, як поводитися з такими величезними обсягами даних, а й у тому, як їх зрозуміти. На щастя, допомога надходить з різних напрямків у цих сферах. (Ознайомтеся з інформацією про те, як великі дані використовуються для використання в цій інфографіці, Гуманізація великих даних.)

Як дані стають меншими

Останні кілька років батько всесвітньої павутини, сер Тім Бернерс-Лі, веде активну агітацію за відкриті дані, які визначаються як дані, доступні кожному для вивчення та аналізу. У відео TED Бернерс-Лі наводить приклади того, як доступ до даних призвів до викриття расизму в Огайо та допоміг забезпечити необхідну медичну допомогу таборам біженців на Гаїті. Зрозуміло, що це програми, де дані перейшли від абстракції до актуальності.

Мабуть, найвідоміший розробник методів подання статистичних даних у легко зрозумілій графіці - Ганс Рослінг. Його програма Gapminder, програмне забезпечення, яке перетворює міжнародну статистику в рухому, інтерактивну графіку, доступне для завантаження на всіх різновидах персональних комп'ютерів. (Ви можете знайти кілька чудових прикладів того, як його застосовують у цій TED-розмові. Про розвиток Gapminder обговорюється на іншій розмові.) Забудьте про кругові діаграми: Це програмне забезпечення подає статистику не лише таким чином, що має сенс, але й, що справляє враження. . Ви ніколи не отримаєте гусені з статистики книг, але ці графічні пакети достатньо удару, щоб душити ваш розум.


Хоча Рослінг - професор, який добре розбирається у статистиці, Девід МакКандлесс - журналіст, який лише нещодавно зацікавився розробкою методів для подання аналізу даних таким чином, що справді інформує. У його розмові про TED представлені приклади візуалізації даних таких різноманітних досліджень, як занепокоєння суспільства щодо відеоігор, ефективність вітамінних добавок та романтичні зриви по сезону та місяцю. Для McCandless дані представляють новий унікальний напрям у журналістиці та спосіб вивчити тему та дати зрозуміти таким чином, який раніше ніколи не був можливим. (Ви можете ознайомитись із справді дивовижними прикладами того, як це застосовується в Посібнику з журналістики даних.)

Кріс Джордан застосовує інший підхід. На відміну від Рослінга та Маккандлесса, Джордан звертається до свого мистецтва, щоб представити інформацію про такі теми, як смерть від куріння, тюремні тюремні ув'язнення, наркоманія та інші основні проблеми таким чином, що є красивою та потужною. Його інформація - або дані - як мистецтво та, у випадку Йордану, якийсь досить сильний політичний коментар. (Ви можете ознайомитись з роботою Йорданів тут.)

Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя

Ви не можете покращити свої навички програмування, коли ніхто не піклується про якість програмного забезпечення.

Джордан, Рослінг та Маккандлесс - лише троє з багатьох людей, які намагаються осмислено використати великі дані, які зараз існують у світі, але ця група першопрохідців великих даних зростає.

Інструменти торгівлі

Перш ніж ми зможемо перетворити дані в щось корисне, спершу ми повинні це зрозуміти. Необхідно створити інструменти, щоб зрозуміти масштабне розширення фактів та даних, які щороку формуються вченими, науковцями та підприємствами. Дослідження IDC, що фінансується EMC, у 2011 році показало, що дані постійно подвоюються, і щоразу потрібно менше двох років. Крім того, у дослідженні було зазначено, що колосальні 1,8 зеттабайт будуть створені та повторені в 2011 році.

Zettabyte?

Так, це 1000 екзабайтів, а екзабайт - 1000 петабайт (що ви можете пам’ятати, це 1000 терабайт, а це, в свою чергу, 1000 гігабайт).

Тепер є число, що важко скласти руки! Дослідження EMC намагається вирішити цю проблему, надаючи кілька цікавих прикладів того, що 1,8 зеттабайт еквівалентно:

  • Кожна людина в Сполучених Штатах невпинно чинить три твіти в хвилину протягом 26 976 років
  • Кожна людина у світі, що має понад 215 мільйонів МРТ з високою роздільною здатністю на день
  • Більше 200 мільярдів HD фільмів (кожні дві години тривалості). Потрібно було б одній людині 47 мільйонів років переглянути кожен фільм, якби вони дивилися цілий день щодня.
  • Обсяг інформації, необхідний для заповнення 57,5 ​​мільярда Apple iPad на 32 Гб.

Завдяки такій кількості iPad ми могли б:

  • Створіть стіну iPad довжиною 4 005 миль і висотою 61 футів, що простягається від Анкоридж, штат Аляска, до Майамі, штат Флорида.
  • Побудуйте Велику Китайську стіну iPad. (Це було б удвічі більше середньої висоти оригіналу.)
  • Побудуйте 20-футову високу стіну навколо Південної Америки
  • Покрийте 86 відсотків Мехіко
  • Побудуйте гору в 25 разів вище Мт. Фуджі

Для того, щоб зробити ці дані корисними - щоб перетворити їх на корисну інформацію, нам потрібні не лише додатки та "макети" - одруження таких служб, як Google Earth та заголовки New York Times International, або керівництва ресторанів NYC з NYC Health Dept Рейтинги - але також дуже потужний інструмент для фільтрації, сортування та аналізу маси даних для надання інформації, необхідної для прийняття рішень, наукових досліджень та складного аналізу. IBM розробила такі інструменти, які в сукупності називається Smarter Analytics, для використання спільно зі своїми великими даними та хмарними службами. Він поєднує програмне, апаратне та консалтингове обслуговування, щоб спробувати забезпечити інформаційну платформу, на якій можна приймати ділові та наукові рішення. Hewlett-Packard, Oracle та багато інших ІТ-компаній також звертаються до клієнтів з продуктами, щоб спробувати ефективно боротися з цією інформацією.

Великі дані, великий потенціал

Щоб усвідомити потенціал цієї нової ери даних, нам потрібно набагато більше систем і додатків. Нам потрібні ІТ-фахівці з освітою та навичками 21 століття. Нам потрібні спеціалісти з додатків, які справді розуміють роботу та потреби бізнесу, промисловості, державних установ, військових, підприємців та дослідників. Нам також потрібні спокійні та зрілі аналітики, які ставлять під сумнів судження, зроблені на основі аналізу даних. Буде легко переграти потужними комп’ютерними інструментами, що працюють "магічно" на маси даних. Здоровий глузд повинен завжди переважати або, принаймні, вимагати переробки даних.

Ми вже знаємо, що потенціал для великих даних є безмежним, але така здатність до помилок. Тому інструменти, створені для осмислення всієї цієї інформації, можуть стати ключем до обертання нашої зброї навколо проблеми великих даних.