Яка різниця між великими даними та Hadoop?

Відеоролик: Спроси у Акваградус - выпуск 2. Розыгрыш попугая!

Зміст

Q:

A:

Різниця між великими даними та програмою з відкритим кодом Hadoop є чіткою та принциповою. Перший - це актив, часто складний і неоднозначний, тоді як останній - програма, яка реалізує набір цілей і завдань для управління цим активом.

Великі дані - це просто великі набори даних, які бізнес та інші сторони збирають разом для задоволення конкретних цілей та операцій. Великі дані можуть включати в себе багато різних типів даних у різних форматах. Наприклад, підприємства можуть покласти багато роботи зі збору тисяч частин даних про покупки у валютних форматах, таких ідентифікаторів клієнтів, як ім'я або номер соціального страхування, або інформації про товар у вигляді номерів моделі, номерів продажів або інвентарних номерів. Все це, або будь-яка інша велика маса інформації, можна назвати великими даними. Як правило, він сирий і несортований, поки його не вводять через різні види інструментів та обробників.

Hadoop - один із інструментів, призначених для обробки великих даних. Hadoop та інші програмні продукти працюють над інтерпретацією або аналізом результатів пошуку великих даних за допомогою конкретних фірмових алгоритмів та методів. Hadoop - це програма з відкритим кодом за ліцензією Apache, яка підтримується глобальною спільнотою користувачів. Вона включає різні основні компоненти, включаючи набір функцій MapReduce та розподілену файлову систему Hadoop (HDFS).

Ідея MapReduce полягає в тому, що Hadoop може спочатку зіставити великий набір даних, а потім виконати зменшення вмісту для конкретних результатів. Функцію зменшення можна розглядати як своєрідний фільтр для необроблених даних. Потім система HDFS діє, щоб поширювати дані по мережі або мігрувати їх у міру необхідності.

Адміністратори бази даних, розробники та інші можуть використовувати різні функції Hadoop для обробки великих даних будь-якими способами. Наприклад, Hadoop може бути використаний для здійснення таких стратегій, як кластеризація та націлювання з неоднорідними даними, або дані, які не вписуються в традиційну таблицю або добре відповідають на прості запити.