![Спроси у Акваградус - выпуск 2. Розыгрыш попугая!](https://i.ytimg.com/vi/quU4TMzOjCc/hqdefault.jpg)
Зміст
Q:
Яка різниця між великими даними та Hadoop?
A:
Різниця між великими даними та програмою з відкритим кодом Hadoop є чіткою та принциповою. Перший - це актив, часто складний і неоднозначний, тоді як останній - програма, яка реалізує набір цілей і завдань для управління цим активом.
Великі дані - це просто великі набори даних, які бізнес та інші сторони збирають разом для задоволення конкретних цілей та операцій. Великі дані можуть включати в себе багато різних типів даних у різних форматах. Наприклад, підприємства можуть покласти багато роботи зі збору тисяч частин даних про покупки у валютних форматах, таких ідентифікаторів клієнтів, як ім'я або номер соціального страхування, або інформації про товар у вигляді номерів моделі, номерів продажів або інвентарних номерів. Все це, або будь-яка інша велика маса інформації, можна назвати великими даними. Як правило, він сирий і несортований, поки його не вводять через різні види інструментів та обробників.
Hadoop - один із інструментів, призначених для обробки великих даних. Hadoop та інші програмні продукти працюють над інтерпретацією або аналізом результатів пошуку великих даних за допомогою конкретних фірмових алгоритмів та методів. Hadoop - це програма з відкритим кодом за ліцензією Apache, яка підтримується глобальною спільнотою користувачів. Вона включає різні основні компоненти, включаючи набір функцій MapReduce та розподілену файлову систему Hadoop (HDFS).
Ідея MapReduce полягає в тому, що Hadoop може спочатку зіставити великий набір даних, а потім виконати зменшення вмісту для конкретних результатів. Функцію зменшення можна розглядати як своєрідний фільтр для необроблених даних. Потім система HDFS діє, щоб поширювати дані по мережі або мігрувати їх у міру необхідності.
Адміністратори бази даних, розробники та інші можуть використовувати різні функції Hadoop для обробки великих даних будь-якими способами. Наприклад, Hadoop може бути використаний для здійснення таких стратегій, як кластеризація та націлювання з неоднорідними даними, або дані, які не вписуються в традиційну таблицю або добре відповідають на прості запити.