Операційний Hadoop в архітектурі даних нового покоління

Автор: Roger Morrison
Дата Створення: 20 Вересень 2021
Дата Оновлення: 1 Липня 2024
Anonim
[#ГРІДтаТХО] Лекція 7 Бізнес-аналітика та аналіз даних з SQL Reporting і Hadoop
Відеоролик: [#ГРІДтаТХО] Лекція 7 Бізнес-аналітика та аналіз даних з SQL Reporting і Hadoop

Зміст



Джерело: Romeo1232 / Dreamstime.com

Винос:

Hadoop стане ключовим гравцем в архітектурі даних нового покоління завдяки своїй здатності обробляти величезну кількість даних.

Утиліта Hadoop починає виходити за рамки великої обробки даних та аналітики, оскільки галузь вимагає від неї більше. Hadoop стабільно задовольняє різноманітні вимоги, пов'язані з архітектурою даних підприємства, зберігаючи свої первісні переваги. Перелік того, що Hadoop може зробити і що зараз робить, досить довгий. Зараз Hadoop здатний обробляти величезні обсяги транзакційних навантажень, завдання, яких раніше очікували традиційні технології. Ідучи вперед, є багато можливостей для Hadoop у майбутньому. Наприклад, системи транзакцій на базі SQL можуть використовувати двигун Hadoop SQL, а Hadoop також додасть багато можливостей RDBMS. Можна сказати, що Hadoop стає гібридом обробки даних та аналітичних можливостей з можливостями архітектури підприємства.

Що таке архітектура даних нового покоління?

Простіше кажучи, архітектура даних нового покоління - це розвинена форма архітектури даних. Все, включаючи моделі даних, політику даних, правила та стандарти, які регулюють спосіб збирання, зберігання, упорядкування, аналізу або обробки, інтеграції, використання та розповсюдження, розвивалося в архітектурі даних нового покоління.


Основна відмінність між ранішою архітектурою даних та архітектурою даних нового покоління полягає в можливості останнього збирати, зберігати та обробляти величезні обсяги даних, також відомі як великі дані, в режимі реального часу. Архітектура виконує всі ці складні завдання без шкоди для конфіденційності, безпеки та стандартів управління даними.

Архітектура даних нового покоління стикається з багатьма проблемами. Обробити обсяг, швидкість та різноманітність великих даних непросто. Додайте до цього вимоги оптимізації завантаженості системи, підвищення продуктивності, швидкості та точності та зниження витрат. Потрібно сказати, що попередня архітектура даних не мала керувати такими вимогами.

Тож керівники інформаційних служб та інформаційні архітектори хочуть знайти рішення, яке допоможе їм досягти поставлених цілей. Операційний Hadoop вже деякий час зосереджується на цьому конгресі. У наступних розділах буде обговорено те, як оперативний Hadoop може вирішити проблеми.


Очікування від Hadoop в архітектурі нового покоління

Компанії відчувають все більший тиск, щоб досягти кращих результатів, і ефекти скорочуються до очікувань, що покладаються на технології. Отже, від Hadoop більше не очікується обробка даних. Керівники і керівники організацій хочуть більше від Hadoop. Нижче наведено список очікувань від Hadoop. Насправді, Hadoop вже реалізував деякі з цих очікувань.

Очікується, що Hadoop буде працювати з системами транзакцій, які базуються на SQL і мають можливості створювати, читати, оновлювати та видаляти. Системи транзакцій будуть використовувати механізм SQL. Системи також матимуть повну відповідність інтерфейсу портативної операційної системи (POSIX) та можливість обробки великих обсягів транзакцій.

Очікується, що Hadoop підтримуватиме такі функції, як резервне копіювання, толерантність до відмов, відновлення та відновлення після аварій. Щоб Hadoop еволюціонував у систему з можливостями RDBMS, вона повинна бути сумісною з існуючими ІТ-інструментами.

Hadoop вже працює над виконанням очікувань, як це видно з деяких подій. Hadoop може забезпечити аналіз у режимі реального часу та швидкі відповіді на основі підтримки управління ресурсами, що надається YARN. YARN - це широкомасштабна і розподілена операційна система для додатків великих даних, крім того, що вона працює менеджером ресурсів. Інші розробки, такі як Apache Storm, розповсюджені в архітектурі пам'яті, такі як Apache Spark, Apache Hive, Drill і MapR-FS (високопродуктивна заміна HDFS), як відомо, працюють для того, щоб запропонувати різні повноцінні можливості бази даних, наприклад, резервне копіювання, відновлення після аварій, толерантність до відмов тощо (Докладніше про YARN див. Які переваги рамки Hadoop 2.0 (YARN)?)

Які цінності Hadoop може додати до архітектури даних нового покоління?

Значення, які Hadoop може додати до архітектури даних нового покоління, можна розглядати з двох точок зору: один, чи відповідає він очікуванням, описаним вище, і два, чи робить це щось додаткове. Нижче наведено чіткі значення, які може принести оперативний Hadoop.

Тепер Hadoop може забезпечити більшу масштабованість та керованість даних на своїй платформі через HDFS. А операційна система даних була ввімкнена за допомогою програм YARN від Hadoop. Ця стратегія являє собою зрушення в архітектурі даних на фундаментальному рівні. Тепер Hadoop може зберігати різні типи даних, такі як орієнтовані на транзакції бази даних, графічні бази даних та бази даних документів, і до них можна отримати доступ через додатки YARN. Немає необхідності дублювати або переміщувати дані в інші місця.

Підвищення продуктивності як архітектура даних підприємства

Операційний Hadoop перетворюється на основну систему архітектури даних підприємства. Оскільки Hadoop все більше вкладається в архітектуру даних підприємств, силоси даних будуть ліквідовані в міру усунення ліній між ними. Майже у всіх аспектах відбудеться швидке вдосконалення. Удосконалення відбуватимуться у вигляді більш ефективних форматів файлів, кращої продуктивності двигуна SQL, покращених файлових систем та надійності, які задовольнять потреби корпоративних програм.

Різниця між Hadoop та іншими технологіями

У минулому основною відмінністю Hadoop від технологій корпоративних даних була велика здатність Hadoop щодо обробки даних, звітності та аналітики. Тепер, оскільки оперативний Hadoop стає все більш частиною архітектури даних підприємств, різниця між суб'єктами все більше розмивається. Таким чином, операційний Hadoop стає вищою альтернативою існуючій архітектурі даних підприємства.

Висновок

Враховуючи очікування та прогрес, Hadoop буде досить довго зосереджений у цій галузі. Але є сенс не зосереджуватися надто на Hadoop і просто ігнорувати інші технології. Це тому, що інші технології будуть прогресувати за тими ж параметрами і можуть навіть обігнати Hadoop. Ніколи не добре мати монополію на ринку. Добре, що виробники інших технологій, ніж Hadoop, можуть бути вмотивовані надавати кращі продукти та навіть плагіни, які допомагають Hadoop покращити свою ефективність.