Kudu: Changer Changer в екосистемі Hadoop?

Зміст

Що таке Куду?
Що таке поточний статус Kudus?
Як можна доповнити Kudu HDFS / HBase?
Особливості рамки Kudu
Як Kudu може змінити екосистему Hadoop?
Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя
Висновок

Джерело: Agsandrew / Dreamstime.com

Винос:

Kudu - проект з відкритим кодом, який допомагає ефективніше керувати сховищем.

Kudu - новий проект з відкритим кодом, який забезпечує оновлення пам’яті. Це доповнення до HDFS / HBase, що забезпечує послідовне зберігання та лише для читання. Kudu більше підходить для швидкої аналітики на швидких даних, що зараз є попитом бізнесу. Тож Kudu - це не просто ще один проект екосистеми Hadoop, а навпаки, має потенціал змінити ринок. (Докладніше про Hadoop див. У 10 найважливіших умовах Hadoop, які потрібно знати та розуміти.)

Що таке Куду?

Kudu - це особливий вид системи зберігання, який зберігає структуровані дані у вигляді таблиць. Кожна таблиця має кількість стовпців, які визначені заздалегідь. Кожен з них має первинний ключ, який фактично є групою одного або декількох стовпців цієї таблиці. Цей первинний ключ зроблений для додавання обмеження та захисту стовпців, а також працює як індекс, що дозволяє легко оновлювати та видаляти. Ці таблиці представляють собою низку підмножин даних, що називаються планшетами.

Що таке поточний статус Kudus?

Куду справді добре розвинений і вже поєднаний з великою кількістю функцій. Однак все-таки знадобиться певна полірування, яку можна зробити простіше, якщо користувачі запропонують і внесуть якісь зміни.

Kudu є повністю відкритим кодом і має ліцензію на програмне забезпечення Apache 2.0. Він також повинен бути представлений Apache, щоб він міг бути розроблений як проект інкубатора Apache. Це дозволить його розвитку прогресувати ще швидше та ще більше розширити свою аудиторію. Через деякий час розвиток Kudu буде опубліковано публічно та прозоро. Багато компаній, таких як AtScale, Xiaomi, Intel і Splice Machine, об'єдналися, щоб зробити свій внесок у розвиток Kudu. У Куду також є велике співтовариство, де велика кількість аудиторій вже надає свої пропозиції та внески. Тож саме люди рухають розвиток Куду вперед.

Як можна доповнити Kudu HDFS / HBase?

Kudu не повинен бути заміною HDFS / HBase. Він фактично розроблений для підтримки як HBase, так і HFDS і працює поруч з ними, щоб збільшити їх функції. Це тому, що HBase та HDFS все ще мають багато функцій, які роблять їх більш потужними, ніж Kudu на деяких машинах. В цілому такі машини отримають більше переваг від цих систем.

Особливості рамки Kudu

Основні особливості рамки Kudu такі:

Надзвичайно швидке сканування стовпців таблиці - Найкращі формати даних, такі як Паркет та ORCFile, потребують найкращих процедур сканування, на які ідеально звертається Куду. Такі формати потребують швидкого сканування, яке може відбуватися лише за умови правильного кодування стовпчастих даних.
Надійність продуктивності - Рамка Kudu підвищує загальну надійність Hadoop, закриваючи багато лазівки та прогалини, наявні в Hadoop.
Проста інтеграція з Hadoop - Kudu може бути легко інтегрований з Hadoop та його різними компонентами для більшої ефективності.
Повністю відкритий код - Kudu - це система з відкритим кодом з ліцензією Apache 2.0. У ньому є велика спільнота розробників з різних компаній та середовищ, які регулярно її оновлюють та надають пропозиції щодо змін.

Як Kudu може змінити екосистему Hadoop?

Kudu був побудований таким чином, щоб вписатися в екосистему Хадоопа та покращити його особливості. Він також може інтегруватися з деякими ключовими компонентами Hadoop, такими як MapReduce, HBase та HDFS. Завдання MapReduce можуть або надавати дані, або брати дані з таблиць Kudu. Ці функції можна використовувати і в Spark. Спеціальний шар робить деякі компоненти Spark, такі як Spark SQL та DataFrame, доступними для Kudu. Хоча Куду розроблений не настільки, щоб замінити ці функції, вважається, що через кілька років він буде достатньо розроблений для цього. До цього часу інтеграція між Hadoop та Kudu справді дуже корисна і може заповнити основні прогалини екосистеми Hadoop. (Щоб дізнатися більше про Apache Spark, див. Як Apache Spark допомагає швидкому розвитку додатків.)

Kudu може бути реалізований у різних місцях.Нижче наведено кілька прикладів таких місць:

Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя

Ви не можете покращити свої навички програмування, коли ніхто не піклується про якість програмного забезпечення.

Потокове введення в реальному часі - У місцях, де потрібно отримати як можна швидше, Kudu може зробити чудову роботу. Прикладом такого місця є підприємства, де велика кількість динамічних даних надходить з різних джерел, і їх потрібно швидко отримати в режимі реального часу.
Програми часових рядів з різними моделями доступу - Kudu ідеально підходить для програм на основі часових рядів, оскільки простіше налаштувати таблиці та сканувати їх за допомогою них. Приклад такого використання - у універмагах, де потрібно швидко знайти та обробити старі дані для прогнозування майбутньої популярності продукції.
Спадкові системи - Багато компаній, які отримують дані з різних джерел і зберігають їх на різних робочих станціях, почуватимуться як дома з Куду. Kudu надзвичайно швидкий і може ефективно інтегруватися з Impala для обробки даних про всі машини.
Передбачувальне моделювання - вчені з даних, які хочуть хорошої платформи для моделювання, можуть використовувати Kudu. Kudu може дізнатися з кожного набору даних, що надходять у нього. Вчений може кілька разів запускати та запускати модель, щоб побачити, що відбувається.

Висновок

Незважаючи на те, що Kudu все ще знаходиться на стадії розробки, він має достатньо потенціалу, щоб стати гарною надбудовою для стандартних компонентів Hadoop, таких як HDFS та HBase. У нього є достатній потенціал, щоб повністю змінити екосистему Hadoop, заповнивши всі прогалини, а також додавши ще деякі функції. Він також дуже швидкий і потужний і може допомогти у швидкому аналізі та зберіганні великих таблиць даних. Однак для роботи більш ефективною залишається ще деяка робота.