10 найважливіших термінів Hadoop, які ви повинні знати та розуміти

Відеоролик: Very short intro to Kubernetes, helm

Зміст

Але спочатку подивіться, як працює Hadoop
Хадоп звичайний
Розподілена файлова система Hadoop (HDFS)
MapReduce
HBase
Вулик
Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя
Свиня Апач
Апаче іскра
Apache Cassandra
Ще один переговорник ресурсу (YARN)
Імпала

Джерело: Trueffelpix / Dreamstime.com

Винос:

Для того, щоб реально зрозуміти великі дані, вам потрібно трохи зрозуміти Hadoop та мову навколо нього.

Великі дані, захоплююча назва для величезних обсягів структурованих, неструктурованих або напівструктурованих даних, як відомо, важко збирати, зберігати, керувати, обмінюватися, аналізувати та візуалізувати, принаймні, використовуючи традиційні програми для баз даних та програмного забезпечення. Ось чому технології великих даних мають потенціал ефективно та ефективно керувати та обробляти величезні обсяги даних. І його Apache Hadoop, який забезпечує основу та пов'язані з ними технології для обробки великих наборів даних по кластерах комп'ютерів розподіленим способом. Отже, щоб реально зрозуміти великі дані, вам потрібно трохи розібратися в Hadoop. Тут добре погляньте на найвищі терміни, які ви почуєте стосовно Hadoop - і що вони означають.

Але спочатку подивіться, як працює Hadoop

Перш ніж зайти в екосистему Hadoop, потрібно чітко зрозуміти дві основні речі. Перший - як зберігається файл у Hadoop; друге - як обробляються збережені дані. Усі технології, пов'язані з Hadoop, в основному працюють на цих двох напрямках і роблять його більш зручним для користувачів. (Отримайте основи того, як Hadoop працює в «Як Hadoop допомагає вирішити великі проблеми даних».)

Тепер, про умови.

Хадоп звичайний

Рамка Hadoop має різні модулі для різних функціональних можливостей, і ці модулі можуть взаємодіяти один з одним з різних причин. Hadoop Common можна визначити як загальну бібліотеку утиліт для підтримки цих модулів в екосистемі Hadoop. Ці утиліти - це, в основному, архіви (JAR) на основі Java. Ці утиліти в основному використовуються програмістами та розробниками під час розробки.

Розподілена файлова система Hadoop (HDFS)

Розподілена файлова система Hadoop (HDFS) є підпроектом Apache Hadoop в рамках програмного фонду Apache Software. Це основа зберігання в рамках Hadoop. Це розподілена, масштабована та відмовна файлова система, яка охоплює декілька товарних апаратних засобів, відомих як кластер Hadoop. Завдання HDFS - надійно зберігати величезний обсяг даних з високим пропускним доступом до даних додатків. HDFS дотримується архітектури master / slave, де майстер відомий як NameNode, а раби відомі як DataNodes.

MapReduce

Hadoop MapReduce також є підпроектом програмного фонду Apache Software. MapReduce - це фактично програмне забезпечення, суто написане на Java. Основна його мета - обробляти великі набори даних у розподіленому середовищі (що складається з товарного обладнання) повністю паралельно. Рамка управляє всіма видами діяльності, такими як планування роботи, моніторинг, виконання та повторне виконання (у випадку невдалих завдань).

HBase

Apache HBase відомий як база даних Hadoop. Це стовпчастий, розподілений та масштабований сховище великих даних. Він також відомий як тип бази даних NoSQL, який не є системою управління реляційними базами даних. Програми HBase також написані на Java, побудовані на вершині Hadoop та працюють на HDFS. HBase використовується тоді, коли вам потрібно читання / запис у режимі реального часу та випадковий доступ до великих даних. HBase моделюється на основі концепцій Googles BigTable.

Вулик

Apache Hive - це програмне забезпечення для зберігання даних з відкритим кодом. Спочатку вулик був розроблений ще до того, як він потрапив до програми Apache Software Foundation і став відкритим кодом. Це полегшує управління і запити великих наборів даних на розподіленому Hadoop сумісному сховищі. Hive виконує всі свої дії, використовуючи SQL-подібну мову, відому як HiveQL. (Дізнайтеся більше у короткому вступі до вулика і свині Apache.)

Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя

Ви не можете покращити свої навички програмування, коли ніхто не піклується про якість програмного забезпечення.

Свиня Апач

Pig спочатку був ініційований Yahoo для розробки та виконання завдань MapReduce на великому обсязі розподілених даних. Тепер він став проектом з відкритим кодом у рамках програмного фонду Apache. Apache Pig можна визначити як платформу для ефективного аналізу дуже великих наборів даних. Інфраструктурний шар свиней виробляє послідовності завдань MapReduce для фактичної обробки. Шар мови свиней відомий як латинська свиня і надає функції, подібні SQL, для виконання запитів на розподілених наборах даних.

Апаче іскра

Іскра спочатку була розроблена AMPLab в UC Berkeley. Це стало проектом вищого рівня Apache у лютому 2014 року. Apache Spark можна визначити як відкритий, загальноприйнятий, кластерно-обчислювальний механізм, що робить аналіз даних набагато швидшим. Він побудований на вершині розподіленої файлової системи Hadoop, але він не пов'язаний з рамкою MapReduce. Продуктивність іскр набагато швидше порівняно з MapReduce. Він надає API високого рівня в Scala, Python та Java.

Apache Cassandra

Apache Cassandra - ще одна база даних NoSQL з відкритим кодом. Кассандра широко використовується для управління великими обсягами структурованих, напівструктурованих та неструктурованих даних, що охоплюють різноманітні центри обробки даних та хмарне сховище. Кассандра створена на основі "безмайстерної" архітектури, а це означає, що вона не підтримує модель master / slave. У цій архітектурі всі вузли однакові, і дані розподіляються автоматично і рівномірно по всіх вузлах. Найважливіші особливості Кассандра - це безперервна доступність, лінійна масштабованість, вбудована / настроювана реплікація, відсутність єдиної точки відмови та оперативна простота.

Ще один переговорник ресурсу (YARN)

Ще один переговорник ресурсів (YARN) також відомий як MapReduce 2.0, але він фактично підпадає під Hadoop 2.0. YARN можна визначити як систему планування роботи та управління ресурсами. Основна ідея YARN полягає в заміні функцій JobTracker двома окремими демонами, відповідальними за управління ресурсами та планування / моніторинг. У цій новій структурі буде глобальний ResourceManager (RM) та специфічний для додатків майстер, відомий як ApplicationMaster (AM). Глобальний ResourceManager (RM) і NodeManager (на підлеглий підлеглий) утворюють фактичну рамку обчислення даних. Існуючі додатки MapReduce v1 також можна запускати на YARN, але ці програми потрібно перекомпілювати за допомогою банок Hadoop2.x.

Імпала

Impala можна визначити як двигун SQL-запиту з потужною потужністю паралельної обробки (MPP). Він працює в основному на базі Apache Hadoop. Impala розроблений як частина екосистеми Hadoop. Він поділяє ту саму гнучку файлову систему (HDFS), метадані, управління ресурсами та структури безпеки, що використовуються іншими компонентами екосистеми Hadoop. Найважливіший момент - зазначити, що Impala набагато швидше в обробці запитів порівняно з вуликом. Але ми також повинні пам’ятати, що Impala призначений для запиту / аналізу на невеликому наборі даних і в основному розроблений як інструмент аналітики, який працює над обробленими та структурованими даними.

Hadoop - важлива тема ІТ, але є такі, хто скептично ставиться до її довгострокової життєздатності. Детальніше читайте у розділі Що таке Hadoop? Теорія циніки.