Чому іскра - це майбутня платформа великих даних - Технологія

Відеоролик: Адміністрування баз даних на MS Azure. Вебінар

Зміст

Що таке іскра Apache?
Чому іскри так важливі над Hadoop
Які унікальні особливості іскри?
Чому іскра не є заміною для Hadoop
Про що думають компанії Spark and Hadoop
Практичні втілення
Висновок

Джерело: Snake3d / Dreamstime.com

Винос:

Apache Spark - це інструмент з відкритим кодом для обробки великих даних, який повзає на (і певним чином перевершує) Hadoop.

Apache Hadoop вже давно є основою для великих додатків даних і вважається базовою платформою даних для всіх пропозицій, пов'язаних з великими даними. Однак база даних та обчислення в пам'яті набирає популярності через більш високу продуктивність та швидкі результати. Apache Spark - це нова рамка, яка використовує можливості пам'яті для швидкої обробки (майже в 100 разів швидше, ніж Hadoop). Отже, продукт Spark все частіше використовується у світі великих даних, і головним чином для швидшої обробки.

Що таке іскра Apache?

Apache Spark - це програма з відкритим кодом для обробки величезних обсягів даних (великих даних) зі швидкістю та простотою. Він підходить для програм аналітики на основі великих даних. Іскру можна використовувати в середовищі Hadoop, окремо або в хмарі. Він був розроблений в Каліфорнійському університеті, а потім запропонований Фонду програмного забезпечення Apache. Таким чином, він належить до спільноти з відкритим кодом і може бути дуже економічно вигідним, що надалі дозволяє розробникам-любителям працювати з легкістю. (Щоб дізнатися більше про відкритий код Hadoops, див. Що таке вплив відкритого коду на екосистему Apache Hadoop?)

Основне призначення Spark полягає в тому, що він пропонує розробникам прикладну систему, яка працює навколо централізованої структури даних. Іскра також надзвичайно потужна і має вроджену здатність швидко обробляти величезну кількість даних за короткий проміжок часу, тим самим пропонуючи надзвичайно хороші показники.Це робить його набагато швидшим за те, що, як кажуть, його найближчий конкурент - Hadoop.

Чому іскри так важливі над Hadoop

Apache Spark завжди був відомий, що козирував Hadoop за кількома особливостями, що, напевно, пояснює, чому він залишається таким важливим. Однією з головних причин цього було б врахувати її швидкість обробки. Насправді, як вже було сказано вище, Spark пропонує приблизно 100 разів швидшу обробку, ніж MapReduce Hadoop для тієї ж кількості даних. Він також використовує значно менше ресурсів порівняно з Hadoop, що робить його економічно вигідним.

Ще один ключовий аспект, коли Spark має перевагу, полягає в сумісності з менеджером ресурсів. Відомо, що Apache Spark працює з Hadoop, як і MapReduce, проте останній на даний момент сумісний лише з Hadoop. Що стосується Apache Spark, проте він може працювати з іншими менеджерами ресурсів, такими як YARN або Mesos. Дані вчені часто називають це однією з найбільших областей, де Іскра справді перевершує Hadoop.

Якщо мова йде про простоту використання, Spark знову виявляється набагато кращим, ніж Hadoop. Spark має API для декількох мов, таких як Scala, Java та Python, окрім того, що їм подобається Spark SQL. Написати визначені користувачем функції відносно просто. Також трапляється похвалитися інтерактивним режимом виконання команд. З іншого боку, Hadoop написаний на Java і заслужив репутацію досить складної програми, хоча у неї є інструменти, які допомагають у цьому процесі. (Щоб дізнатися більше про Spark, див. Як Apache Spark допомагає швидкому розвитку додатків.)

Які унікальні особливості іскри?

Apache Spark має деякі унікальні особливості, які справді відрізняють його від багатьох конкурентів у бізнесі з обробки даних. Деякі з них коротко описані нижче.

Ви не можете покращити свої навички програмування, коли ніхто не піклується про якість програмного забезпечення.

Spark також має вроджену здатність завантажувати необхідну інформацію до свого ядра за допомогою алгоритмів машинного навчання. Це дозволяє йому бути надзвичайно швидким.

Apache Spark має можливість обробляти графіки або навіть інформацію, що має графічний характер, що дозволяє легко аналізувати з великою точністю.

Apache Spark має MLib, який є основою для структурованого машинного навчання. Він також є більш швидким у впровадженні, ніж Hadoop. MLib також може вирішити декілька проблем, таких як статистичне зчитування, вибірка даних та тестування приміщень, щоб назвати декілька.

Чому іскра не є заміною для Hadoop

Незважаючи на те, що Spark має декілька аспектів, коли вона козить руки Hadoop вниз, все ж є кілька причин, чому він поки що не може замінити Hadoop.

По-перше, Hadoop просто пропонує більший набір інструментів порівняно із Spark. Він також має декілька практик, визнаних у галузі. Хоча Apache Spark, поки що відносно молодий у цій галузі, і йому знадобиться певний час, щоб вирівнятися з Hadoop.

MapReduce Hadoop також встановив певні галузеві стандарти, коли мова йде про повноцінні операції. З іншого боку, досі вважається, що Spark не повністю готовий працювати з повною надійністю. Часто організаціям, які використовують Spark, потрібно тонко налаштувати її, щоб підготувати її до набору вимог.

MapReduce Hadoop, який існував довше, ніж Spark, також простіше налаштувати. Це не стосується Spark, однак, враховуючи, що він пропонує абсолютно нову платформу, яка ще не перевірена грубими виправленнями.

Про що думають компанії Spark and Hadoop

Багато компаній вже почали використовувати Spark для своїх потреб в обробці даних, але історія не закінчується. Він, безумовно, має кілька сильних аспектів, які роблять його дивовижною платформою для обробки даних. Однак він також має свою неабияку частку недоліків, які потребують виправлення.

Це галузеве поняття, що Apache Spark тут залишається і, можливо, є майбутнім для потреб обробки даних. Однак їй ще належить пройти велику розробку та полірування, що дозволить їй по-справжньому використати свій потенціал.

Практичні втілення

Apache Spark був і досі працює у численних компаніях, які відповідають вимогам обробки даних. Однією з найуспішніших реалізацій була здійснена компанія Shopify, яка шукала, щоб вибрати придатні магазини для бізнес-співпраці. Однак його сховище даних продовжувало вимикати час, коли він хотів зрозуміти, яку продукцію продають її клієнти. За допомогою Spark компанія змогла обробити кілька мільйонів записів даних, а потім обробити 67 мільйонів записів за кілька хвилин. Він також визначив, які магазини мали право.

Використовуючи Spark, Pinterest здатний визначити тенденції, що розвиваються, а потім використовує її для розуміння поведінки користувачів. Це надалі забезпечує кращу цінність для спільноти Pinterest. Іскру також використовує TripAdvisor, один з найбільших світових сайтів інформації про подорожі, щоб прискорити свої рекомендації для відвідувачів.

Висновок

Не можна сумніватися в майстерності Apache Spark, навіть в даний час, і унікальному наборі функцій, які вона подає до столу. Його потужність та швидкість обробки, а також сумісність задають тон для кількох речей у майбутньому. Однак він також має декілька напрямків, на яких потрібно вдосконалитись, щоб реально реалізувати свій повний потенціал. У той час як Hadoop до цих пір керує переходом, Apache Spark попереду має світле майбутнє і багато хто вважає майбутнім майданчиком для потреб обробки даних.