Apache Hadoop
Hadoop on Apache Software Foundationin avoimen lähdekoodin ohjelmisto suurien hajautettujen tietomäärien käsittelyyn. Projekti on kehitetty ns. Big data prosessointiin.
Apache Hadoop | |
---|---|
Kehittäjä | Apache Software Foundation |
Kehityshistoria | |
Vakaa versio | 3.3.4 ()[1] |
Tiedot | |
Alusta | Alustariippumaton |
Ohjelmointikielet | Java |
Lisenssi | Apache 2 |
Aiheesta muualla | |
hadoop.apache.org | |
Versiohallinta |
Hadoop-järjestelmän komponentit ovat:
- Hadoop Common (yhteisiä komponentteja)
- Hadoop Distributed Filesystem (HDFS): hajautettu tiedostojärjestelmä
- Hadoop MapReduce: tiedon prosessointi
- Hadoop YARN: klusterin resurssien jakaminen ja ajoittaminen
Hadoopin MapReduce ja HDFS komponenttien konseptit perustuvat Googlen julkaisemiin papereihin Google MapReduce ja Google File System (GFS) komponenteista.[2][3]
MapReduce
MapReduce on ohjelmointimalli, joka kerää tietoja avain/arvoparien perusteella (map toiminto) ja sulauttaa väliarvot samalle avaimelle (reduce toiminto).[3]
Merkitys
Altior-yhtiön mukaan vuonna 2014 yli puolet Fortune 50 -listan yrityksistä käytti Hadoopia.[4] Hadoop-markkinoiden arvoksi laskettiin globaalisti 1,5 miljardia dollaria vuonna 2012.[5] Vuonna 2019 uutisoitiin Hadoop-markkinoiden pienentymisestä.[6] Hadoopia on kutsuttu liian monimutkaiseksi ja asiakkaat eivät ole olleet tyytyväisiä.[7] Useat Hadoop-käyttäjät ovat myöhemmin siirtyneet pilvipalveluihin omista useiden petatavujen järjestelmistä: suorituskyvyn sanotaan olevan tärkein ja kustannuksien toiseksi tärkein.[8] Hadoop-perheeseen kuuluvat ohjelmistot kuten Apache Spark jatkavat vielä alkuperäisen Hadoopin ollessa "kuollut".[9]
Facebook kehitti Hiven käsittelemään suuria tietojoukkoja, jotka ovat tallennettu Hadoopilla.[10] Hive on abstraktio Hadoopin MapReducelle ja sisältää oman kyselykielen HiveQL.[10] Clouderan kehittämä Impala kehitettiin ratkaisemaan rajoitteet Hadoop Sql:n käsittelyssä ja kyselyjä Hadoop-klustereista.[10]
Katso myös
- Google File System
- Apache Spark
Lähteet
- Release 3.3.4 available (viitattu ). Tieto on haettu Wikidatasta.
- An introduction to Apache Hadoop for big data opensource.com. 26.8.2014. Viitattu 30.3.2018.
- Jim Scott: 5 Google Projects That Changed Big Data Forever mapr.com. 2.9.2014. Viitattu 30.3.2018.
- Altior's AltraSTAR - Hadoop Storage Accelerator and Optimizer Now Certified on CDH4 (Cloudera's Distribution Including Apache Hadoop Version 4) prnewswire.com. 18.12.2012. Viitattu 27.9.2021. (englanniksi)
- Katherine Noyes: How a little open source project came to dominate big data fortune.com. 1.7.2014. Viitattu 27.9.2021. (englanniksi)
- Alex Woodie: Hadoop Struggles and BI Deals: What’s Going On? datanami.com. 10.6.2019. Viitattu 30.9.2021. (englanniksi)
- Alex Woodie: Hadoop Has Failed Us, Tech Experts Say datanami.com. 13.3.2017. Viitattu 30.9.2021. (englanniksi)
- Nicole Hemsoth: Why the Fortune 500 is (Just) Finally Dumping Hadoop nextplatform.com. 17.2.2021. Viitattu 27.9.2021. (englanniksi)
- Alex Woodie: Cloudera CEO: Enterprise Data Cloud Vision Nearly Complete datanami.com. 8.12.2020. Viitattu 30.9.2021. (englanniksi)
- Impala vs Hive: Difference between Sql on Hadoop components projectpro.io. Viitattu 27.9.2021. (englanniksi)
Kirjallisuutta
- Hadoop: The Definitive Guide. O'Reilly. ISBN 978-1-491-90163-2.
Aiheesta muualla
- Apache Hadoop Projektin kotisivut (englanniksi)