Big Data ist ein Marketingbegriff, der die gesamte Idee von Daten aus Quellen wie Suchmaschinen, Einkaufsmustern von Lebensmittelgeschäften, die durch Punktekarten verfolgt werden, umfasst. In der modernen Welt hat das Internet so viele Datenquellen, die häufig die Skalierung unbrauchbar machen, ohne dass die Verarbeitung und Verarbeitung von einem Server unglaublich viel Zeit in Anspruch nehmen würde. Geben Sie Apache Hadoop ein
Weniger Zeit für die DatenverarbeitungDurch die Nutzung der Hadoop-Architektur zur Verteilung von Verarbeitungsaufgaben auf mehrere Maschinen in einem Netzwerk werden die Bearbeitungszeiten astronomisch verringert und die Antworten können in angemessenen Zeiträumen festgelegt werden. Apache Hadoop ist in zwei verschiedene Komponenten aufgeteilt: eine Speicherkomponente und eine Verarbeitungskomponente. Im einfachsten Fall macht Hapood einen virtuellen Server aus mehreren physischen Maschinen . Tatsächlich verwaltet Hadoop die Kommunikation zwischen mehreren Maschinen so, dass sie so eng zusammenarbeiten, dass es scheint, als ob nur ein Rechner an den Berechnungen arbeitet. Die Daten werden auf mehrere Rechner verteilt gespeichert und Verarbeitungsaufgaben werden von der Hadoop-Architektur zugewiesen und koordiniert
. Diese Art von System ist eine Voraussetzung für die Umwandlung von Rohdaten in nützliche Informationen in der Größenordnung von Big-Data-Eingaben. Berücksichtigen Sie die Menge an Daten, die Google jede Sekunde von Nutzern erhält, die Suchanfragen eingeben. Als Gesamtmenge von Daten würden Sie nicht wissen, wo Sie anfangen sollen, aber Hadoop wird den Datensatz automatisch in kleinere, organisierte Teilmengen von Daten reduzieren und diese verwaltbare Teilmenge bestimmten Ressourcen zuweisen. Alle Ergebnisse werden dann zurückgemeldet und in brauchbare Informationen zusammengefügt.
Ein einfach zu bedienender Server
Obwohl das System komplex klingt, sind die meisten beweglichen Teile hinter der Abstraktion verborgen. Das Einrichten des Hadoop-Servers ist ziemlich einfach , installieren Sie einfach die Serverkomponenten auf Hardware, die die Systemanforderungen erfüllt. Der schwierigere Teil ist die Planung des Computernetzwerks des Hadoop-Servers wird verwendet, um die Speicher- und Verarbeitungsrollen zu verteilen. Dies kann beinhalten, dass ein lokales Netzwerk eingerichtet wird oder mehrere Netzwerke über das Internet miteinander verbunden werden . Sie können auch vorhandene Cloud-Dienste nutzen und für einen Hadoop-Cluster auf gängigen Cloud-Plattformen wie Microsoft Azure und Amazon EC2 bezahlen. Diese sind noch einfacher zu konfigurieren, da Sie sie ad hoc erstellen und dann die Cluster außer Betrieb nehmen können, wenn Sie sie nicht mehr benötigen. Diese Clustertypen eignen sich ideal zum Testen, da Sie nur für die Zeit bezahlen, in der der Hadoop-Cluster aktiv ist.
Verarbeiten Sie Ihre Daten, um die benötigten Informationen zu erhalten
Big Data ist eine extrem leistungsfähige Ressource, aber Daten sind nutzlos, wenn sie nicht ordnungsgemäß kategorisiert und in Informationen umgewandelt werden können. Zur Zeit bieten Hadoop Cluster eine äußerst kostengünstige Methode für die Verarbeitung dieser Datensammlungen zu Informationen.
Kommentare nicht gefunden