Apache Funken wurde entwickelt, um Verarbeitungsgeschwindigkeiten für die Datenanalyse und Bearbeitungsprogramme zu verbessern.
Es wurde in Java und Scala geschrieben und bietet Funktionen, die nicht in anderen Systemen gefunden, vor allem, weil sie nicht Mainstream sind noch so nützlich für Nicht-Datenverarbeitungsanwendungen.
Funke wurde zum ersten Mal an der UC Berkeley AMP Lab erstellt und später an die Apache Software Foundation gespendet
Was ist neu in dieser Version:.
- Unified Memory Management -. Gemeinsam genutzter Speicher für die Ausführung und Caching anstelle von exklusiven Aufteilung der Regionen
- Parkett Leistung - Verbesserung der Parkettscanleistung, wenn flache Schemas mit .
- Verbesserte Abfrageplaner für Abfragen, die unterschiedliche Aggregationen -. Abfragepläne verschiedener Aggregationen robuster sind, wenn unterschiedliche Spalten hohe Kardinalität
- Adaptive Query-Ausführung -. Die erste Unterstützung für automatisch die Anzahl der Reduzierungen für Joins und Aggregationen Auswahl
- Vermeidung von Doppelfiltern in Data Source API -. Wenn eine Datenquelle mit Filter Pushdown- Implementierung können Entwickler jetzt Spark-SQL sagen ein Nachuntendrückposition Filter zur Vermeidung von Doppel Auswertung
- Fast null-safe verbindet - Verbindet null sichere Gleichheit mit (& # x3c; = & # x3e;) wird nun statt der Berechnung eines cartisian Produktes SortMergeJoin ausführen .
- In-Memory-Cache-Performance Columnare - Signifikante (bis zu 14x) zu beschleunigen, wenn die Daten zwischenspeichern, die komplexe Typen in Datenrahmen oder SQL enthält .
- SQL Execution Mit Off-Heap-Speicher - Unterstützung für die Konfiguration der Abfrageausführung auftreten off-Heap-Speicher mit GC-Overhead zu vermeiden
Was ist neu in Version 1.5.2:
- Die Kern-API unterstützt jetzt Multi-Level-Aggregation Bäume teuer reduzieren Operationen zu helfen, zu beschleunigen.
- Verbesserte Fehlerberichterstattung wurde für bestimmte Gotcha Operationen hinzugefügt.
- Spark Jetty Abhängigkeit schattiert ist jetzt helfen mit Anwenderprogrammen Konflikte zu vermeiden.
- Funke jetzt SSL-Verschlüsselung für einige Kommunikationsendpunkten unterstützt.
- Echtzeit GC-Metriken und Rekordzahlen wurden an die UI hinzugefügt.
Was ist neu in Version 1.4.0:
- Die Kern-API unterstützt jetzt Multi-Level-Aggregation Bäume teuer reduzieren Operationen zu helfen, zu beschleunigen.
- Verbesserte Fehlerberichterstattung wurde für bestimmte Gotcha Operationen hinzugefügt.
- Spark Jetty Abhängigkeit schattiert ist jetzt helfen mit Anwenderprogrammen Konflikte zu vermeiden.
- Funke jetzt SSL-Verschlüsselung für einige Kommunikationsendpunkten unterstützt.
- Echtzeit GC-Metriken und Rekordzahlen wurden an die UI hinzugefügt.
Was ist neu in Version 1.2.0:
- PySpark ist jetzt Art Operator externe Vergießen für große Datensätze unterstützt .
- PySpark unterstützt jetzt Broadcast Variablen größer als 2 GB und führt externe Verschütten während Sorten.
- Funke fügt einen Job-Level-Fortschritt Seite in die Spark-Benutzeroberfläche, eine stabile API für den Fortschritt Reporting und dynamische Aktualisierung der Ausgabe-Metriken als Aufträge abgeschlossen.
- Funke hat jetzt Unterstützung für Binär-Dateien für Bilder und andere binäre Formate zu lesen.
Was ist neu in Version 1.0.0:
- Diese Version erweitert Standardbibliotheken des Spark, die Einführung eines neuen SQL-Paket (Spark-SQL), die Benutzer integrieren SQL-Abfragen in bestehende Spark-Workflows können.
- MLlib, Spark maschinelles Lernen Bibliothek, mit spärlichen Vektor Unterstützung und mehrere neue Algorithmen erweitert wird.
Was ist neu in Version 0.9.1:
- Fixed Hashkollision Fehler in externen verschütten
- Fixed Konflikt mit Spark log4j für Benutzer auf anderen Protokollierung Backends verlassen
- Fixed Graphx Spark Montage Glas in Maven fehlt baut
- Fixed stille Ausfälle aufgrund Ausgangszustand wird auf der Karte mehr als Akka Rahmengröße
- Entfernt Spark unnötige direkte Abhängigkeit von ASM
- Entfernt Metriken-Glien von Standard-Build aufgrund LGPL Lizenz Konflikt
- Fixed bug in der Verteilung Tarball nicht Funken Montage Gefäß mit
Was ist neu in Version 0.8.0:
- Entwicklung hat zu der Apache Sowftware Foundation als bewegt Inkubator-Projekt.
Was ist neu in Version 0.7.3:
- Python Leistung: Mechanismus Spark zum Laichen Python VMs die Python-API verbessert, so schneller zu tun, wenn die JVM eine große Heap-Größe hat, zu beschleunigen.
- Mesos behebt: JAR-Dateien, um Ihren Job hinzugefügt jetzt auf dem Classpath sein wird, wenn Aufgabe Ergebnisse in Mesos Deserialisieren .
- Fehlerberichterstattung. Bessere Fehlerberichterstattung für nicht serialisierbaren Ausnahmen und zu große Aufgabe Ergebnisse
- . Beispiele: ein Beispiel für Stateful-Stream-Verarbeitung mit updateStateByKey Hinzugefügt
- Körperbau:. Spark-Streaming nicht mehr auf dem Twitter4J Repo abhängt, die es in China zu bauen lassen sollte
- Bug-Fixes in foldByKey, Streaming-Zählung, Statistiken Methoden, Dokumentation und Web-UI.
Was ist neu in Version 0.7.2:.
- Scala Version 2.9.3 aktualisiert
- Mehrere Verbesserungen Bagel, einschließlich Leistungskorrekturen und einer konfigurierbaren Speicherebene.
- Neue API-Methoden. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition und andere
- Eine neue Metriken Reporting-Schnittstelle, SparkListener, Informationen über die einzelnen Berechnungsstufe zu sammeln. Aufgabe Längen-Bytes neu gemischt, usw.
- Einige neue Beispiele, die die Java-API, einschließlich der K-Mittel und Rechen pi.
Was ist neu in Version 0.7.0:
- 0,7 Funken fügt eine Python-API namens PySpark <. / li>
- Spark-Jobs starten jetzt eine Web-Dashboard zur Überwachung der Speichernutzung jedes verteilten Datensatzes (RDD) im Programm.
- Funke kann jetzt gebaut werden.
mit Maven neben SBT
Was ist neu in Version 0.6.1:
- Feste übermäßig aggressive Nachricht Timeouts, dass die Arbeitnehmer zu führen könnten trennen aus dem Cluster.
- einen Fehler in der Standalone-deploy-Modus wurde behoben, der nicht Host-Namen an den Scheduler aussetzen, HDFS Ort zu beeinflussen.
- Verbesserte Verbindung Wiederverwendung in Shuffle, die stark kleinen schlurft beschleunigen kann.
- Fixed einige potenzielle Deadlocks im Block-Manager.
- Ein Fehler wurde behoben IDs der ausgefallenen Rechner von Mesos zu bekommen.
- Mehrere EC2 Skript Verbesserungen, wie eine bessere Handhabung von Spot-Instanzen.
- Made die lokale IP-Adresse, dass Spark anpassbaren bindet.
- Unterstützung für Hadoop 2-Distributionen.
- Unterstützung für die Lokalisierung Scala auf Debian-Distributionen.
Was ist neu in Version 0.6.0:.
- Einfachere Bereitstellung
- Spark Dokumentation wurde mit einem neuen Schnellstartanleitung, zusätzliche Bereitstellungsanweisungen, Konfigurationsanleitung, Tuning Guide und eine verbesserte Scaladoc API-Dokumentation erweitert.
- Ein neuer Kommunikationsmanager mit asynchronen Java NIO lässt Shuffle-Operationen schneller laufen, vor allem, wenn große Datenmengen senden oder wenn Jobs viele Aufgaben haben.
- Ein neuer Storage Manager unterstützt pro-Dataset Speicherebene Einstellungen (z, ob die Datenmenge im Speicher zu halten, deserialisiert, auf der Festplatte, usw., oder auch über die Knoten repliziert).
- Verbesserte Debugging.
Kommentare nicht gefunden