DataCleaner

Screenshot der Software:
DataCleaner
Softwarebeschreibung:
Version: 4.0.9
Upload-Datum: 11 Apr 16
Entwickler: -
Lizenz: Frei
Popularität: 49

Rating: nan/5 (Total Votes: 0)

Datacleaner ist eine Open Source und völlig kostenlos Lösung für Organisationen und Unternehmen wollen die Qualität ihrer Daten zu erhöhen und zu messen.

Mit Datacleaner, können Benutzer zum Profil, zu vergleichen, zu validieren Daten gegen Geschäftsregeln und überwachen den Verlauf dieser Messungen im Laufe der Zeit.

Zu den Funktionen gehören, können wir die Datenüberwachung, Datenprofilierung und DQ-Analyse, Datenbereinigung und Anreicherung erwähnen, zu erkennen und verschmelzen Duplikate, Kundendatenqualität, sowie superschnellen ETLightweight (Extract-Transform-Load).

Um mehr über Datacleaner Funktionen und Fähigkeiten erlernen, als auch, wie mit ihm zu arbeiten, finden Sie in http://eobjects.dk/docs

What ist neu in dieser Version:

  • Verbesserungen und neue Funktionen:
  • Wir haben es möglich gemacht, zu erstellen und Tabellen über den Desktop-UI von Datacleaner fallen. Beachten Sie, dass der Begriff & rdquo; Tabelle & quot; Hier erstreckt sich tatsächlich mehr als nur relationalen Datenbanktabellen. Es enthält auch Sheets in MS Excel-Datenspeichern, Sammlungen in MongoDB, Dokumenttypen in CouchDB und ElasticSearch und so weiter ... Grundsätzlich sind alle Datenspeichertypen, die Schreiboperationen unterstützen, außer Single-Table-Datenspeicher wie CSV-Datenspeicher, unterstützen diese Funktionalität! Die Funktionalität wird ausgesetzt über:
  • & quot; Erstellen Tabelle & quot; über das Rechtsklick-Menü von Schemas im Baum auf der linken Seite der Anwendung aktiviert ist.
  • & quot; Erstellen Tabelle & quot; auch über die Tabelle-Auswahleingänge in Komponenten wie in Tabelle einfügen, Suche in einer Tabelle und aktualisieren Tabelle aktiviert.
  • & quot; Drop-Tabelle & quot; über das Rechtsklick-Menü der Tabellen im Baum auf der linken Seite der Anwendung aktiviert ist.
  • Wir haben die (optional) Fähigkeit, unter Angabe Ihrer Salesforce.com Web-Service-Endpunkt-URL hinzugefügt. Auf diese Weise können Sie Datacleaner zu verwenden, um Sandbox-Umgebungen von Salesforce.com als auch auf Ihre eigenen Endpunkte zu verbinden.
  • Die ElasticSearch Unterstützung wurde verbessert, so dass individuelle Zuordnungen sowie Wiederverwendung der ElasticSearch Datenspeicher Definitionen nun auch für die Suche und Indizierung.
  • Die Probenahme von Aufzeichnungen und Auswahl möglicher Duplikate in der Duplikaterkennung-Funktion wurde verbessert, um schnellere Konfiguration führt, weil die während der Trainingssitzung getroffenen Entscheidungen mehr repräsentativ sind.
  • Die Duplikaterkennung Modell Dateiformat wurde aktualisiert, die die Notwendigkeit eines separaten "Referenz" Datei, um Vergangenheit Training entfernt hat Entscheidungen zu speichern. Die Kompatibilität mit dem alten Format wurde beibehalten, aber das neue Format fügt für die User Experience viele Vorteile mit.
  • Fehlerbehebungen:
  • Es wurde ein Thread Verhungern Problem in Datacleaner Monitor fixiert. Die Auswirkungen dieses Problems war groß, aber es geschah nur in seltenen und sehr kundenspezifische Fälle. Wenn benutzerdefinierte Zuhörer auf dem Datacleaner Monitor-Objekte würde einen Fehler werfen, wäre es in einer Ressource zur Folge haben nie wird freigegeben und ein Faden von der Quartz-Scheduling-Pool auf dem Server aufzunehmen. Wenn dies oft der Server passieren würde schließlich aus Fäden in diesem Pool laufen konnte.
  • Die vertikale Menü auf dem Ergebnisbild jetzt tut eine richtige Aufgabe, die Etiketten der Komponenten angezeigt werden, die Ergebnisse haben. Dies macht es einfacher, die Menüpunkt Punkte zu welchem ​​Ergebnis Punkt zu erkennen.

Was ist neu in Version 3.5.5:

  • Die Transformation jetzt 'Synonym Lookup' hat eine Option jedes Zeichen der Eingabe zu suchen. Dies ist nützlich, wenn Sie Ersatz von Synonymen innerhalb der Werte eines langen Textfeld tun.
  • Sperr Ausführung von Datacleaner Aufträge über den Web-Service-Monitor für das manchmal mit einem Fehler, verursacht durch die Blockierung Thread scheitern könnte. Dieses Problem wurde behoben.
  • wurde in den Weg, um Arbeitsplätze und die Reihenfolge der Komponenten sind geschlossen / bereinigt nach der Ausführung.
  • Eine Verbesserung gemacht
  • Die JNLP / Java WebStart Version von Datacleaner wurde durch einen Fehler in der Java-Runtime verursacht bestimmte JAR-Dateien nicht ausgesetzt durch die WebStart Launcher anerkannt zu werden, unter bestimmten Umständen. Dieses Problem hat, indem sie leichte Modifikationen an diesen JAR-Dateien behoben.
  • Ein paar tote Links in der Dokumentation wurde behoben.

Was ist neu in Version 3.5.4:

  • Es ist nun möglich Ausgabespalten von Transformationen zu verstecken . Verstecken nicht den Verarbeitungsablauf beeinflussen überhaupt, sondern einfach verstecken sie von der Benutzeroberfläche und damit potenziell machen die Erfahrung mehr sauber, wenn sie mit anderen Komponenten interagieren.
  • Ein neuer Webservice zur Überwachung Web-Anwendung hinzugefügt worden, die eine Möglichkeit bietet, den Status der Ausführung eines bestimmten Job abzufragen.
  • Es wurde ein Fehler behoben, wodurch die HTML-Bericht für bestimmte Analysetypen zu versagen, wenn keine Datensätze verarbeitet worden war.
  • Und 6 weitere kleinere Fehler wurde angesprochen worden.

Was ist neu in Version 3.5.1:

  • Aufnahme geändert Datensätze:
  • Es wurde ein neuer Filter hinzugefügt inkrementelle Verarbeitung von Datensätzen zu ermöglichen, die nicht vor der Verarbeitung haben, z.B. für die Profilerstellung oder das Kopieren nur Datensätze geändert. Die neuen Filter Name ist Capture-Datensätze geändert, die sich auf das Konzept der Change Data Capture.
  • Queued Ausführung von Jobs:
  • Der Datacleaner Monitor wird nun die Ausführung der gleichen Job Warteschlange, wenn es mehrere Male ausgelöst wird. Dadurch wird sichergestellt, dass Sie nicht versehentlich den gleichen Job gleichzeitig ausgeführt werden, die für alle Arten von Problemen führen kann, je nachdem, was der Job.
  • Minor bugfixes:
  • Mehrere Fehlerbehebungen durchgeführt wurde.

Was ist neu in Version 3.5:

  • Mehrere Assistenten sind jetzt verfügbar für Datenspeicher Registrierung; einschließlich Datei-Upload auf den Server für CSV-Dateien, Datenbankverbindungseintrag, geführte Registrierung von Salesforce.com Anmeldeinformationen und vieles mehr.
  • Die Job-Gebäude Zauberer haben auch mit einigen erweiterten Funktionen erweitert worden ist; Die Auswahl der Werteverteilung und Musterfelder in der Schnellanalyse-Assistent, ein völlig neuer Assistent für die Erstellung der Suche nach EasyDQ basierte Kunden Reinigung Arbeitsplätze und einen neuen Job Assistenten zum Brennen von Pentaho Data Integration Jobs (lesen Sie mehr weiter unten).
  • Sie können jetzt Ad-hoc-Abfrage eine beliebige Datenspeicher direkt in der Web-Benutzeroberfläche. Das macht es einfach schnell oder sporadische Einblicke in die Daten zu erhalten, ohne die Daten zu verarbeiten Jobs oder andere verwaltete Ansätze einrichten.
  • Sobald Jobs oder Datastores erstellt werden, wird der Benutzer geführt, Maßnahmen zu ergreifen, um dem neu gebauten Objekt. Zum Beispiel kann man sehr schnell einen Job nach rechts laufen, nachdem es gebaut, oder einen Datenspeicher abzufragen, nachdem es registriert ist.
  • Administratoren können jetzt direkt Aufträge an das Repository laden, was besonders praktisch ist, wenn Sie den XML-Inhalt der Job-Dateien.
  • Hand-bearbeiten möchten
  • Ein großer Teil der technischen cruft ist nun für zeigt einfache Dialoge versteckt. Zum Beispiel, wenn ein Auftrag eine große Ladeanzeige ausgelöst wird, wird angezeigt, und wenn Sie fertig sind wird das Ergebnis angezeigt. Die erweiterte Logging-Bildschirm, das zuvor dort noch auf Klicken auf einen Link für weitere Informationen angezeigt werden.

Was ist neu in Version 3.1.2:

  • Wir haben eine Web-Service bei der Überwachung hinzugefügt Antrag auf eine (Liste) Metrikwerte zu bekommen. Dies macht die Überwachung noch mehr verwendbar als zentrale Infrastrukturkomponente, als eine Möglichkeit, Daten (Qualität) zu überwachen und die Ergebnisse zu Anwendungen von Drittanbietern aus.
  • Die "Suche in einer Tabelle 'Komponente durch Hinzufügen beitreten Semantik als konfigurierbare Eigenschaft verbessert. Mit Hilfe der Semantik verbinden Sie optimieren können, wenn Sie die Nachschlag wollen wie ein LEFT semantisch arbeiten JOIN oder ein INNER JOIN.
  • Die EasyDQ Komponenten aktualisiert wurden, das Hinzufügen weiterer Konfigurationsoptionen und eine reichere Deduplizierung Ergebnis Schnittstelle.
  • Performance-Verbesserungen haben einen spezifischen Schwerpunkt dieser Veröffentlichung gewesen. Es wurden Verbesserungen im Motor von Datacleaner um die weitere ein Streaming-Verarbeitungsansatz in bestimmten Fällen Ecke verwenden, die bisher nicht abgedeckt wurde.

Was ist neu in Version 3.1.1:

  • Das Datum und die Zeit im Zusammenhang mit Analysemöglichkeiten wurden erweitert , Verteilung Analysatoren für Woche Zahlen, Monate und Jahre hinzufügen. Datum und Zeit & quot; Alle Analysatoren zu Datum und Zeit verwandt sind jetzt in einem Untermenü namens & quot gruppiert; unter & quot; Analysieren & quot;.
  • Ein optionaler & quot; deskriptiven Statistiken & quot; Option wurde zum Nummer-Analysator und dem Datum / Zeit-Analysator hinzugefügt. Diese Option fügt zusätzliche Kennzahlen zu den Ergebnissen dieser Analysatoren, wie Median, Schiefe, Perzentile und Kurtosis. Diese Kennzahlen sind optional, da ihr Speicherbedarf ist etwas größer als die vorhandenen Metriken.
  • Die Linien in den Timeline-Charts der Überwachung Web-Anwendung jetzt haben kleine Punkte in ihnen. Dies ist besonders nützlich für Diagramme mit wenigen (oder auch nur eine) Beobachtungen in ihnen -. Genau zu zeigen, wo die Beobachtungspunkte sind
  • Die Abfrage-Parser beim Aufruf von Ad-hoc-Abfragen wurden ebenfalls erheblich verbessert. Nun können Abfragen DISTINCT-Klauseln enthalten, * -wildcards, Subqueries und sind fehlertolerant gegenüber text Fall Fragen.
  • Zwei neue Transformatoren wurden zur Erzeugung von UUIDs und zur Erzeugung von Zeitstempel hinzugefügt.

Was ist neu in Version 3.1:

  • Metric Formeln - erarbeitet Data Quality KPIs:
  • Es ist nun möglich, viel mehr erarbeiten Data Quality KPIs in Datacleaner die Überwachung Web-Anwendung zu erstellen. Die Benutzeroberfläche ermöglicht es Ihnen, komplexe Formeln in einer Tabellenkalkulation wie Formel-Stil zu bauen; Verwendung von Variablen zusammengestellt von Datacleaner Arbeitsplätze.
  • Metric Formeln können eine beliebige Anzahl von Metriken, Konstanten und Operationen kombinieren, solange es in einer mathematischen Gleichung ausgedrückt werden kann.
  • Zum Beispiel - messen die Geschwindigkeit der doppelten Datensätzen in Prozent des Gesamtdatenanzahl. Oder die Menge des Produktcodes messen, die zu einem Satz von mehreren String-Muster entsprechen.
  • Ad-hoc-Abfrage - jeder Datenspeicher:
  • Mit Datacleaner 3.1 können Sie jetzt Ad-hoc-Abfragen zu beliebigen Datenspeicher durchführen! Abfragen können in einfachen SQL ausgedrückt und auf Datenbanken sowie Dateien, NoSQL-Datenbanken und vieles mehr, bietet eine wirklich hilfreich Abfragemechanismus in Ihre Entdeckung und Datenprofilierung Erfahrung zu erweitern angewendet werden.
  • Die Abfrage Option ist auch für die Überwachung Benutzer über einen Web-Service zur Verfügung mit der ADMIN Rolle. Die Abfrage wird als HTTP-Parameter oder POST-Körper zur Verfügung gestellt, und das Ergebnis wird als XHTML-Tabelle zur Verfügung gestellt.
  • Wert Matcher - eine neue Analyse-Option:
  • Oft Sie haben eine feste Idee, auf deren Werte für ein bestimmtes Feld erlaubt und zu erwarten. In Datacleaner gibt es die Werteverteilung Analyse Option immer mit dem Sie Ihre Annahmen behaupten würde helfen. In Datacleaner 3.1 aber haben Sie eine präzisere Angebot - der Wert Matcher. Diese Analyse Option ermöglicht es Ihnen, eine Reihe von erwarteten Werten angeben und dann eine Wertverteilung wie Analysen durch, speziell zu validieren und unerwartete Werte zu identifizieren.
  • Kopieren, Löschen und Verwaltung von Jobs:
  • Management von Arbeitsplätzen und die Ergebnisse in der Datacleaner Monitor-Anwendung hat sich stark verbessert. Sie können nun einen Job in der Scheduling-Seite des Monitors klicken und Managementoptionen für Operationen wie Umbenennen, Kopieren, Löschen und vieles mehr. Jede Operation im Einklang mit den Verbindungen zu anderen Artefakte im Monitor, wie Analyseergebnisse, Termine und vieles mehr. Dies bedeutet, dass das Management des Monitoring-Repository viel einfacher und reifer geworden ist.
  • Verwalten der Datenqualität Geschichte:
  • Manchmal Situationen Sie konfrontiert, wo man tatsächlich Überwachung mit historischen Daten zu tun wollen! Es könnte sein, dass Sie historische Deponien oder Sicherungen von Datenbanken, die Sie wollen die Geschichte zu zeigen und zu erzählen. Sie können nun die Analyse der historischen Daten zu tun, laden Sie sie auf dem Datacleaner Monitor und eine neue Web-Service verwenden, stellen eine historische Daten dieses speziellen Analyseergebnis. Dies bedeutet, dass Ihr Zeitrahmen wird richtig die Ergebnisse zeichnen ihre beabsichtigten Zeitpunkt verwenden, aber mit den Ergebnissen, die Sie vielleicht zu einem späteren Zeitpunkt gesammelt haben.
  • Clustered-Scheduler Unterstützung (EE only):
  • Der Scheduler von Datacleaner Monitor wurde lagert, so dass sie durch die mittels einfacher Konfiguration ersetzt werden kann. In der Enterprise Edition (EE) von Datacleaner, bieten wir eine Cluster-Scheduler und bietet die Fähigkeit, das Gleichgewicht zu laden und Ihre Ausführungen über einen Cluster von Maschinen zu verteilen.
  • Single-Signon (SSO) mit CAS (EE only):
  • In der Enterprise Edition (EE) von Datacleaner jetzt bieten wir eine Single-Signon-Option für die Monitor-Anwendung. Jetzt kann Datacleaner ein integrierter Bestandteil der IT-Infrastruktur, auch in puncto Sicherheit sein.
  • ... Und vieles mehr:
  • Die oben ist nur eine Zusammenfassung. Mehr als dreißig Probleme wurden in dieser Version behoben. Wir haben mehrere Anfragen gelöst von den Foren und Community kommen, und wir ermutigen jeden, für den Wandel dieses Medium als ein Fahrzeug zu nutzen. Wir sind sehr glücklich, die Entwicklung von Datacleaner zu machen stark durch die Ströme in der Gemeinde beeinflusst werden.

Was ist neu in Version 3.0.3:

  • Fügt ein Service für Arbeitsplätze in der Überwachung Repository umbenennen .
  • Sie können diesen Zugriff als RESTful Web Service oder interaktiv in der Benutzeroberfläche.
  • Es wurde ein Web-Service hinzugefügt, um das historische Datum eines Analyseergebnisses in der Monitoring-Repository für die Änderung.
  • Die Web-Anwendung wurde mit Legacy-JSF-Container kompatibel gemacht.
  • Caching von Konfiguration in der Web-Anwendung erheblich verbessert wurde, um schnellere Seitenlade und Job Initialisierungszeiten führt.

Was ist neu in Version 3.0.2:

  • Wenn Sie einen Job in der Überwachung Web-Anwendung Auslösen das Panel automatisch aktualisiert jede Sekunde auf dem neuesten Stand der Ausführung zu erhalten.
  • Datei-basierte Datenspeicher (wie CSV oder Excel-Tabellen) mit absoluten Pfaden werden jetzt korrekt in der Monitoring-Web-Anwendung behoben.
  • Die & quot; Wählen Sie aus Schlüssel / Wert-Karte & quot; Transformator unterstützt nun verschachtelte wählen Ausdrücke wie & quot; Address.Street & quot; oder & quot; Orderlines [0] .product.name & quot;.
  • Die Tabelle Lookup-Mechanismus wurden für die Leistung optimiert, Prepared Statements, wenn sie gegen JDBC-Datenbanken ausgeführt wird.

  • Datastores & quot;
  • Administratoren können nun die dateibasierte Datenspeicher direkt aus dem & quot herunterladen; Seite.
  • Ausnahmebehandlung bei der Überwachung Web-Anwendung hat sich ein wenig verbessert worden, so dass die Fehlermeldungen präziser und intuitiver.

Was ist neu in Version 3.0.1:

  • Die primäre Bugfix in dieser Version war die über die Wiederherstellung Zuordnung von Spalten und spezifischen enumerable Kategorisierungen. Zum Beispiel in der neuen Vollständigkeits Analysator, fanden wir, dass nach einem gespeicherten Auftrag Nachladen, die Zuordnung nicht immer richtig war.
  • Des Weiteren einige interne Verbesserungen vorgenommen wurden, wodurch es einfacher, die Datacleaner Monitor Web-Anwendung in Umgebungen zu implementieren, die Spring-Framework verwenden.
  • Last but nicht zuletzt haben die Visualisierung Einstellungen in der Desktop-Anwendung, indem sie automatisch verbessert einen Blick auf die Arbeit nehmen werden visualisiert und Makeln angezeigt Artefakte auf der Basis der Bildschirmgröße und der Menge an Details benötigt es schön zu zeigen.

Was ist neu in der Version 3.0:

  • Anzeige der Timeline und Trends der Datenqualitätsmetriken
  • zentrales Repository für die Verwaltung und enthält Jobs, Ergebnisse, Termine, etc.
  • Scheduling und Prüfung von Datacleaner Jobs
  • Bereitstellung von Web-Services für den Aufruf Datacleaner Transformationen
  • Sicherheit und Multi-Tenancy
  • Warnungen und Benachrichtigungen, wenn Datenqualitätsmetriken sind aus ihren erwarteten Komfortzonen.
  • Es gibt einen neuen Vollständigkeits Analysator, der für einfach zu identifizieren Aufzeichnungen sehr nützlich ist, die unvollständig Felder haben.
  • Sie können jetzt Datacleaner Ergebnisse gut aussehende HTML-Berichte exportieren, dass Sie sich in Ihren Manager geben kann, oder auf Ihre XML-Parser senden!
  • Das neue Monitoring-Umgebung ist auch eng mit der Desktop-Anwendung integriert. Somit hat die Desktop-Anwendung nun die Möglichkeit, Arbeitsplätze und die Ergebnisse an den Monitor-Repository zu veröffentlichen und als interaktiver Editor für Content bereits im Repository verwendet werden.
  • Neuer Termin orientierte Transformationen sind ab sofort verfügbar: Datumsfilter, mit dem Sie Datensätze basierend auf Datumsbereiche der Teilmenge ermöglicht, und das Format Datum, die ein Datum mit einer Datumsmaske zur Formatierung erlaubt
  • .
  • Die Regex-Parser (die bisher nur durch die ExtensionSwap verfügbar war) wurde nun in Datacleaner aufgenommen. Dies macht es sehr bequem zu analysieren und Rich-Text-Felder mit regulären Ausdrücken zu standardisieren.
  • Es gibt einen neuen Text Fall Transformator zur Verfügung. Mit dieser Transformation können Sie leicht umwandeln zwischen Groß- / Kleinschreibung und die ordnungsgemäße Aktivierung von Sätzen und Wörtern.
  • Zwei neue Suchen / Ersetzen-Transformationen wurden hinzugefügt:. Plain Suchen / Ersetzen und Regex Suchen / Ersetzen
  • Die User Experience von der Desktop-Anwendung wurde verbessert. Wir haben Hilfemeldungen mehrere in-Anwendung hinzugefügt, machten die Farben aussehen heller und klarer und verbessert die Schrift Handhabung.

Was ist neu in Version 2.5.2:

  • Apache CouchDB-Unterstützung:
  • Wir haben Unterstützung für die NoSQL-Datenbank Apache CouchDB hinzugefügt. Datacleaner unterstützt sowohl das Lesen von, Analyse und Schreiben auf Ihre CouchDB Instanzen.
  • Update Tabelle Schreiber:
  • unsere bisherigen Anstrengungen Nach ETLightweight-Stil Funktionen in Datacleaner zu bringen, haben wir einen Schriftsteller gegeben, die Datensätze in einer Tabelle aktualisiert. Sie können dies beispielsweise verwenden, um Datensätze einzufügen oder zu aktualisieren basierend auf bestimmten Bedingungen.
  • Wie die in Tabelle einfügen Schriftsteller, wird die neue Datacleaner Update-Tabelle Schreiber nicht auf SQL-basierten Datenbanken beschränkt, sondern jede Datenspeichertyp, die (derzeit relationalen Datenbanken, CSV-Dateien, Excel-Tabellen, MongoDB Datenbanken und MongoDB Datenbanken) unterstützt das Schreiben, aber die Semantik sind die gleichen wie bei einer traditionellen UPDATE TABLE-Anweisung in SQL.
  • Drill-to-Detail Informationen in Ergebnisdateien gespeichert:
  • Wenn das Ergebnis Speichern mit Funktion von Datacleaner 2.5, erfahren einige Nutzer, dass ihre Drill-to-Detailinformationen verloren. In Datacleaner 2.5.2 bestehen wir nun auch diese Informationen, Ihre DQ Archive viel wertvoller zu machen, wenn historische Daten Vorfälle zu untersuchen.
  • Verbesserte EasyDQ Fehlerbehandlung:
  • Die EasyDQ Komponenten wurden in Bezug auf die Fehlerbehandlung verbessert. Wenn ein momentaner Netzwerkproblem auftritt oder ein anderes ähnliches Problem verursacht ein paar Aufzeichnungen versagen, werden die EasyDQ Komponenten jetzt anmutig erholen und vor allem -. Batch-Arbeit auch trotz der Fehler durchsetzen wird
  • Table Mapping für NoSQL-Datastores:
  • Da CouchDB und MongoDB nicht Tabelle basiert, sondern haben eine dynamische Struktur, die wir zwei Ansätze zur Verfügung stellen, mit ihnen zu arbeiten: Die Standard, die automatisch erkennen eine Tabellenstruktur zu lassen Datacleaner ist, und die erweiterte, die Sie manuell festlegen können Ihre gewünschte Tabellenstruktur. Zuvor war die erweiterte Option nur durch XML-Konfiguration verfügbar, aber jetzt ist die Benutzeroberfläche enthält entsprechende Dialoge für diese direkt in der Anwendung zu tun.

Was ist neu in Version 2.4.1:

  • Feature-Erweiterungen:
  • Batch Laden Funktionen wir stark verbessert, wenn auf Datenbanktabellen Schreiben von Daten. Erwarten Sie, um hier viele Größenordnungen Verbesserungen zu sehen.
  • Das Schreiben auf Daten wurde bequemer, indem die Optionen zum Fenster-Menü zur Verfügung.
  • Sie können nun einfach umbenennen Komponenten eines Auftrags durch einen Doppelklick auf ihre Reiter.
  • Die Javascript-Transformator hat jetzt Syntaxfärbung, so dass Ihre Javascripts leichter zu kontrollieren und zu ändern.
  • Fehlerbehebungen:
  • Beim Lesen von und nach demselben Datenspeicher zu schreiben (z. B. die Datacleaner Staging-Bereich) haben wir darauf geachtet, dass der Tabellen-Cache des Datenspeichers aktualisiert wird. Zuvor einige Szenarien erlaubt Ihnen eine out-of-date zu sehen Blick auf die Tabellen.
  • Ein möglicher Deadlock beim Starten der Anwendung wurde, gelöst. Diese Blockade war eine Folge eines Problems in der JVM, aber wir haben um ihn herum durch alle Anrufe an die jeweilige API in Java synchronisiert werden.

Was ist neu in der Version 2.4: (. Aka Deduplizierung oder Fuzzy Matching von Datensätzen)

  • Duplikaterkennung , die für bis zu 500.000 Werte zu verwenden, ist frei.
  • Adressdatenvalidierung und Reinigung. Auf diese Weise können Sie überprüfen, ob Adressen vorhanden sind, wenn sie korrekt formatiert sind und auch Korrekturen für den Fall, schlagen Sie vor Fehlern haben.
  • Name der Datenvalidierung und Reinigung. Mit dem Namensdienst, hat EasyDQ nicht nur formatieren Sie Ihre Namen konsequent, sondern prüft auch, ob falsche Schreibweisen und interpretiert die Namensteile.
  • E-Mail und Telefon Validierung und Reinigung. Diese Dienste bieten die Überprüfung von E-Mail und Telefondaten, um sicherzustellen, dass E-Mail-Domänen bestehen, dass die Ländercodes korrekt sind und vieles mehr.

Was ist neu in der Version 2.3:

  • Internationale Daten unterstützen:
  • Wenn Sie mit den internationalen Daten arbeiten, dann könnten Sie unterschiedliche Zeichensätze in Ihrer Daten haben, zum Beispiel Chinesisch oder Hebräisch. Wir haben den Zeichensatz Verteilungs-Analyse, die eine Profilierung Option ist, dass Sie herausfinden können, welche Zeichensätze in Ihrer Daten verwendet werden.
  • Arbeiten mit Daten unterschiedliche Zeichensätze enthält, kann problematisch sein. Mit dem neuen Transliterate Transformator können Sie jetzt Strings aus verschiedenen Schriftsystemen auf lateinische Zeichen transkribieren.
  • Es gibt auch eine neue Webcast Demonstration, auf den internationalen Datenfähigkeiten von Datacleaner 2.3 in der Dokumentation Abschnitt konzentriert.
  • Gruppierung der Analyseergebnisse durch eine sekundäre Spalte:
  • Die Pattern Analyzer ist nun in der Lage Muster Gruppe auf einer sekundären Spalte basiert. Dies ist nützlich für Analysen wie:
  • Get Muster von Telefonnummern, gruppiert nach Ländern.
  • Get Muster der E-Mail-Benutzernamen basierend auf E-Mail-Domäne.
  • Etwas Ähnliches wurde für die Werteverteilung Analysator durchgeführt; dies ermöglicht Analysen wie:
  • Sind alle Städtenamen deutlich, wenn sie von Postleitzahl gruppiert?
  • Was ist die Verteilung der Geschlechter in bestimmten Kundentypen?
  • Verbesserte Diagramme:
  • Die Pattern Ergebnisse der Suche können nun in einem Diagramm dargestellt werden. Dies macht die Verteilung sichtbar und zeigt, wie viel von einem & quot; langen Schwanz & quot; von Mustern gibt es.
  • Die Ausgabe des Wertverteilung Analysator in ein paar Bereichen verbessert:
  • Die Lesbarkeit des Diagramms wurde verbessert.
  • Sie zeigt die Gesamtzahl der Zeilen und die Distinct Count über diese Zeilen: die Anzahl der verschiedenen Werte, die in den Zeilen existieren. Dies hilft, herauszufinden, wie oft doppelte Werte vorhanden sind.
  • Wenn es leere Strings sind, verwenden wir das Schlüsselwort für die es, so dass es einfacher ist, sie zu erkennen.
  • Ausgabe:
  • Neben den bereits vorhandenen Ausgabeformate (CSV-Dateien und H2-Datenspeicher) haben wir Ausgabe in Excel-Tabellen zu schreiben.
  • Nachdem in einen Datenspeicher zu schreiben, ist es nun möglich, die Ausgabe der Vorschau, so dass Sie überprüfen können, ob die Ausgabe Ihren Erwartungen entsprechend.
  • Es ist nun auch möglich, die Ausgabe als einen neuen Datenspeicher hinzuzufügen, so dass sie als Eingabe für einen neuen Job verwendet werden können.
  • Weitere Verbesserungen:
  • Dokumentation wurde allgemein verbessert. Insbesondere die Protokollierung und Kommandozeilen-Schnittstelle Beschreibungen hinzugefügt wurden.
  • Der Erweiterungsmechanismus wurde durch Modularisierung mehrere Stücke von der Anwendung und Einführung von Google Guice als allgemein verfügbar Dependency Injection-Framework für Entwickler von Erweiterungen verbessert.
  • Und natürlich wir haben mehr als zwanzig kleine Verbesserungen und Bugfixes.

Was ist neu in der Version 2.2:

  • Der Haupttreiber für diese Version eine Geschichte über Erweiterbarkeit wurde . Während die Freigabe der Anwendung veröffentlichen wir simultaniously eine neue Datacleaner Webseite, die einen wichtigen neuen Bereich Features: Die ExtensionSwap. Die Idee des ExtensionSwap ist durch Klicken auf eine Schaltfläche im Browser Datacleaner und Installation einfach den Austausch von Erweiterungen zu ermöglichen!
  • Die Datacleaner Erweiterung API hat sich in dieser Version verbessert worden, so dass es möglich, eigene Transformatoren, Analysatoren und Filter zu erstellen. Wenn Sie Ihre Erweiterungen fühlen von Interesse für andere Benutzer sein könnte, bitte auf der ExtensionSwap teilen, und wir bieten einen Kanal für Sie leicht zu Tausenden von Benutzern verteilen. Der Extension-API und die ExtensionSwap wird weiter in unserem neuen Webcast Demonstration für Entwickler und andere Technik-Freaks mit einem Interesse erklärt.

  • Die HIquality Kontakte für Datacleaner Erweiterung, die erweiterte Name, Telefon und E-Mail-Reinigung, die auf Basis menschlichen Inferences Verarbeitung natürlicher Sprache DQ Web-Services bietet:
  • Wir sind auch eine Reihe von Anfangs Erweiterungen auf dem ExtensionSwap freigibt. Wir liefern auch eine Probe-Erweiterung, die als Beispiel für Entwickler dienen wollen, selbst auszuprobieren Erweiterung Entwicklung. In den kommenden Monaten werden wir von unseren internen Portfolio von Werkzeugen mit Ursprung noch mehr Erweiterungen zu schreiben, die wir verwenden bei Human Inference Wissen sammeln Teams sicher.
  • Neben Erweiterbarkeit wir auch auf Einbettbarkeit konzentrieren. Wir wollen in der Lage sein, Datacleaner einzubetten leicht in andere Anwendungen überall möglich Profilerstellung und Datenanalyse zu machen! Wir haben ein neues Bootstrapping-API erstellt, welche Anwendungen Datacleaner zu bündeln können und Bootstrap es mit einer dynamischen Konfiguration oder führen Sie es in einem & quot; Single-Datenspeicher-Modus & rdquo ;, in dem der Antrag auf nur einen einzigen Datenspeicher Inspektion (in der Regel durch die Anwendung definiert abgestimmt ist dass bettet Datacleaner). Wir haben bereits einige sehr interessante Fälle von Datacleaner in den Arbeiten zu integrieren -. Sowohl in anderen Open-Source-Anwendungen sowie kommerzielle Anwendungen
  • Wir haben Unterstützung hinzugefügt für SAS-Datensätzen zu analysieren. Das ist etwas, wir sind ganz stolz auf, wie wir sind, um unser Wissen, die erste große Open-Source-Anwendung eine solche Funktionalität zur Verfügung zu stellen, schließlich eine Menge SAS Anwender zu befreien. Die SAS-Interoperabilität Teil wurde als separates Projekt erstellt, SassyReader, so erwarten wir Annahme in Datacleaner die kostenlose Open-Source-Communities sehen bald auch!
  • Schließlich haben wir auch Unterstützung für eine andere Art von Datenspeicher: Feste Breite-Dateien. Feste Breite-Dateien sind Textdateien, wobei jede Spalte eine feste Breite hat. Es gibt keine Trennzeichen oder Anführungszeichen, wie CSV-Dateien, anstatt jede Zeile gleich lang sind und jede Zeile wird nach einer Reihe von Wert Längen tokenized werden.
  • Eine Option & quot; nicht auf Inkonsistenzen & quot; in eine CSV-Datei und feste Breite Datei-Datenspeicher wurde hinzugefügt. Diese Flags fügen Sie ein Format Integritätsprüfung, wenn diese Textdatei basierte Datenspeicher verwenden.
  • Es wurde ein Fehler behoben, die CSV-Trenneinstellungen verursacht nicht in der Benutzeroberfläche beibehalten werden, bei der Bearbeitung einer CSV-Datenspeicher.
  • Japanisch und andere Zeichen sind nicht in der Benutzeroberfläche unterstützt. Das & quot; Fehler & quot; war eine Frage der verfügbaren Schriftarten auf dem System zu untersuchen und eine Schriftart auswählen, die die besonderen Zeichen darstellen kann. Auf den meisten modernen Systemen wird es fähig Schriftarten verfügbar sein, aber auf einigen Unix / Linux-Filialen könnte es noch Einschränkungen sein.
  • Die Dokumentation Abschnitt wurde aktualisiert! Seit der ursprünglichen Version 2.0 haben die Dokumentation weit hinter sich, aber wir haben schließlich bisher geschafft, es zu bekommen. Es gibt immer noch Stücke in der Dokumentation fehlt, aber es sollte auf jeden Fall für die grundlegende Verwendung auch als Referenz für die meisten Themen nützlich sein.
  • Anwendungsstartzeit wurde durch Parallelisierung der Konfiguration Laden verbessert und durch die Initialisierung dieser Teile der Konfiguration zu verzögern, die nicht für die erste Fensteranzeige benötigt werden.
  • Die klangliche Ähnlichkeit finder Analysator wurden vom Hauptverteiler entfernt, da dies ziemlich experimentell war und dient meist als Proof of Concept und einem Aperitif an der Gemeinschaft erweiterte Matching-Analysatoren zu erstellen. Sie können nun die klangliche Ähnlichkeit Finder auf dem ExtensionSwap finden und zu installieren.
  • Abgebrochen oder errornous Auftragsabwicklung wurde verbessert und die Benutzeroberfläche reagiert mehr richtig durch Tasten und Fortschrittsindikatoren zu deaktivieren, wenn ein Job beendet wurde.
  • Fixed einige kleinere UI Fragen im Zusammenhang mit Tabelle Sizing und die Verwendung von Bildlaufleisten.

Was ist neu in Version 2.1.1:

  • Erweiterungen:
  • Hinzugefügt am Datastores Liste eine Suche / Filtertextfeld ein. Auf diese Weise können Sie schnell Ihre Datenspeicher zu finden, wenn Sie mehrere Datenspeicher als auf dem Bildschirm zur Verfügung registriert haben.
  • Referenzdaten für Ländercodes wurde der Standard-Distribution hinzugefügt, Dank geht für die Bereitstellung diese Graham Rhind.
  • Zusammen mit den Daten, die eine horizontale Bildlaufleiste der Vorschau-Fenster von dort sind mehr als 10 Spalten.
  • Die Fähigkeit, ein Erweiterungspaket mit neuen Funktionen im Dialog Optionen zur Laufzeit hinzuzufügen. Mehr Fokus auf Erweiterungen werden in den kommenden Versionen folgen.
  • Wir haben eine frühe Vorschau unserer Befehlszeilenschnittstelle (CLI) ausgesetzt, indem Sie die Anwendung mit der & quot aufzurufen; -usage & quot; Parameter, die die CLI-Optionen zeigen.
  • hinzugefügt Anzahl Formatierungsoptionen auf der & quot; In eine Zahl umwandeln & quot; Transformator.
  • Fehlerbehebungen:
  • Fixed eine Out-of-Memory-Ausgabe, wenn Tabellen mit vielen Spalten (150 +) abgefragt werden.
  • Ein Problem wurde behoben, dass die & quot verursachen; Grenzwertanalyse & quot; Kontrollkästchen werden nicht korrekt überprüft, wenn ein Auftrag wurde wieder geöffnet nach dem Speichern.
  • Nicht wirklich ein Bugfix, wie es war nie eine offizielle Funktion, aber jetzt unterstützen die Wiederherstellung wir Benutzereinstellungen (die userpreferences.dat-Datei) aus früheren Versionen von Datacleaner.

Was ist neu in der Version 2.1:

  • Es gab (eine Menge Arbeit auf der Benutzeroberfläche gemacht siehe Medienseite):
  • Wir entschieden uns für die linke Seitenfenster enthaltenden Umgebung Konfigurationsoptionen zu entfernen.
  • Stattdessen haben alle diese Optionen nun dem Job Gebäude Fenster verschoben worden, so dass nur der Benutzer auf einem einzigen Fenster für alle Interaktionen, einen Job zu bauen benötigt, um den Fokus hat.
  • Der Empfang / Login-Dialog hat auch für eine diskretere Platte entfernt worden ist, die aus dem Hauptfenster in oder versteckt gezogen werden kann.











Screenshots

datacleaner-315902_1_315902.png
datacleaner-315902_2_315902.png
datacleaner-315902_3_315902.png

Ähnliche Software

indigestion
indigestion

20 Feb 15

ua2.mongolog
ua2.mongolog

20 Feb 15

Navicat Premium
Navicat Premium

17 Feb 15

Andere Software von Entwickler -

Aseba
Aseba

12 Apr 16

CAELinux
CAELinux

12 Apr 16

Tatar cuisine
Tatar cuisine

11 Apr 18

Kommentare zu DataCleaner

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!