mrjob

Screenshot der Software:
mrjob
Softwarebeschreibung:
Version: 0.4
Upload-Datum: 20 Feb 15
Entwickler: David Marin
Lizenz: Frei
Popularität: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob ist ein Python-Modul, die Sie schreiben und ausführen Hadoop Streaming Arbeitsplätze beiträgt.
mrjob unterstützt voll und Amazon Elastic MapReduce (EMR) Service, mit dem Sie Zeit auf einem Hadoop-Cluster auf Stundenbasis kaufen kann. Es funktioniert auch mit Ihrem eigenen Hadoop-Cluster.
Installation:
python setup.py install
Einrichten von EMR auf Amazon
Http://aws.amazon.com/:; & nbsp * ein Amazon Web Services-Konto erstellen
& Nbsp; * melden Sie sich für Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Holen Sie sich Ihren Zugang und geheimen Schlüsseln (gehen Sie zu http://aws.amazon.com/account/ und klicken Sie auf "Anmeldeinformationen") und stellen Sie die Umgebungsvariablen $ AWS_ACCESS_KEY_ID und $ AWS_SECRET_ACCESS_KEY entsprechend

Probieren Sie es aus!

# Lokal
python mrjob / examples / mr_word_freq_count.py README.md> zählt
# Auf EMR
python mrjob / examples / mr_word_freq_count.py README.md -r emr> zählt
# Auf dem Hadoop-Cluster
python mrjob / examples / mr_word_freq_count.py README.md -r hadoop> zählt
Erweiterte Konfiguration
Um in anderen Regionen AWS laufen, laden Sie Ihre Quellbaum, führen Sie make, und verwenden Sie andere erweiterte Funktionen mrjob, müssen Sie zum Einrichten mrjob.conf. mrjob sieht für seine conf-Datei:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf überall in Ihrem $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Siehe mrjob.conf.example für weitere Informationen

Eigenschaften .

  • Führen Sie Jobs auf EMR, Ihre eigenen Hadoop Cluster oder lokal (zum Testen).
  • schreiben mehrstufige Arbeitsplätze (eine Karte-Reduzierung Schritt führt in die nächste)
  • Duplizieren Sie Ihre Produktionsumgebung innerhalb Hadoop
  • Laden Sie Ihr Quellbaum und steckte es in Ihrem Job $ PYTHONPATH
  • Führen Sie make und andere Setup-Skripten
  • Stellen Sie die Umgebungsvariablen (z $ TZ)
  • Leicht zu installieren Python-Pakete von Tarballs (EMR nur)
  • Setup transparent durch mrjob.conf Konfigurationsdatei gehandhabt
  • Automatische interpretieren Fehlerprotokolle von EMR
  • SSH-Tunnel, um Hadoop Job Tracker auf EMR
  • Minimal-Setup
  • Um EMR laufen, setzen Sie $ AWS_ACCESS_KEY_ID und $ AWS_SECRET_ACCESS_KEY
  • Um auf Hadoop-Cluster ausgeführt werden, setzen Sie $ HADOOP_HOME

Anforderungen :

  • Python

Ähnliche Software

Makeflow
Makeflow

19 Feb 15

globus-provision
globus-provision

14 Apr 15

cloud-calculator
cloud-calculator

12 May 15

OplogReplay
OplogReplay

20 Feb 15

Andere Software von Entwickler David Marin

doloop
doloop

11 May 15

Kommentare zu mrjob

Kommentare nicht gefunden
Kommentar hinzufügen
Schalten Sie auf die Bilder!