mrjob ist ein Python-Modul, die Sie schreiben und ausführen Hadoop Streaming Arbeitsplätze beiträgt.
mrjob unterstützt voll und Amazon Elastic MapReduce (EMR) Service, mit dem Sie Zeit auf einem Hadoop-Cluster auf Stundenbasis kaufen kann. Es funktioniert auch mit Ihrem eigenen Hadoop-Cluster.
Installation:
python setup.py install
Einrichten von EMR auf Amazon
Http://aws.amazon.com/:; & nbsp * ein Amazon Web Services-Konto erstellen
& Nbsp; * melden Sie sich für Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Holen Sie sich Ihren Zugang und geheimen Schlüsseln (gehen Sie zu http://aws.amazon.com/account/ und klicken Sie auf "Anmeldeinformationen") und stellen Sie die Umgebungsvariablen $ AWS_ACCESS_KEY_ID und $ AWS_SECRET_ACCESS_KEY entsprechend
Probieren Sie es aus!
# Lokal
python mrjob / examples / mr_word_freq_count.py README.md> zählt
# Auf EMR
python mrjob / examples / mr_word_freq_count.py README.md -r emr> zählt
# Auf dem Hadoop-Cluster
python mrjob / examples / mr_word_freq_count.py README.md -r hadoop> zählt
Erweiterte Konfiguration
Um in anderen Regionen AWS laufen, laden Sie Ihre Quellbaum, führen Sie make, und verwenden Sie andere erweiterte Funktionen mrjob, müssen Sie zum Einrichten mrjob.conf. mrjob sieht für seine conf-Datei:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf überall in Ihrem $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Siehe mrjob.conf.example für weitere Informationen
Eigenschaften .
- Führen Sie Jobs auf EMR, Ihre eigenen Hadoop Cluster oder lokal (zum Testen).
- schreiben mehrstufige Arbeitsplätze (eine Karte-Reduzierung Schritt führt in die nächste)
- Duplizieren Sie Ihre Produktionsumgebung innerhalb Hadoop
- Laden Sie Ihr Quellbaum und steckte es in Ihrem Job $ PYTHONPATH
- Führen Sie make und andere Setup-Skripten
- Stellen Sie die Umgebungsvariablen (z $ TZ)
- Leicht zu installieren Python-Pakete von Tarballs (EMR nur)
- Setup transparent durch mrjob.conf Konfigurationsdatei gehandhabt
- Automatische interpretieren Fehlerprotokolle von EMR
- SSH-Tunnel, um Hadoop Job Tracker auf EMR
- Minimal-Setup
- Um EMR laufen, setzen Sie $ AWS_ACCESS_KEY_ID und $ AWS_SECRET_ACCESS_KEY
- Um auf Hadoop-Cluster ausgeführt werden, setzen Sie $ HADOOP_HOME
Anforderungen :
- Python
Kommentare nicht gefunden