PiFlow是一款非常強大的大數據流水線系統,混合型科學大數據流水線系統,這款系統將數據采集、儲存的等環節封裝成組件,軟件簡單使用容易,提供100+的數據處理組件,如果有需要朋友的可以來本站下載試試。
軟件特色
簡單易用。
可視化配置流水線。
監控流水線。
查看流水線日志。
檢查點功能。
擴展性強:
支持自定義開發數據處理組件。
性能優越:
基于分布式計算引擎Spark開發。
功能強大:
提供100+的數據處理組件。
包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等。
集成了微生物領域的相關算法。
使用方法
解壓piflow-server-v0.9.tar.gz。
tar -zxvf piflow-server-v0.9.tar.gz。
編輯配置文件config.properties。
運行、停止、重啟PiFlow Server。
start.sh、stop.sh、 restart.sh、 status.sh。
測試 PiFlow Server。
設置環境變量 PIFLOW_HOME。
vim /etc/profile。
export PIFLOW_HOME=/yourPiflowPath/bin。
export PATH=PATH:PIFLOW_HOME/bin。
運行如下命令。
piflow flow start example/mockDataFlow.json。
piflow flow stop appID。
piflow flow info appID。
piflow flow log appID。
piflow flowGroup start example/mockDataGroup.json。
piflow flowGroup stop groupId。
piflow flowGroup info groupId。
如何配置config.properties。
#spark and yarn config。
spark.master=yarn。
spark.deploy.mode=cluster。
#hdfs default file system。
fs.defaultFS=hdfs://10.0.86.191:9000。
#yarn resourcemanager.hostname。
yarn.resourcemanager.hostname=10.0.86.191。
#if you want to use hive, set hive metastore uris。
#hive.metastore.uris=thrift://10.0.88.71:9083。
#show data in log, set 0 if you do not want to show data in logs。
data.show=10。
#server port
server.port=8002
#h2db port
h2.port=50002