• 首页
  • Qt文档
  • DTK文档
  • 玲珑文档
  • apache spark 部署

    Spark 集群安装部署

    运行模式介绍

    Spark Standalone 模式安装部署

    Master配置 首先安装scala

    tar -zxvf scala-2.11.8.tgz#解压scala包
    ln -s scala-2.11.8 scala#创建软连接
    

    配置环境变量 ,在/etc/profile中添加一条文本

    vim/etc/profile
    Export PATH=”$PATH:/root/app/scala/bin”
    

    使修改立即生效

    source /etc/profile
    

    查看scala版本

    scala -version
    

    安装spark:

    tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C /root/opt#解压spark包
    ln -s spark-2.3.0-bin-hadoop2.6 spark#创建软连接
    

    拷贝一份spark-env文件

    cp spark-env.sh.template spark-env.sh
    

    在spark-env.sh中添加

    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    export HADOOP_CONF_DIR=/root/app/hadoop/etc/hadoop
    export HADOOP_HOME=/root/app/hadoop
    SPARK_MASTER_WEBUI_PORT=8888
    SPARK_CONF_DIR=/root/app/spark/conf
    SPARK_LOG_DIT=/root/data/spark/logs
    SPARK_PID_DIR=/root/data/spark/logs
    

    再拷贝一下slaves文件

    cp slaves.template slaves
    

    在slaves文件中添加master和slave的主机名

    Slave配置

    和master一样,复制一份即可

    1、配置ssh免密登录 (都需要配置免密)

    ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    chmod 0600 ~/.ssh/authorized_keys
    #使用命令:ssh localhost 验证是否成功,如果不需要输入密码即可登陆说明成功了。
    

    启动服务

    sbin/start-all.sh
    

    备注:如果提示ssh: Could not resolve hostname xxxx: Name or service not known,在hosts文件中加入解析即可 浏览器访问localhost:8888

    运行WordCount程序

    准备文件

    root@duan01-PC:~/app/spark# mkdir input
    

    在input下创建2个文件1.txt和2.txt,并输入以下内容 hello atguigu hello spark

    启动spark-shell

    root@duan01-PC:~/app/spark# bin/spark-shell
    

    可登陆localhost:4040查看

    运行WordCount程序

    sc.textFile("input").flatMap(.split(" ")).map((,1)).reduceByKey(+).collect 登陆localhost查看程序运行 备注:UOS仓库源内没有可用的spark包,需要在官网下载,支持X86平台