spark zeppelin 예제

학습 스파크 SQL 전자 필기장이 끝나면 셸 인터프리터를 학습 스파크 SQL 노트북에 바인딩합니다. 전자 필기장 내의 모든 지침을 따라 자습서를 완료합니다. 위의 블로그에 지정된 단계에 따라 Zeppelin을 설치합니다. 이제 Spark와 통합하려면 $zeppelin_HOME/conf 디렉터리에 있는 zeppelin-env.sh 파일을 열고 아래 지정된 구성을 제공합니다. 4) 제플린 사이트.xml 템플릿의 복사본을 만들고 zeppelin.site.xml로 이름을 바꿉니다. (이 안에 당신은 당신의 zeppelin.server.port를 구성 할 수 있습니다, 기본적으로 8080에서 실행) 다음 예제에서는 JSON 파일을 스파크 DataFrame에 로드한 다음 표시합니다: 위의 spark-defaults.conf 파일에 액세스할 수 있는 권한이 없는 경우 선택적으로 인터프리터를 통해 스파크 인터프리터 설정에 위의 줄을 추가할 수 있습니다. 제플린 UI의 탭. conf/zeppelin-env.sh에서 SPARK_HOME 환경 변수를 스파크 설치 경로로 내보냅니다. 데이터 집합은 분산 된 데이터 컬렉션입니다. 데이터 집합은 강력한 입력, 강력한 람다 함수를 사용할 수 있는 기능의 이점을 제공하며, Spark SQL의 최적화된 실행 엔진의 이점을 제공합니다. 데이터 집합은 JVM 개체에서 생성한 다음 기능 변환(맵, flatMap, 필터 등)을 사용하여 조작할 수 있습니다.

데이터 집합 API는 스칼라및 자바에서 사용할 수 있습니다. 스칼라/파이썬/R 환경은 동일한 스파크컨텍스트, SQLContext 및 ZeppelinContext 인스턴스를 공유합니다. 참고: Spark 셸의 Spark-scala 코드는 대/소문자를 구분하지 않지만 Zeppelin을 통해 실행되는 동안 코드와 변수 이름은 대/소문자를 구분합니다. SPARK_HOME을 내보내지 않고도 포함 된 버전의 Spark와 함께 로컬 모드에서 실행됩니다. 포함된 버전은 빌드 프로필에 따라 다를 수 있습니다. 아파치 프로젝트 스파크, Flink, 하이브, 점화, 렌즈 및 타호와 같은 많은 다른 오픈 소스, 빅 데이터 도구와 통합합니다. 편집을 클릭하여 요구 사항에 따라 구성을 변경합니다. 기본적으로 Zeppelin은 스파크 마스터를 로컬로 설정합니다. 마스터를 변경하려는 경우 이러한 Spark 인터프리터 구성을 통해 변경할 수 있습니다. 저장을 클릭하고 인터프리터를 다시 시작합니다. 다음 SparkR 코드 예제는 테이블을 만들고 HiveQL을 사용하여 쿼리합니다.

Les commentaires sont fermés.