[Spark] 아파치 스파크, Apache Spark 명령어 정리

🐰히히 2021. 5. 2. 22:27

2021. 5. 2. 22:27

스파크를 실행할 때, 메모리와 코어를 설정하여 실행할 수 있다.

x=sc.parallelize([“spark”, ”rdd”, ”example”, “sample”, “example”], 3) 병렬화(transformation)

x=x.map(lambda x:(x,1)) #입력값 : x 출력값: (x,1) 매핑(transformation)

y.collect 집합(action)

[(‘spark’,1), (‘rdd’,1), (‘example’,1), (‘sample’,1), (‘example’,1)]

spark yarn 실행

scala : spark-shell --master yarn --queue queue_name

python : pyspark --master yarn --queue queue_name

--driver-memory 3G : spark driver가 사용할 메모리 default = 1024M

--executor-memory 3G : 각 spark executor가 사용할 메모리양

--executor-cores NUM : 각 spark executor의 코어의 양

작성한 파일 Spark에서 실행시키는 방법

파이썬 파일

spark-submit –master local[num] 파일명.py

(num은 쓰레드 개수,default 값은 2~4개 정도)

자바,스칼라

spark-submit \ --class “SimpleApp”\ --master local[num] /location~/name.jar

728x90

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

data_lab