[Spark] ์ํ์น ์คํํฌ, Apache Spark ๋ช ๋ น์ด ์ ๋ฆฌ
์คํํฌ๋ฅผ ์คํํ ๋, ๋ฉ๋ชจ๋ฆฌ์ ์ฝ์ด๋ฅผ ์ค์ ํ์ฌ ์คํํ ์ ์๋ค.
x=sc.parallelize([“spark”, ”rdd”, ”example”, “sample”, “example”], 3) ๋ณ๋ ฌํ(transformation)
x=x.map(lambda x:(x,1)) #์ ๋ ฅ๊ฐ : x ์ถ๋ ฅ๊ฐ: (x,1) ๋งคํ(transformation)
y.collect ์งํฉ(action)
[(‘spark’,1), (‘rdd’,1), (‘example’,1), (‘sample’,1), (‘example’,1)]
spark yarn ์คํ
scala : spark-shell --master yarn --queue queue_name
python : pyspark --master yarn --queue queue_name
--driver-memory 3G : spark driver๊ฐ ์ฌ์ฉํ ๋ฉ๋ชจ๋ฆฌ default = 1024M
--executor-memory 3G : ๊ฐ spark executor๊ฐ ์ฌ์ฉํ ๋ฉ๋ชจ๋ฆฌ์
--executor-cores NUM : ๊ฐ spark executor์ ์ฝ์ด์ ์
์์ฑํ ํ์ผ Spark์์ ์คํ์ํค๋ ๋ฐฉ๋ฒ
ํ์ด์ฌ ํ์ผ
spark-submit –master local[num] ํ์ผ๋ช .py
(num์ ์ฐ๋ ๋ ๊ฐ์,default ๊ฐ์ 2~4๊ฐ ์ ๋)
์๋ฐ,์ค์นผ๋ผ
spark-submit \ --class “SimpleApp”\ --master local[num] /location~/name.jar