์คํํฌ๋ฅผ ์คํํ ๋, ๋ฉ๋ชจ๋ฆฌ์ ์ฝ์ด๋ฅผ ์ค์ ํ์ฌ ์คํํ ์ ์๋ค.
x=sc.parallelize([“spark”, ”rdd”, ”example”, “sample”, “example”], 3) ๋ณ๋ ฌํ(transformation)
x=x.map(lambda x:(x,1)) #์ ๋ ฅ๊ฐ : x ์ถ๋ ฅ๊ฐ: (x,1) ๋งคํ(transformation)
y.collect ์งํฉ(action)
[(‘spark’,1), (‘rdd’,1), (‘example’,1), (‘sample’,1), (‘example’,1)]
spark yarn ์คํ
scala : spark-shell --master yarn --queue queue_name
python : pyspark --master yarn --queue queue_name
--driver-memory 3G : spark driver๊ฐ ์ฌ์ฉํ ๋ฉ๋ชจ๋ฆฌ default = 1024M
--executor-memory 3G : ๊ฐ spark executor๊ฐ ์ฌ์ฉํ ๋ฉ๋ชจ๋ฆฌ์
--executor-cores NUM : ๊ฐ spark executor์ ์ฝ์ด์ ์
์์ฑํ ํ์ผ Spark์์ ์คํ์ํค๋ ๋ฐฉ๋ฒ
ํ์ด์ฌ ํ์ผ
spark-submit –master local[num] ํ์ผ๋ช .py
(num์ ์ฐ๋ ๋ ๊ฐ์,default ๊ฐ์ 2~4๊ฐ ์ ๋)
์๋ฐ,์ค์นผ๋ผ
spark-submit \ --class “SimpleApp”\ --master local[num] /location~/name.jar
'BIGDATA > ํ๋ก์์ฝ์์คํ ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ค์น] apache ranger 2.1.0 / ์ํ์น ๋ ์ธ์ 2.1.0 ์ค์น (5) | 2021.07.07 |
---|---|
[Hadoop] Hadoop 3.1.1 ๋ฒ์ ํ ์คํธ / ํ๋ก ํ ์คํธ ๋ฐฉ๋ฒ (0) | 2021.06.28 |
[Hbase] ์ํ์น Hbase ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |
[Hive] ํ์ด๋ธ ๋ช ๋ น์ด ์ ๋ฆฌ/ Hive ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |
[Hadoop] ํ๋ก ๋ช ๋ น์ด ์ ๋ฆฌ / Hadoop ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |