์คํํฌ๋ฅผ ์คํํ ๋, ๋ฉ๋ชจ๋ฆฌ์ ์ฝ์ด๋ฅผ ์ค์ ํ์ฌ ์คํํ ์ ์๋ค.
x=sc.parallelize([โsparkโ, โrddโ, โexampleโ, โsampleโ, โexampleโ], 3) ๋ณ๋ ฌํ(transformation)
x=x.map(lambda x:(x,1)) #์ ๋ ฅ๊ฐ : x ์ถ๋ ฅ๊ฐ: (x,1) ๋งคํ(transformation)
y.collect ์งํฉ(action)
[(โsparkโ,1), (โrddโ,1), (โexampleโ,1), (โsampleโ,1), (โexampleโ,1)]
spark yarn ์คํ
scala : spark-shell --master yarn --queue queue_name
python : pyspark --master yarn --queue queue_name
--driver-memory 3G : spark driver๊ฐ ์ฌ์ฉํ ๋ฉ๋ชจ๋ฆฌ default = 1024M
--executor-memory 3G : ๊ฐ spark executor๊ฐ ์ฌ์ฉํ ๋ฉ๋ชจ๋ฆฌ์
--executor-cores NUM : ๊ฐ spark executor์ ์ฝ์ด์ ์
์์ฑํ ํ์ผ Spark์์ ์คํ์ํค๋ ๋ฐฉ๋ฒ
ํ์ด์ฌ ํ์ผ
spark-submit โmaster local[num] ํ์ผ๋ช .py
(num์ ์ฐ๋ ๋ ๊ฐ์,default ๊ฐ์ 2~4๊ฐ ์ ๋)
์๋ฐ,์ค์นผ๋ผ
spark-submit \ --class โSimpleAppโ\ --master local[num] /location~/name.jar

'BIGDATA > ํ๋ก์์ฝ์์คํ ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ค์น] apache ranger 2.1.0 / ์ํ์น ๋ ์ธ์ 2.1.0 ์ค์น (5) | 2021.07.07 |
---|---|
[Hadoop] Hadoop 3.1.1 ๋ฒ์ ํ ์คํธ / ํ๋ก ํ ์คํธ ๋ฐฉ๋ฒ (0) | 2021.06.28 |
[Hbase] ์ํ์น Hbase ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |
[Hive] ํ์ด๋ธ ๋ช ๋ น์ด ์ ๋ฆฌ/ Hive ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |
[Hadoop] ํ๋ก ๋ช ๋ น์ด ์ ๋ฆฌ / Hadoop ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |