์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- hadoop
- HBase
- ๋ฆฌ๋ ์ค
- ์๋ผ์คํฑ์์น
- aws ccp
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ์ค์๋ธ
- ๋ฆฌ๋ ์ค RPM
- LeetCode
- elastic stack
- ๋น ๋ฐ์ดํฐ
- ๋ฆฟ์ฝ๋
- ํ๋ก์์ฝ์์คํ
- ์คํํฌ
- ํ๋ก์ค์น
- standalone
- ํด ์ค์น
- ์ฑ๊ธ์๋ฒ
- rpmbuild
- ํ์ด๋ธ
- CLF-C02
- ์ค์๋ธ ์ค์น
- BIGDATA
- Apache spark
- ansible
- ํ๋ก
- kudu
- airflow
- ์ค์นผ๋ผ ๋ถ
- ์ํ์น ์คํํฌ
- Today
- Total
data_lab
[Spark] ์ํ์น ์คํํฌ, Apache Spark ๋ช ๋ น์ด ์ ๋ฆฌ ๋ณธ๋ฌธ
[Spark] ์ํ์น ์คํํฌ, Apache Spark ๋ช ๋ น์ด ์ ๋ฆฌ
๐ฐํํ 2021. 5. 2. 22:27์คํํฌ๋ฅผ ์คํํ ๋, ๋ฉ๋ชจ๋ฆฌ์ ์ฝ์ด๋ฅผ ์ค์ ํ์ฌ ์คํํ ์ ์๋ค.
x=sc.parallelize([“spark”, ”rdd”, ”example”, “sample”, “example”], 3) ๋ณ๋ ฌํ(transformation)
x=x.map(lambda x:(x,1)) #์ ๋ ฅ๊ฐ : x ์ถ๋ ฅ๊ฐ: (x,1) ๋งคํ(transformation)
y.collect ์งํฉ(action)
[(‘spark’,1), (‘rdd’,1), (‘example’,1), (‘sample’,1), (‘example’,1)]
spark yarn ์คํ
scala : spark-shell --master yarn --queue queue_name
python : pyspark --master yarn --queue queue_name
--driver-memory 3G : spark driver๊ฐ ์ฌ์ฉํ ๋ฉ๋ชจ๋ฆฌ default = 1024M
--executor-memory 3G : ๊ฐ spark executor๊ฐ ์ฌ์ฉํ ๋ฉ๋ชจ๋ฆฌ์
--executor-cores NUM : ๊ฐ spark executor์ ์ฝ์ด์ ์
์์ฑํ ํ์ผ Spark์์ ์คํ์ํค๋ ๋ฐฉ๋ฒ
ํ์ด์ฌ ํ์ผ
spark-submit –master local[num] ํ์ผ๋ช .py
(num์ ์ฐ๋ ๋ ๊ฐ์,default ๊ฐ์ 2~4๊ฐ ์ ๋)
์๋ฐ,์ค์นผ๋ผ
spark-submit \ --class “SimpleApp”\ --master local[num] /location~/name.jar
'BIGDATA > ํ๋ก์์ฝ์์คํ ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ค์น] apache ranger 2.1.0 / ์ํ์น ๋ ์ธ์ 2.1.0 ์ค์น (5) | 2021.07.07 |
---|---|
[Hadoop] Hadoop 3.1.1 ๋ฒ์ ํ ์คํธ / ํ๋ก ํ ์คํธ ๋ฐฉ๋ฒ (0) | 2021.06.28 |
[Hbase] ์ํ์น Hbase ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |
[Hive] ํ์ด๋ธ ๋ช ๋ น์ด ์ ๋ฆฌ/ Hive ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |
[Hadoop] ํ๋ก ๋ช ๋ น์ด ์ ๋ฆฌ / Hadoop ๋ช ๋ น์ด ์ ๋ฆฌ (0) | 2021.05.02 |