์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ์ค์๋ธ ์ค์น
- ๋ฆฌ๋ ์ค
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ์ค์๋ธ
- HBase
- ์๋ผ์คํฑ์์น
- LeetCode
- rpmbuild
- ํด ์ค์น
- ํ๋ก์์ฝ์์คํ
- ์ฑ๊ธ์๋ฒ
- ๋ฆฌ๋ ์ค RPM
- Apache spark
- hadoop
- BIGDATA
- ๋ฆฟ์ฝ๋
- ํ์ด๋ธ
- CLF-C02
- aws ccp
- ์ํ์น ์คํํฌ
- ํ๋ก
- standalone
- airflow
- ํ๋ก์ค์น
- elastic stack
- ์ค์นผ๋ผ ๋ถ
- ansible
- kudu
- ์คํํฌ
- ๋น ๋ฐ์ดํฐ
- Today
- Total
๋ชฉ๋กApache spark (2)
data_lab
๋ฐ์ดํฐ ๋ธ๋ฆญ์ค - spark ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ถ์ ํ๋ซํผ (ex: aws EMR) ๋ธํ ๋ ์ดํฌ - Databricks Lakehouse ํ๋ซํผ์ ๋ฐ์ดํฐ ๋ฐ ํ ์ด๋ธ์ ์ ์ฅํ๊ธฐ ์ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ต์ ํ๋ ์คํ ๋ฆฌ์ง ๊ณ์ธต ํ์ผ๊ธฐ๋ฐ ํธ๋์ญ์ ๋ก๊ทธ๋ฅผ ์ฌ์ฉํด parquet ๋ฐ์ดํฐ ํ์ผ์ ํ์ฅ โ ACID ํธ๋์ญ์ ๋ฐ ์ค์ผ์ผ๋ง ๊ฐ๋ฅํ ๋ฉํ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ผ๊ด ์ฒ๋ฆฌ ๋ฐ ์คํธ๋ฆฌ๋ฐ ์์ ๋ชจ๋์ ๋จ์ผ ๋ฐ์ดํฐ ๋ณต์ฌ๋ณธ์ ์ฝ๊ฒ ์ฌ์ฉํ๊ณ ๋๊ท๋ชจ๋ก ์ฆ๋ถ ์ฒ๋ฆฌ๋ฅผ ์ ๊ณต ๋ฐ์ดํฐ ๋ธ๋ฆญ์ค์ ๊ธฐ๋ณธ ์คํ ๋ฆฌ์ง ํ์์ ๋ธํ๋ ์ดํฌ SQL ๋ฌธ๋ฒ https://learn.microsoft.com/ko-kr/azure/databricks/sql/language-manual/#delta-lake-statements Python API https://docs.del..
์คํํฌ๋ฅผ ์คํํ ๋, ๋ฉ๋ชจ๋ฆฌ์ ์ฝ์ด๋ฅผ ์ค์ ํ์ฌ ์คํํ ์ ์๋ค. x=sc.parallelize([โsparkโ, โrddโ, โexampleโ, โsampleโ, โexampleโ], 3) ๋ณ๋ ฌํ(transformation) x=x.map(lambda x:(x,1)) #์ ๋ ฅ๊ฐ : x ์ถ๋ ฅ๊ฐ: (x,1) ๋งคํ(transformation) y.collect ์งํฉ(action) [(โsparkโ,1), (โrddโ,1), (โexampleโ,1), (โsampleโ,1), (โexampleโ,1)] spark yarn ์คํ scala : spark-shell --master yarn --queue queue_name python : pyspark --master yarn --queue queue_name --..