์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CLF-C02
- BIGDATA
- ๋ฆฟ์ฝ๋
- ์ค์๋ธ ์ค์น
- elastic stack
- ํด ์ค์น
- hadoop
- Apache spark
- ํ์ด๋ธ
- ์ฑ๊ธ์๋ฒ
- ์ค์นผ๋ผ ๋ถ
- HBase
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ๋ฆฌ๋ ์ค
- aws ccp
- ํ๋ก์ค์น
- LeetCode
- rpmbuild
- ํ๋ก์์ฝ์์คํ
- ํ๋ก
- airflow
- ๋น ๋ฐ์ดํฐ
- ์ค์๋ธ
- ์๋ผ์คํฑ์์น
- ansible
- kudu
- ์ํ์น ์คํํฌ
- ๋ฆฌ๋ ์ค RPM
- ์คํํฌ
- standalone
- Today
- Total
๋ชฉ๋ก๋น ๋ฐ์ดํฐ (18)
data_lab
๋น ๋ฐ์ดํฐ ๋ถ์ผ ์ค ๋ฐ์ดํฐ์์ง๋์ด๋ง์ ๊ดํ ์ฑ ๋ ์ถ๊ฐ์ด ๋ง์ด ๋์์ต๋๋ค. ๋ฆฌ๋ทฐํ ์ฑ ์ ํ๋น๋ฏธ๋์ด์ "๊ฒฌ๊ณ ํ๋ฐ์ดํฐ์์ง๋์ด๋ง"์ ๋๋ค. https://www.yes24.com/Product/Goods/119712582 ๊ฒฌ๊ณ ํ ๋ฐ์ดํฐ ์์ง๋์ด๋ง - YES24 ์ค์ฉ์ ์ธ ๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ์ธ๊ณ๋ก ์ด๋๋ ์ต๊ณ ์ ์๋ด์!๊ณ ๊ฐ ์๊ตฌ ์ฌํญ์ ๋ง๋ ์์คํ ์ ๊ณํํ๊ณ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ๋ฐ์ดํฐ ์์ง๋์ด๋ง ๋ถ์ผ๊ฐ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ฉด์ ๋ง์ ์ํํธ์จ์ด ์์ง๋์ด www.yes24.com ์์ ์ ๋ชฉ์ ์ค๋ผ์ผ๋ฆฌ์ฌ์ The Fundamental of Data Engineering ์ ๋๋ค. ํด๋น ์ฑ ์ ๋ฐ์ดํฐ์์ง๋์ด์๊ฒ ์ถ์ฒ์ด ๋ง์ ์ฑ ์ ๋๋ค. ๊ผญ ๋ฐ์ดํฐ์์ง๋์ด๊ฐ ์๋๋๋ผ๋ ํด๋น ์ง๋ฌด์ ๊ด์ฌ์ด์๊ฑฐ๋ ๋น ๋ฐ์ดํฐ๋ฅผ ๋์ ํ๊ฑฐ๋ ๊ด์ฌ์ด ์๋ ๋ถ์๊ฒ ์ถ์ฒํฉ๋๋ค...
์ค์นผ๋ผ ํด๋์ค์ ๊ดํด ์ ๋ฆฌํจ https://docs.scala-lang.org/overviews/scala-book/classes.html ๊ธฐ๋ณธ ํด๋์ค ์์ฑ์ class Person(var firstName: String, var lastName: String) val p = new Person("Bill", "Panner") println(p.firstName + " " + p.lastName) //Bill Panner p.firstName = "William" p.lastName = "Bernheim" val๋ ํ๋๋ฅผ ์ฝ๊ธฐ ์ ์ฉ์ผ๋ก ๋ง๋ฆ val(value) : ๋ณ๊ฒฝํ ์ ์์ var(variable) : ๋ณ๊ฒฝํ ์ ์์ ์ค์นผ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด ์งํฅ ํ๋ก๊ทธ๋๋ฐ ์ฝ๋๋ฅผ ์์ฑํ๋ ๊ฒฝ์ฐ var ํ๋๋ฅผ ๋ณ๊ฒฝํ ..
์ค์นผ๋ผ์ ๋ง ์ค์นผ๋ผ ํน์ง ์ ์ ํ์ ๊ตฌ๋ฌธ ๊ฐ๊ฒฐํ๋ฉฐ ์ฝ๊ธฐ ์ฌ์ ๊ฐ์ฒด ์งํฅ ํ๋ก๊ทธ๋๋ฐ ๊ณผ ํจ์ํ ํ๋ก๊ทธ๋๋ฐ ํจ๋ฌ๋ค์ ์ง์ ์ ๊ตํ ์ ํ ์ถ๋ก ์์คํ ? JVM์์ ์คํ๋๋ ํด๋์คํ์ผ ์์ฑ ์๋ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ฌ์ฉํ๊ธฐ ์ฌ์ Hello, World Hello.scala object Hello expends App { println("Hello, World") } ๋ ๊ฐ์ง ์ ํ์ ๋ณ์ val : ๋ถ๋ณ ๋ณ์ - ์๋ฐ์์ final๊ณผ ๊ฐ์ var : ๊ฐ๋ณ ๋ณ์ - ํน๋ณํ ์ด์ ๊ฐ ์์ ๋๋ง ์ฌ์ฉ ๋ณ์ ์ ํ ์ ์ธ ์ ํ์ ์ ์ธํ์ง ์๊ณ ๋ณ์๋ฅผ ๋ง๋ฆ val x = 1 val s = "string" val p = new Persion("Regina") ๋ฐ์ดํฐ ์ ํ์ ์ ์ถํ ์ ์์ผ๋ฉฐ, ์ฝ๋ ๊ฐ๊ฒฐํ๊ฒ ์ ์งํ๋๋ฐ ๋์๋จ ์ ํ ๋ช ์ํ ์..
HUE ๋ค์ด๋ก๋ ์ํ๋ ํด ์ ํํ์ฌ ๋ค์ด๋ก๋ https://github.com/cloudera/hue/tags GitHub - cloudera/hue: Open source SQL Query Assistant service for Databases/Warehouses Open source SQL Query Assistant service for Databases/Warehouses - GitHub - cloudera/hue: Open source SQL Query Assistant service for Databases/Warehouses github.com Dependency ๋ฌดํ๊ณ ํต mvn, database ์ค์นํ ๊ธฐ๋ณธ์ ์ธ ์ธํ ์ ์๋ฃ (hue ๋ฐ์ดํฐ ๋ฒ ์ด์ค์ ์ ์ ์์ฑ ์์ ๊น์ง !) python p..
์คํํฌ๋ฅผ ์คํํ ๋, ๋ฉ๋ชจ๋ฆฌ์ ์ฝ์ด๋ฅผ ์ค์ ํ์ฌ ์คํํ ์ ์๋ค. x=sc.parallelize([โsparkโ, โrddโ, โexampleโ, โsampleโ, โexampleโ], 3) ๋ณ๋ ฌํ(transformation) x=x.map(lambda x:(x,1)) #์ ๋ ฅ๊ฐ : x ์ถ๋ ฅ๊ฐ: (x,1) ๋งคํ(transformation) y.collect ์งํฉ(action) [(โsparkโ,1), (โrddโ,1), (โexampleโ,1), (โsampleโ,1), (โexampleโ,1)] spark yarn ์คํ scala : spark-shell --master yarn --queue queue_name python : pyspark --master yarn --queue queue_name --..
NoSQL ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ด๋ค. ํ๋ก์ ๋ฐ์ดํฐ๋ฅผ NoSQL (Key, value) ์์ผ๋ก ์ ์ฅํจ $ /hadoop/sbin/start-all.sh $ ./start-hbase.sh $ ./hbase shell ### hbase test ### create 'test', 'cf' list 'test' describe 'test' put 'test', 'row1', 'cf:a', 'value1' put 'test', 'row2', 'cf:b', 'value2' put 'test', 'row3', 'cf:c', 'value3' scan 'test' ------------------------ ROW COLUMN+CELL row1 column=cf:a, timestamp=1612833812641, value=..
HIVE ํ ์ด๋ธ ๊ด๋ฆฌ HIVE ํ ์ด๋ธ 1. ๋ฐ์ดํฐ๋ฅผ HIVE ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๋ฉด? HiveQL, ํผ๊ทธ, ์คํํฌ ๋ฑ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ > ์ํธ์ด์ ๋ณด์ฅ 2. HIVE๊ฐ ์ง์ํ๋ ํ ์ด๋ธ ์ข ๋ฅ - ๋ด๋ถ ํ ์ด๋ธ : HIVE๊ฐ ๊ด๋ฆฌ, HIVE/ ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค์ ์ ์ฅ, ๋ด๋ถํ ์ด๋ธ ์ญ์ ์ ๋ฉํ์ ์์ ๋ฐ์ดํฐ๊น์ง ์ญ์ ๋จ, ORC๊ฐ์ ํ์์ผ๋ก ์ ์ฅ๋์ด ๋น๊ต์ ๋น ๋ฅธ ์ฑ๋ฅ - ์ธ๋ถ ํ ์ด๋ธ : ํ์ด๋ธ๊ฐ ์ง์ ๊ด๋ฆฌํ์ง ์์, ํ์ด๋ธ์ ๋ฉํ์ ์๋ง ์ฌ์ฉํ์ฌ ์์ ํํ๋ก ์ ์ฅ๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๊ทผ ์ธ๋ถ ํ ์ด๋ธ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํด๋ ํ ์ด๋ธ ๋ฉํ ์ ์๋ง ์ญ์ ๋๊ณ ๋ฐ์ดํฐ๋ ์ ์ง๋จ. ํด๋น ๋ฐ์ดํฐ๊ฐ ํ์ด๋ธ ์ธ๋ถ์ ์ ์ฌ ๋์ด์๊ฑฐ๋ ํ ์ด๋ธ์ด ์ญ์ ๋๋๋ผ๋ ์๋ณธ ๋ฐ์ดํฐ๊ฐ ๋จ์ ์์ด์ผํ ๋ ์ฌ์ฉ 3.csv ํ์ผ์ ํ์ด๋ธ ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๊ธฐ 1...
ํ๋ก ๋ฒ์ 3.1 ๊ธฐ์ค์ผ๋ก ๊ฐ์ธ์ ์ผ๋ก ์ ๋ฆฌํ ๋ช ๋ น์ด์ด๋ค. ๊ธฐ์กด์ ๋ฆฌ๋ ์ค์ ๋ํด ๊ณต๋ถํ๋ค๋ฉด ํ๋ก ๋ช ๋ น์ด๋ฅผ ๊ณต๋ถํ๋๋ฐ์ ์์ฒญ ์ด๋ ต์ง์๋ค. 1.hdfs dfs โcat /tmp/Sample2.txt #ํ์ผ ์ฝ๊ธฐ 2.hdfs dfs โchecksum /tmp/Sample2.txt ๋ฐ์ดํฐ๋ฌด๊ฒฐ์ฑ 3.hdfs dfs โchgrp kyn /tmp/Sample2.txt 4.hdfs dfs โchown kyn /tmp/Sample2.txt 5.hdfs dfs โchmod โR 777 /tmp/Sample2.txt 6.hdfs dfs โcopyFromLocal /tmp/Sample2.txt put์ ์ฌ 7.hdfs dfs โcopyToLocal /tmp/Sample2.txt 8.hdfs dfs โcount /tmp/Sampl..
ํ๋ก์ ๋ฌธ์ ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์คํํฌ ์๊น ํ๋ก์ ๋ฌธ์ ๋ 1. ๋ฐ๋ณต์ ์ธ ์์ ์๋ ๋นํจ์จ์ ์ 2. ๋งต๋ฆฌ๋์ค์ ๋คํธ์ํฌ ํธ๋ํฝ์ผ๋ก ์ธํด ์ฑ๋ฅ์ ํ๋จ. ์คํํฌ๋? ๊ธฐ์กด ๋งต๋ฆฌ๋์ค์ ๋์คํฌ ์ ์ถ๋ ฅ์ ๋ณด์ํ์ฌ ์ธ ๋ฉ๋ชจ๋ฆฌ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋ ์ ์ํฌ ์ด๋ค. ์ธ ๋ฉ๋ชจ๋ฆฌ - ์ต์ด ๋ฐ์ดํฐ ์ ๋ ฅ, ์ถ๋ ฅ์๋ง ๋์คํฌ์ ์์ฑํจ์ผ๋ก ๋คํธ์ํฌ ํธ๋ํฝ ๋ฐ์ ๋ฎ์ถค, ์ค๊ฐ ๊ฒฐ๊ณผ๋ ๋ณ๋ ฌ์ฒ๋ฆฌํจ ์คํํฌ์ ์ฃผ์๊ธฐ๋ฅ - ์คํํฌ SQL, ์คํํฌ ์คํธ๋ฆฌ๋ฐ, ์คํํฌ MLlib, ์คํํฌ GraphX, ์คํํฌ ์ฝ์ด, ์คํํฌ ์์ ์ฒ๋ฆฌ ์คํํฌ ์ํคํ ์ฒ ๋ ธ๋๋งค๋์ ์์ ๋๋ผ์ด๋ฒ ํ๋ก๊ทธ๋จ์ด ์์. 1. ๋๋ผ์ด๋ฒ ํ๋ก๊ทธ๋จ์ด SparkContext ์ธ์คํด์ค ์์ฑํจ(์ด๋ yarn๊ณผ ์ฐ๊ฒฐ) 2. executors ๋ฅผ ์๊ตฌ 3. ์ ํ๋ฆฌ์ผ์ด์ ์ฝ๋๋ฅผ executors์ ๋ณด..
์ํ์น ์์ด๋ธ๋ก๋ ? - ํน์ ์ธ์ด์ ์ข ์๋์ง ์๋ ์ธ์ด ์ค๋ฆฝ์ ๋ฐ์ดํฐ ์ง๋ ฌํ ์์คํ - ํ๋ก Writable์ ์ฃผ์ ๋จ์ ์ธ ์ธ์ด ์ด์์ฑ ํด๊ฒฐ ์ํด ์๊ฒจ๋จ ์ํ์น ์ฐ๋ฆฌํํธ, ๊ตฌ๊ธ ํ๋กํ ์ฝ ๋ฒํผ์ ๋ค๋ฅธ ์ฐจ๋ณํ๋ ํน์ฑ๊ฐ์ง๊ณ ์์ ๋ฐ์ดํฐ๋ ๋ค๋ฅธ ์์คํ ๊ณผ ๋น์ทํ๊ฒ ์ธ์ด ๋ ๋ฆฝ ์คํค๋ง๋ก ๊ธฐ์ ๋จ ์์ด๋ธ๋ก์์ ์ฝ๋ ์์ฑ์ ์ ํ์ฌํญ์ ๋ฐ์ดํฐ๋ฅผ ์ฝ๊ณ ์ฐ๋ ์์ ์ ์คํค๋ง๋ ํญ์ ์กด์ฌํ๋ค ๊ฐ์ ํจ - ๋งค์ฐ ๊ฐ๊ฒฐํ ์ฝ๋ฉ์ด ๊ฐ๋ฅ ์คํค๋ง์ ์์ฑ JSON ๋ฐ์ดํฐ๋ ๋ฐ์ด๋๋ฆฌ ํฌ๋งท์ผ๋ก ์ธ์ฝ๋ฉ ์์ด๋ธ๋ก ๋ช ์ธ - ๋ชจ๋ ๊ตฌํ์ฒด๊ฐ ์ง์ํด์ผ ํ๋ ๋ฒ์ด๋๋ฆฌ ํฌ๋งท์ ๋ํ ์์ธํ ๋ด์ฉ API - ์์ด๋ธ๋ก ๋ช ์ธ์์ ๋น ์ ธ์๋ ๋ด์ฉ์. ๊ฐ ํน์ ์ธ์ด์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์์ฑ๋จ. ์ธ์ด์ ๋ฐ์ธ๋ฉ ํธ์์ฑ ๋์ด๊ณ ์ํธ์ด์์ฑ ์ ํ ๋ฌธ์ ํด๊ฒฐ๋จ ์คํค๋งํด์ - ์ ์คํ๊ฒ ์ ์๋..