์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ์ฑ๊ธ์๋ฒ
- ์ค์๋ธ ์ค์น
- ํ์ด๋ธ
- ํ๋ก์์ฝ์์คํ
- ์๋ผ์คํฑ์์น
- ํ๋ก
- CLF-C02
- ํด ์ค์น
- ๋ฆฌ๋ ์ค
- aws ccp
- ๋ฆฌ๋ ์ค RPM
- ansible
- elastic stack
- HBase
- standalone
- hadoop
- kudu
- ์ค์นผ๋ผ ๋ถ
- rpmbuild
- ์ค์๋ธ
- ์ํ์น ์คํํฌ
- Apache spark
- ์คํํฌ
- ํ๋ก์ค์น
- BIGDATA
- LeetCode
- ๋ฆฟ์ฝ๋
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- airflow
- ๋น ๋ฐ์ดํฐ
- Today
- Total
๋ชฉ๋กBIGDATA/ํ๋ก์์ฝ์์คํ (34)
data_lab
์์คํ ๊ฐ์ ๋ฐ์ดํฐ ํ๋ฆ์ ์๋ํ ํ๋ค. Web server - NiFi์ HTTP ๊ธฐ๋ฐ ๋ช ๋ น ๋ฐ ์ ์ด API๋ฅผ ํธ์คํ Flow Controller - ์คํํ ํ์ฅ์ ์ค๋ ๋๋ฅผ ์ ๊ณตํ๊ณ ํ์ฅ์ด ์คํํ ๋ฆฌ์์ค๋ฅผ ์์ ํ๋ ์ผ์ ์ ๊ด๋ฆฌ Extension - JVM ๋ด์์ ์๋ํ๊ณ ์คํ FlowFile Repo - NiFi๊ฐ ํ์ฌ ํ๋ฆ์์ ํ์ฑ ์ํ์ธ ์ฃผ์ด์ง FlowFile์ ๋ํด ์๊ณ ์๋ ๊ฒ์ ์ํ๋ฅผ ์ถ์ ํ๋ ๊ณณ Content Repo - ์ฝํ ์ธ ์ ์ฅ์๋ ์ง์ ๋ FlowFile์ ์ค์ ์ฝํ ์ธ ๋ฐ์ดํธ๊ฐ ์๋ ๊ณณ Provenance Repo - ๋ชจ๋ ์ถ์ฒ ์ด๋ฒคํธ ๋ฐ์ดํฐ๊ฐ ์ ์ฅ, ํ๋ฌ๊ทธํ์ด๋ฉฐ ๊ธฐ๋ณธ ๊ตฌํ์ ํ๋ ์ด์์ ๋ฌผ๋ฆฌ์ ๋์คํฌ ๋ณผ๋ฅจ์ ์ฌ์ฉํ๋ ๊ฒ, ์ด๋ฒคํธ ๋ฐ์ดํฐ๊ฐ ์ธ๋ฑ์ฑ ๋๊ณ ๊ฒ์ ๊ฐ๋ฅ NiFi ์ค์น wget h..
์ผ๊ด ์ฒ๋ฆฌ ๊ณ์ธต(์คํ ๋ถํ ๋ฏธ๋ฌ ๊ฒฝ๋ก)์ ๋ค์ด์ค๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์์ ํ์์ผ๋ก ์ ์ฅํ๊ณ ํด๋น ๋ฐ์ดํฐ์ ๋ํด ์ผ๊ด ์ฒ๋ฆฌ๋ฅผ ์ํํฉ๋๋ค. ์ด๋ฌํ ์ฒ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ์ผ๊ด ์ฒ๋ฆฌ ๋ณด๊ธฐ ๋ก ์ ์ฅ๋ฉ๋๋ค. ๋น ๋ฅธ ๋ ์ด์ด(์คํ ๋ถํ ๊ณผ๋ค ๊ฒฝ๋ก)๋ ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ถ์ํฉ๋๋ค. ์ด ๊ณ์ธต์ ์ ํ๋๋ ๋จ์ด์ง์ง๋ง ์งง์ ๋๊ธฐ ์๊ฐ์ ์ ๊ณตํ๋๋ก ๋์์ธ๋์์ต๋๋ค. hot path - ๋น ๋ฅธ๋ ์ด์ด -> ์ค์๊ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํจ์ผ๋ก ์คํ์ด ๋น ๋ฅด๋ ๋ถํ๊ฐ ์ฌ ์ ์๋ค. cold path - ์ผ๊ด์ฒ๋ฆฌ๊ณ์ธต -> ๋์ ์ ํ๋์ ๊ณ์ฐ์ด ํ์ํ ์์ ์ ์ํ -----------์์ฑ ์ค --------------- ์ค์ ๋น ๋ฐ์ดํฐ ํ๋ซํผ์์ ์ด๋ค ๋ฐฉ์์ผ์ง? ์ํคํ ์ณ ์ฐพ์๋ณด๊ธฐ https://docs.microsoft.com/ko-kr/azure/archit..
Name space -๋๋ ํฐ๋ฆฌ, ํ์ผ, ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ -ํ์ผ ๋ฐ ๋๋ ํฐ๋ฆฌ ๋ง๋ค๊ธฐ, ์ญ์ , ์์ ๋ฐ ๋ชฉ๋ก ์ง์ ๊ณผ ๊ฐ์ ๋ค์์คํ์ด์ค ๊ด๋ จ ๋ชจ๋ ํ์ผ ์์คํ ์์ ์ ์ง์ Block Storage Service Block Management (Namenode์์ ์ํ) -๋ฑ๋ก ๋ฐ ์ฃผ๊ธฐ์ ์ธ ํํธ๋นํธ๋ฅผ ์ฒ๋ฆฌํ์ฌ ๋ฐ์ดํฐ๋ ธ๋ ํด๋ฌ์คํฐ ๊ตฌ์ฑ์ ์๊ฒฉ์ ์ ๊ณต -๋ธ๋ก ๋ณด๊ณ ์๋ฅผ ์ฒ๋ฆฌํ๊ณ ๋ธ๋ก ์์น๋ฅผ ์ ์ง -๋ธ๋ก ์์น ์์ฑ, ์ญ์ , ์์ ๋ฐ ๊ฐ์ ธ์ค๊ธฐ ๋ฑ์ ๋ธ๋ก ๊ด๋ จ ์์ ์ ์ง์ -๋ณต์ ๋ณธ ๋ฐฐ์น๋ฅผ ๊ด๋ฆฌํ๊ณ , ๋ณต์ ๋์ง ์์ ๋ธ๋ก์ ๋ํ ๋ณต์ ๋ฅผ ์ฐจ๋จํ๋ฉฐ, ๊ณผ๋ํ๊ฒ ๋ณต์ ๋ ๋ธ๋ก์ ์ญ์ Storage -๋ก์ปฌ ํ์ผ ์์คํ ์ ๋ธ๋ก์ ์ ์ฅํ๊ณ ์ฝ๊ธฐ/์ฐ๊ธฐ ์ก์ธ์ค๋ฅผ ํ์ฉํจ์ผ๋ก์จ ๋ฐ์ดํฐ๋ ธ๋์ ์ํด ์ ๊ณต HDFS Federation์ ์ฌ๋ฌ ๋ค์๋ ธ๋/๋ค..
spark ์์ ๊ด๋ฆฌ Apache Livy๋ REST ์ธํฐํ์ด์ค๋ฅผ ํตํด Spark ํด๋ฌ์คํฐ์ ์ฝ๊ฒ ์ํธ ์์ฉํ ์ ์๋ ์๋น์ค์ ๋๋ค. ๊ฐ๋จํ REST ์ธํฐํ์ด์ค ๋๋ RPC ํด๋ผ์ด์ธํธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด Spark ์์ ๋๋ Spark ์ฝ๋ ์ค๋ํซ, ๋๊ธฐ ๋๋ ๋น๋๊ธฐ ๊ฒฐ๊ณผ ๊ฒ์, Spark ์ปจํ ์คํธ ๊ด๋ฆฌ๋ฅผ ์ฝ๊ฒ ์ ์ถํ ์ ์์ต๋๋ค. ๋ํ Apache Livy๋ Spark์ ์ ํ๋ฆฌ์ผ์ด์ ์๋ฒ ๊ฐ์ ์ํธ ์์ฉ์ ๋จ์ํํ์ฌ ๋ํํ ์น/๋ชจ๋ฐ์ผ ์ ํ๋ฆฌ์ผ์ด์ ์ Spark๋ฅผ ์ฌ์ฉํ ์ ์๋๋ก ํฉ๋๋ค. ์ถ๊ฐ ๊ธฐ๋ฅ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ์ฌ๋ฌ ํด๋ผ์ด์ธํธ์์ ์ฌ๋ฌ Spark ์์ ์ ์ฌ์ฉํ ์ ์๋ ์ฅ๊ธฐ ์คํ Spark ์ปจํ ์คํธ ๋ณด์ ์ฌ๋ฌ ์์ ๋ฐ ํด๋ผ์ด์ธํธ์์ ์บ์๋ RDD ๋๋ ๋ฐ์ดํฐ ํ๋ ์ ๊ณต์ ์ฌ๋ฌ Spark Context..
๋ชฉ์ ๋ณต์ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. HDFS์ ๊ธฐ๋ณธ 3๋ฐฐ ๋ณต์ ์ฒด๊ณ๋ ์คํ ๋ฆฌ์ง ๊ณต๊ฐ ๋ฐ ๊ธฐํ ๋ฆฌ์์ค(์: ๋คํธ์ํฌ ๋์ญํญ)์์ ์ค๋ฒํค๋๊ฐ 200%์ ๋๋ค. ์๋์ ์ผ๋ก I/O ์์ ์ด ์ ์ Warm๋ฐ Cold ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ ์ผ๋ฐ ์์ ์ค์๋ ์ถ๊ฐ ๋ธ๋ก ๋ณต์ ๋ณธ์ ๊ฑฐ์ ์ก์ธ์คํ์ง ์์ง๋ง ์ฒซ ๋ฒ์งธ ๋ณต์ ๋ณธ๊ณผ ๋์ผํ ์์ ๋ฆฌ์์ค๋ฅผ ์ฌ์ฉํฉ๋๋ค. Hot : ๋น ๋ฅธ ์ฟผ๋ฆฌ, fresh ๋ฐ์ดํฐ, ๋์์ฑ๋์ warm : hot, cold ๋ฐ์ดํฐ์ ์ฌ์ด cold data : ๋๋ฆฐ์ฟผ๋ฆฌ, not fresh ๋ฐ์ดํฐ, ๋ฆฌํฌํ , ํ๋, ๋์์ฑ ๋ฎ์ ํจ์ฌ ์ ์ ์คํ ๋ฆฌ์ง ๊ณต๊ฐ์ผ๋ก ํ๋ก ์ด์ ๋ฒ์ ์ ๋์ผํ ์์ค์ ๋ด๊ฒฐํจ์ฑ์ ์ ๊ณตํฉ๋๋ค. ์ผ๋ฐ์ ์ธ Eraser Coding(EC) ์ค์ ์์ ์คํ ๋ฆฌ์ง ์ค๋ฒํค๋๋ 50%๋ฅผ ๋์ง ์์ต๋๋ค. EC ํ์ผ์ ๋ณต์ ํฉ..
ranger, atlas๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด ์ ์ค์นํด์ผํ๋ ์คํ์์ค์ด๋ค. https://archive.apache.org/dist/lucene/solr/8.5.0/ Index of /dist/lucene/solr/8.5.0 archive.apache.org ํด๋น ์ฌ์ดํธ์์ 8.5.0๋ฒ์ ์ ๋ค์ด ๋ฐ๋๋ค. wget https://archive.apache.org/dist/lucene/solr/8.5.0/solr-8.5.0.tgz tar xvzf solr-8.5.0.tgz cd bin/ ./solr start -p 6083 netstat -nltp | grep 6083 ์ผ๋ก ์๋น์ค ์คํ๋๋๊ฒ์ ํ์ธํ ์ ์๋ค. http://localhost:6083/solr/ ranger์์ solr๋ฅผ ํด๋ผ์ฐ๋ ๋ชจ๋๋ก ์คํํด์ผํ..
์ฌ์ ์์ ํ์ root ๊ณ์ ์ JAVA_HOME ์ถ๊ฐ ํ์ํจ solr ์ค์น Maven 3.6.3 ์ค์น PostgreSQL ์ค์น ๋ฐ DB - ranger, User - rangeradmin(pw:rangeradmin) ์์ฑ ์์ ๋ค ์คํํ ๋ root ๋๋ ๊ถํ ๊ฐ์ง ๊ณ์ ์ผ๋ก ํด์ผํจ solr ์ค์นํ์! https://n-a-y-a.tistory.com/m/68 [Apache Solr] Apache solr 8.5.0 ์ค์นํ๊ธฐ ranger, atlas๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด ์ ์ค์นํด์ผํ๋ ์คํ์์ค์ด๋ค. https://archive.apache.org/dist/lucene/solr/8.5.0/ Index of /dist/lucene/solr/8.5.0 archive.apache.org ํด๋น ์ฌ์ดํธ์์ 8.5.0๋ฒ์ ์ ..
ํ๋ก์ ์ค์นํ๊ณ ํ๊ฒฝ์ ๋ง๊ฒ ์ธํ ํ ํ ์ ์์ ์ผ๋ก ์ค์น๊ฐ ๋์๋์ง ํ์ธํ ํ์๊ฐ ์๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ ๊ณตํ๋ example.jar ํ์ผ์ ํตํด ์์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ๋ณ๋ ฌ์ฒ๋ฆฌํ์ฌ ์ ๋ ฌ, ์ ๋ ฌ๋ ๋ฐ์ดํฐ์ ์ ํจ์ฑ์ ๊ฒ์ฌํ์ฌ ๊ธฐ๋ณธ์ ์ธ ์ฑ๋ฅ์ ํ ์คํธํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ณต์์ฌ์ดํธ์์๋ ์์ ์ฐพ๊ธฐ ํ๋ค์๊ณ , microsoft azure๋ฅผ ์ฐธ๊ณ ํ์ฌ ํ ์คํธ๋ฅผ ์งํํ๋ค. https://docs.microsoft.com/ko-kr/azure/hdinsight/hadoop/apache-hadoop-run-samples-linux HDInsight์์ Apache Hadoop MapReduce ์์ ์คํ - Azure HDInsight์ ํฌํจ๋ jar ํ์ผ์ MapReduce ์ํ์ ์ฌ์ฉํ์ฌ ์์ํ์ธ์. SSH๋ฅผ ํตํด ํด๋ฌ์คํฐ์..
์คํํฌ๋ฅผ ์คํํ ๋, ๋ฉ๋ชจ๋ฆฌ์ ์ฝ์ด๋ฅผ ์ค์ ํ์ฌ ์คํํ ์ ์๋ค. x=sc.parallelize([“spark”, ”rdd”, ”example”, “sample”, “example”], 3) ๋ณ๋ ฌํ(transformation) x=x.map(lambda x:(x,1)) #์ ๋ ฅ๊ฐ : x ์ถ๋ ฅ๊ฐ: (x,1) ๋งคํ(transformation) y.collect ์งํฉ(action) [(‘spark’,1), (‘rdd’,1), (‘example’,1), (‘sample’,1), (‘example’,1)] spark yarn ์คํ scala : spark-shell --master yarn --queue queue_name python : pyspark --master yarn --queue queue_name --..
NoSQL ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ด๋ค. ํ๋ก์ ๋ฐ์ดํฐ๋ฅผ NoSQL (Key, value) ์์ผ๋ก ์ ์ฅํจ $ /hadoop/sbin/start-all.sh $ ./start-hbase.sh $ ./hbase shell ### hbase test ### create 'test', 'cf' list 'test' describe 'test' put 'test', 'row1', 'cf:a', 'value1' put 'test', 'row2', 'cf:b', 'value2' put 'test', 'row3', 'cf:c', 'value3' scan 'test' ------------------------ ROW COLUMN+CELL row1 column=cf:a, timestamp=1612833812641, value=..