์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- BIGDATA
- ์๋ผ์คํฑ์์น
- ๋ฆฟ์ฝ๋
- standalone
- Apache spark
- ํ๋ก์์ฝ์์คํ
- ์คํํฌ
- ์ํ์น ์คํํฌ
- elastic stack
- aws ccp
- ์ค์๋ธ
- ํ์ด๋ธ
- ํด ์ค์น
- rpmbuild
- ansible
- CLF-C02
- HBase
- airflow
- ์ฑ๊ธ์๋ฒ
- ์ค์นผ๋ผ ๋ถ
- hadoop
- ์ค์๋ธ ์ค์น
- kudu
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ๋ฆฌ๋ ์ค
- LeetCode
- ๋น ๋ฐ์ดํฐ
- ํ๋ก
- ํ๋ก์ค์น
- ๋ฆฌ๋ ์ค RPM
- Today
- Total
๋ชฉ๋กํ๋ก (13)
data_lab
์ฌ์ ์์ ํ์ root ๊ณ์ ์ JAVA_HOME ์ถ๊ฐ ํ์ํจ solr ์ค์น Maven 3.6.3 ์ค์น PostgreSQL ์ค์น ๋ฐ DB - ranger, User - rangeradmin(pw:rangeradmin) ์์ฑ ์์ ๋ค ์คํํ ๋ root ๋๋ ๊ถํ ๊ฐ์ง ๊ณ์ ์ผ๋ก ํด์ผํจ solr ์ค์นํ์! https://n-a-y-a.tistory.com/m/68 [Apache Solr] Apache solr 8.5.0 ์ค์นํ๊ธฐ ranger, atlas๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด ์ ์ค์นํด์ผํ๋ ์คํ์์ค์ด๋ค. https://archive.apache.org/dist/lucene/solr/8.5.0/ Index of /dist/lucene/solr/8.5.0 archive.apache.org ํด๋น ์ฌ์ดํธ์์ 8.5.0๋ฒ์ ์ ..
์คํํฌ๋ฅผ ์คํํ ๋, ๋ฉ๋ชจ๋ฆฌ์ ์ฝ์ด๋ฅผ ์ค์ ํ์ฌ ์คํํ ์ ์๋ค. x=sc.parallelize([โsparkโ, โrddโ, โexampleโ, โsampleโ, โexampleโ], 3) ๋ณ๋ ฌํ(transformation) x=x.map(lambda x:(x,1)) #์ ๋ ฅ๊ฐ : x ์ถ๋ ฅ๊ฐ: (x,1) ๋งคํ(transformation) y.collect ์งํฉ(action) [(โsparkโ,1), (โrddโ,1), (โexampleโ,1), (โsampleโ,1), (โexampleโ,1)] spark yarn ์คํ scala : spark-shell --master yarn --queue queue_name python : pyspark --master yarn --queue queue_name --..
NoSQL ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ด๋ค. ํ๋ก์ ๋ฐ์ดํฐ๋ฅผ NoSQL (Key, value) ์์ผ๋ก ์ ์ฅํจ $ /hadoop/sbin/start-all.sh $ ./start-hbase.sh $ ./hbase shell ### hbase test ### create 'test', 'cf' list 'test' describe 'test' put 'test', 'row1', 'cf:a', 'value1' put 'test', 'row2', 'cf:b', 'value2' put 'test', 'row3', 'cf:c', 'value3' scan 'test' ------------------------ ROW COLUMN+CELL row1 column=cf:a, timestamp=1612833812641, value=..
HIVE ํ ์ด๋ธ ๊ด๋ฆฌ HIVE ํ ์ด๋ธ 1. ๋ฐ์ดํฐ๋ฅผ HIVE ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๋ฉด? HiveQL, ํผ๊ทธ, ์คํํฌ ๋ฑ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ > ์ํธ์ด์ ๋ณด์ฅ 2. HIVE๊ฐ ์ง์ํ๋ ํ ์ด๋ธ ์ข ๋ฅ - ๋ด๋ถ ํ ์ด๋ธ : HIVE๊ฐ ๊ด๋ฆฌ, HIVE/ ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค์ ์ ์ฅ, ๋ด๋ถํ ์ด๋ธ ์ญ์ ์ ๋ฉํ์ ์์ ๋ฐ์ดํฐ๊น์ง ์ญ์ ๋จ, ORC๊ฐ์ ํ์์ผ๋ก ์ ์ฅ๋์ด ๋น๊ต์ ๋น ๋ฅธ ์ฑ๋ฅ - ์ธ๋ถ ํ ์ด๋ธ : ํ์ด๋ธ๊ฐ ์ง์ ๊ด๋ฆฌํ์ง ์์, ํ์ด๋ธ์ ๋ฉํ์ ์๋ง ์ฌ์ฉํ์ฌ ์์ ํํ๋ก ์ ์ฅ๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๊ทผ ์ธ๋ถ ํ ์ด๋ธ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํด๋ ํ ์ด๋ธ ๋ฉํ ์ ์๋ง ์ญ์ ๋๊ณ ๋ฐ์ดํฐ๋ ์ ์ง๋จ. ํด๋น ๋ฐ์ดํฐ๊ฐ ํ์ด๋ธ ์ธ๋ถ์ ์ ์ฌ ๋์ด์๊ฑฐ๋ ํ ์ด๋ธ์ด ์ญ์ ๋๋๋ผ๋ ์๋ณธ ๋ฐ์ดํฐ๊ฐ ๋จ์ ์์ด์ผํ ๋ ์ฌ์ฉ 3.csv ํ์ผ์ ํ์ด๋ธ ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๊ธฐ 1...
ํ๋ก ๋ฒ์ 3.1 ๊ธฐ์ค์ผ๋ก ๊ฐ์ธ์ ์ผ๋ก ์ ๋ฆฌํ ๋ช ๋ น์ด์ด๋ค. ๊ธฐ์กด์ ๋ฆฌ๋ ์ค์ ๋ํด ๊ณต๋ถํ๋ค๋ฉด ํ๋ก ๋ช ๋ น์ด๋ฅผ ๊ณต๋ถํ๋๋ฐ์ ์์ฒญ ์ด๋ ต์ง์๋ค. 1.hdfs dfs โcat /tmp/Sample2.txt #ํ์ผ ์ฝ๊ธฐ 2.hdfs dfs โchecksum /tmp/Sample2.txt ๋ฐ์ดํฐ๋ฌด๊ฒฐ์ฑ 3.hdfs dfs โchgrp kyn /tmp/Sample2.txt 4.hdfs dfs โchown kyn /tmp/Sample2.txt 5.hdfs dfs โchmod โR 777 /tmp/Sample2.txt 6.hdfs dfs โcopyFromLocal /tmp/Sample2.txt put์ ์ฌ 7.hdfs dfs โcopyToLocal /tmp/Sample2.txt 8.hdfs dfs โcount /tmp/Sampl..
hue ์ค์น ํ ๋ ์์ ์๋ ํ๋ก ์์ฝ์์คํ ๋ค์ด ์ด๋์ ๋ ์ค์น๋์๋ค๊ณ ๊ฐ์ ํ๊ณ ์งํํ๊ฒ ๋ค. ํด์ ๊ฒฝ์ฐ ์ค์นํ๊ธฐ์ ์ ์ฌ์ ์์ ์ ํด์ค์ผ ํ๋ค. postgres๋ ๋ค๋ฅธ ํฌ์คํธ์์ ์ค์ ์ ๋ค๋ฃจ๊ธฐ๋ก ํ๊ณ , ํด ์ค์น ๊ฐ์ด๋ ์์๋ ํด์์ ์ฌ์ฉํ ๋ฐ์ดํฐ ๋ฒ ์ด์ค ์์ฑ์ ๋๋ง ๋ค๋ฃฐ ์์ ์ด๋ค. ์ฌ์ ์์ ํด๋ ํ์ด์ฌ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ๊ฒฝ๋ณ์๋ก ํ์ด์ฌ ๋ฒ์ ์ ์ก์์ค์ผํ๋ค. ํ๊ฒฝ๋ณ์๋ .bash_profile ์ ์ถ๊ฐํ์๋ค. ํ์ด์ฌ ํ๊ฒฝ๋ณ์ ์ถ๊ฐ $ sudo vi ~/..bash_profile export PYTHON_VER=python3.8 psycopg2 ์ค์น (์ ์ pip๋ ์ค์น๋์ด ์์ด์ผํจ) $ pip install psycopg2 $ python setup.py build $ sudo python setup.py i..
์ฃผํคํผ๋ ๋ถ์ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํ ๋ถ์ฐ ์ฝ๋๋ค์ด์ ์ด๋ค. znode(์ ๋๋ ธ๋)๊ฐ ๊ฐ๊ฐ์ ์๋ฒ์ ์์นํด ์๋ค.๊ฐ ํ๋ก์ ์๋น์ค๋ค์ด ์ ๋์ํ๊ณ ์๋์ง ํ์ธํ๋ค.์ฃผ๊ธฐ์ ์ผ๋ก ํํธ๋นํธ ์๊ตฌํ์ฌ ๋ฐ๋ ๋ฐฉ์์ผ๋ก, ๋ฐ๋ผ์ ์ฃผ๊ธฐํผ๋ ํ์๋ก ํด๋ฌ์คํฐ๋ฅผ ๊ตฌ์ฑํ๋๋ฐ์ฌ๊ธฐ์ ๋ค์ด๊ฐ๋ ๊ฐ๋ ์ด ์ฟผ๋ผ์ด๋ค. ์ฟผ๋ผ์ด๋? ๋ค์๊ฒฐ๋ก ์๋ฅผ ๋ค์ด 5๊ฐ์ ์๋ฒ๋ก ๊ตฌ์ฑ ๋์ด์๊ณ ,2๊ฐ์ ์๋ฒ๊ฐ ์ฃฝ๋๋ค๊ณ ๊ฐ์ ํ์ ๋ ์ ์์ ์ผ๋ก ๋์ํ๋ค๊ณ ํ๋จํ๋ค.๊ทธ๋ฆฌ๊ณ 5๊ฐ ์ค 3๊ฐ์ ์๋ฒ๊ฐ ์ฃฝ์์ ๊ฒฝ์ฐ, ๋ค์๊ฒฐ๋ก ์ธํด ๋น์ ์์ด๋ผ๊ณ ํ๋คํ๋ค.๊ทธ๋ก ์ธํด, ์ฃผํคํผ๋ ํ์๋ก ํด๋ฌ์คํฐ๋ฅผ ๊ตฌ์ฑํ๋ค. zookeeper ํด๋ฌ์คํฐ๋ํ๋์ ์๋ฒ๊ฐ ๋ฆฌ๋์ด๊ณ , ๋ค๋ฅธ ์๋ฒ๋ ํ๋ก์์ด๋ค๋ฆฌ๋ ์๋ฒ๋ฅผ ๊ธฐ์ค์ผ๋ก sync๋ฅผ ๋ง์ถ๋ค. ์์ธํ ๋ด์ฉ์ ๊ณต์ ์ฌ์ดํธ ์ฐธ์กฐ๋ฐ๋ ์ฃผํคํผ ์ค์น ๋ฐฉ๋ฒ์ฃผํคํผ ํ์ผ ..
livy-env.sh export SPARK_HOME=/usr/lib/spark export HADOOP_CONF_DIR=/etc/hadoop/conf livy start ./bin/livy-server start livy ์ ์๋์ํ๋์ง spark์์ ํ ์คํธํ๋ ์์ sudo pip install requests import json, pprint, requests, textwrap host = 'http://localhost:8998' data = {'kind': 'spark'} headers = {'Content-Type': 'application/json'} r = requests.post(host + '/sessions', data=json.dumps(data), headers=headers) r..
https://dlcdn.apache.org/hive/hive-3.1.2/ Index of /hive/hive-3.1.2 dlcdn.apache.org apache mirror ์ฌ์ดํธ์์ ์ํ๋ hive ๋ฒ์ ์ binary ํด๋๋ฅผ ๋ค์ด๋ฐ๋๋ค. ์ฌ์ ์์ - Hadoop Path ์ค์ ๋์ด์์ด์ผํจ export HADOOP_HOME= ์์ถํด์ wget https://dlcdn.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz tar xvzf apache-hive-3.1.2-bin.tar.gz ํ๊ฒฝ๋ณ์ ์ค์ Hive ํ ํ๊ฒฝ๋ณ์๋ฅผ ์ค์ ํด์ผํ๋ค. .bash_prifile์์ ์์ ํ๋ ๋ฐฉ์๋ณด๋จ /etc/profile.d/์ ์ ์คํฌ๋ฆฝํธ๋ฅผ ์ถ๊ฐํด์ค๊ฒ vi /etc/p..