์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ์ํ์น ์คํํฌ
- ์คํํฌ
- airflow
- ๋น ๋ฐ์ดํฐ
- ์ค์นผ๋ผ ๋ถ
- ์ค์๋ธ
- rpmbuild
- CLF-C02
- BIGDATA
- elastic stack
- ๋ฆฌ๋ ์ค
- ๋ฆฌ๋ ์ค RPM
- ์ฑ๊ธ์๋ฒ
- LeetCode
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ansible
- aws ccp
- ํ๋ก
- ํด ์ค์น
- kudu
- ํ๋ก์ค์น
- standalone
- hadoop
- ๋ฆฟ์ฝ๋
- ํ์ด๋ธ
- ํ๋ก์์ฝ์์คํ
- HBase
- ์ค์๋ธ ์ค์น
- ์๋ผ์คํฑ์์น
- Apache spark
- Today
- Total
๋ชฉ๋กBIGDATA/ํ๋ก์์ฝ์์คํ (34)
data_lab
HIVE ํ ์ด๋ธ ๊ด๋ฆฌ HIVE ํ ์ด๋ธ 1. ๋ฐ์ดํฐ๋ฅผ HIVE ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๋ฉด? HiveQL, ํผ๊ทธ, ์คํํฌ ๋ฑ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ > ์ํธ์ด์ ๋ณด์ฅ 2. HIVE๊ฐ ์ง์ํ๋ ํ ์ด๋ธ ์ข ๋ฅ - ๋ด๋ถ ํ ์ด๋ธ : HIVE๊ฐ ๊ด๋ฆฌ, HIVE/ ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค์ ์ ์ฅ, ๋ด๋ถํ ์ด๋ธ ์ญ์ ์ ๋ฉํ์ ์์ ๋ฐ์ดํฐ๊น์ง ์ญ์ ๋จ, ORC๊ฐ์ ํ์์ผ๋ก ์ ์ฅ๋์ด ๋น๊ต์ ๋น ๋ฅธ ์ฑ๋ฅ - ์ธ๋ถ ํ ์ด๋ธ : ํ์ด๋ธ๊ฐ ์ง์ ๊ด๋ฆฌํ์ง ์์, ํ์ด๋ธ์ ๋ฉํ์ ์๋ง ์ฌ์ฉํ์ฌ ์์ ํํ๋ก ์ ์ฅ๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๊ทผ ์ธ๋ถ ํ ์ด๋ธ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํด๋ ํ ์ด๋ธ ๋ฉํ ์ ์๋ง ์ญ์ ๋๊ณ ๋ฐ์ดํฐ๋ ์ ์ง๋จ. ํด๋น ๋ฐ์ดํฐ๊ฐ ํ์ด๋ธ ์ธ๋ถ์ ์ ์ฌ ๋์ด์๊ฑฐ๋ ํ ์ด๋ธ์ด ์ญ์ ๋๋๋ผ๋ ์๋ณธ ๋ฐ์ดํฐ๊ฐ ๋จ์ ์์ด์ผํ ๋ ์ฌ์ฉ 3.csv ํ์ผ์ ํ์ด๋ธ ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๊ธฐ 1...
ํ๋ก ๋ฒ์ 3.1 ๊ธฐ์ค์ผ๋ก ๊ฐ์ธ์ ์ผ๋ก ์ ๋ฆฌํ ๋ช ๋ น์ด์ด๋ค. ๊ธฐ์กด์ ๋ฆฌ๋ ์ค์ ๋ํด ๊ณต๋ถํ๋ค๋ฉด ํ๋ก ๋ช ๋ น์ด๋ฅผ ๊ณต๋ถํ๋๋ฐ์ ์์ฒญ ์ด๋ ต์ง์๋ค. 1.hdfs dfs –cat /tmp/Sample2.txt #ํ์ผ ์ฝ๊ธฐ 2.hdfs dfs –checksum /tmp/Sample2.txt ๋ฐ์ดํฐ๋ฌด๊ฒฐ์ฑ 3.hdfs dfs –chgrp kyn /tmp/Sample2.txt 4.hdfs dfs –chown kyn /tmp/Sample2.txt 5.hdfs dfs –chmod –R 777 /tmp/Sample2.txt 6.hdfs dfs –copyFromLocal /tmp/Sample2.txt put์ ์ฌ 7.hdfs dfs –copyToLocal /tmp/Sample2.txt 8.hdfs dfs –count /tmp/Sampl..
ํ๋ก์ ๋ฌธ์ ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์คํํฌ ์๊น ํ๋ก์ ๋ฌธ์ ๋ 1. ๋ฐ๋ณต์ ์ธ ์์ ์๋ ๋นํจ์จ์ ์ 2. ๋งต๋ฆฌ๋์ค์ ๋คํธ์ํฌ ํธ๋ํฝ์ผ๋ก ์ธํด ์ฑ๋ฅ์ ํ๋จ. ์คํํฌ๋? ๊ธฐ์กด ๋งต๋ฆฌ๋์ค์ ๋์คํฌ ์ ์ถ๋ ฅ์ ๋ณด์ํ์ฌ ์ธ ๋ฉ๋ชจ๋ฆฌ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋ ์ ์ํฌ ์ด๋ค. ์ธ ๋ฉ๋ชจ๋ฆฌ - ์ต์ด ๋ฐ์ดํฐ ์ ๋ ฅ, ์ถ๋ ฅ์๋ง ๋์คํฌ์ ์์ฑํจ์ผ๋ก ๋คํธ์ํฌ ํธ๋ํฝ ๋ฐ์ ๋ฎ์ถค, ์ค๊ฐ ๊ฒฐ๊ณผ๋ ๋ณ๋ ฌ์ฒ๋ฆฌํจ ์คํํฌ์ ์ฃผ์๊ธฐ๋ฅ - ์คํํฌ SQL, ์คํํฌ ์คํธ๋ฆฌ๋ฐ, ์คํํฌ MLlib, ์คํํฌ GraphX, ์คํํฌ ์ฝ์ด, ์คํํฌ ์์ ์ฒ๋ฆฌ ์คํํฌ ์ํคํ ์ฒ ๋ ธ๋๋งค๋์ ์์ ๋๋ผ์ด๋ฒ ํ๋ก๊ทธ๋จ์ด ์์. 1. ๋๋ผ์ด๋ฒ ํ๋ก๊ทธ๋จ์ด SparkContext ์ธ์คํด์ค ์์ฑํจ(์ด๋ yarn๊ณผ ์ฐ๊ฒฐ) 2. executors ๋ฅผ ์๊ตฌ 3. ์ ํ๋ฆฌ์ผ์ด์ ์ฝ๋๋ฅผ executors์ ๋ณด..
์ํ์น ์์ด๋ธ๋ก๋ ? - ํน์ ์ธ์ด์ ์ข ์๋์ง ์๋ ์ธ์ด ์ค๋ฆฝ์ ๋ฐ์ดํฐ ์ง๋ ฌํ ์์คํ - ํ๋ก Writable์ ์ฃผ์ ๋จ์ ์ธ ์ธ์ด ์ด์์ฑ ํด๊ฒฐ ์ํด ์๊ฒจ๋จ ์ํ์น ์ฐ๋ฆฌํํธ, ๊ตฌ๊ธ ํ๋กํ ์ฝ ๋ฒํผ์ ๋ค๋ฅธ ์ฐจ๋ณํ๋ ํน์ฑ๊ฐ์ง๊ณ ์์ ๋ฐ์ดํฐ๋ ๋ค๋ฅธ ์์คํ ๊ณผ ๋น์ทํ๊ฒ ์ธ์ด ๋ ๋ฆฝ ์คํค๋ง๋ก ๊ธฐ์ ๋จ ์์ด๋ธ๋ก์์ ์ฝ๋ ์์ฑ์ ์ ํ์ฌํญ์ ๋ฐ์ดํฐ๋ฅผ ์ฝ๊ณ ์ฐ๋ ์์ ์ ์คํค๋ง๋ ํญ์ ์กด์ฌํ๋ค ๊ฐ์ ํจ - ๋งค์ฐ ๊ฐ๊ฒฐํ ์ฝ๋ฉ์ด ๊ฐ๋ฅ ์คํค๋ง์ ์์ฑ JSON ๋ฐ์ดํฐ๋ ๋ฐ์ด๋๋ฆฌ ํฌ๋งท์ผ๋ก ์ธ์ฝ๋ฉ ์์ด๋ธ๋ก ๋ช ์ธ - ๋ชจ๋ ๊ตฌํ์ฒด๊ฐ ์ง์ํด์ผ ํ๋ ๋ฒ์ด๋๋ฆฌ ํฌ๋งท์ ๋ํ ์์ธํ ๋ด์ฉ API - ์์ด๋ธ๋ก ๋ช ์ธ์์ ๋น ์ ธ์๋ ๋ด์ฉ์. ๊ฐ ํน์ ์ธ์ด์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์์ฑ๋จ. ์ธ์ด์ ๋ฐ์ธ๋ฉ ํธ์์ฑ ๋์ด๊ณ ์ํธ์ด์์ฑ ์ ํ ๋ฌธ์ ํด๊ฒฐ๋จ ์คํค๋งํด์ - ์ ์คํ๊ฒ ์ ์๋..
์ธํ๋ผ ์ด์ํ ๋ ์ฃผ์ํด์ผํ ์ root ๊ณ์ ์ฌ์ฉํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ sudo๊ถํ์ ๋ถ์ฌ๋ฐ์ ๋ค๋ฅธ ๊ณ์ ์ ์ฌ์ฉํด์ ์ธํ๋ผ ๊ตฌ์ถ์ ์งํํ๋ค. ์ฌ์ฉํ ๊ณ์ ์์ฑ # useradd test ๊ณ์ ๋น๋ฐ๋ฒํธ ์ง์ # passwd test sudoers ์์ ํ์ฌ ํด๋น ๊ณ์ sudo ๊ถํ๊ณผ ํ๋จ์ ๊ฐ์ ๊ทธ๋ฃน๋ ๋ชจ๋ ์ปค๋งจ๋ ์ํ๊ฐ๋ฅํ ๋ถ๋ถ์ ์ฃผ์ ์ ๊ฑฐ # vi /etc/sudoers test ALL(=ALL) ALL(=ALL) %wheel ~~ ํ๋ก์์ฝ์์คํ ๊ตฌ์ถํ ๋ ๊ณตํต์ ์ผ๋ก ํ์ํ ๋ถ๋ถ์ด ์๋ค. 1. ๋ฐฉํ๋ฒฝ # systemctl disable firewalld # systemctl stop firewalld # vi /etc/selinux/config SELINUX=disabled ํ ์ฌ๋ถํ ํ๋ค. 2. insta..
hue ์ค์น ํ ๋ ์์ ์๋ ํ๋ก ์์ฝ์์คํ ๋ค์ด ์ด๋์ ๋ ์ค์น๋์๋ค๊ณ ๊ฐ์ ํ๊ณ ์งํํ๊ฒ ๋ค. ํด์ ๊ฒฝ์ฐ ์ค์นํ๊ธฐ์ ์ ์ฌ์ ์์ ์ ํด์ค์ผ ํ๋ค. postgres๋ ๋ค๋ฅธ ํฌ์คํธ์์ ์ค์ ์ ๋ค๋ฃจ๊ธฐ๋ก ํ๊ณ , ํด ์ค์น ๊ฐ์ด๋ ์์๋ ํด์์ ์ฌ์ฉํ ๋ฐ์ดํฐ ๋ฒ ์ด์ค ์์ฑ์ ๋๋ง ๋ค๋ฃฐ ์์ ์ด๋ค. ์ฌ์ ์์ ํด๋ ํ์ด์ฌ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ๊ฒฝ๋ณ์๋ก ํ์ด์ฌ ๋ฒ์ ์ ์ก์์ค์ผํ๋ค. ํ๊ฒฝ๋ณ์๋ .bash_profile ์ ์ถ๊ฐํ์๋ค. ํ์ด์ฌ ํ๊ฒฝ๋ณ์ ์ถ๊ฐ $ sudo vi ~/..bash_profile export PYTHON_VER=python3.8 psycopg2 ์ค์น (์ ์ pip๋ ์ค์น๋์ด ์์ด์ผํจ) $ pip install psycopg2 $ python setup.py build $ sudo python setup.py i..
์ฃผํคํผ๋ ๋ถ์ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํ ๋ถ์ฐ ์ฝ๋๋ค์ด์ ์ด๋ค. znode(์ ๋๋ ธ๋)๊ฐ ๊ฐ๊ฐ์ ์๋ฒ์ ์์นํด ์๋ค.๊ฐ ํ๋ก์ ์๋น์ค๋ค์ด ์ ๋์ํ๊ณ ์๋์ง ํ์ธํ๋ค.์ฃผ๊ธฐ์ ์ผ๋ก ํํธ๋นํธ ์๊ตฌํ์ฌ ๋ฐ๋ ๋ฐฉ์์ผ๋ก, ๋ฐ๋ผ์ ์ฃผ๊ธฐํผ๋ ํ์๋ก ํด๋ฌ์คํฐ๋ฅผ ๊ตฌ์ฑํ๋๋ฐ์ฌ๊ธฐ์ ๋ค์ด๊ฐ๋ ๊ฐ๋ ์ด ์ฟผ๋ผ์ด๋ค. ์ฟผ๋ผ์ด๋? ๋ค์๊ฒฐ๋ก ์๋ฅผ ๋ค์ด 5๊ฐ์ ์๋ฒ๋ก ๊ตฌ์ฑ ๋์ด์๊ณ ,2๊ฐ์ ์๋ฒ๊ฐ ์ฃฝ๋๋ค๊ณ ๊ฐ์ ํ์ ๋ ์ ์์ ์ผ๋ก ๋์ํ๋ค๊ณ ํ๋จํ๋ค.๊ทธ๋ฆฌ๊ณ 5๊ฐ ์ค 3๊ฐ์ ์๋ฒ๊ฐ ์ฃฝ์์ ๊ฒฝ์ฐ, ๋ค์๊ฒฐ๋ก ์ธํด ๋น์ ์์ด๋ผ๊ณ ํ๋คํ๋ค.๊ทธ๋ก ์ธํด, ์ฃผํคํผ๋ ํ์๋ก ํด๋ฌ์คํฐ๋ฅผ ๊ตฌ์ฑํ๋ค. zookeeper ํด๋ฌ์คํฐ๋ํ๋์ ์๋ฒ๊ฐ ๋ฆฌ๋์ด๊ณ , ๋ค๋ฅธ ์๋ฒ๋ ํ๋ก์์ด๋ค๋ฆฌ๋ ์๋ฒ๋ฅผ ๊ธฐ์ค์ผ๋ก sync๋ฅผ ๋ง์ถ๋ค. ์์ธํ ๋ด์ฉ์ ๊ณต์ ์ฌ์ดํธ ์ฐธ์กฐ๋ฐ๋ ์ฃผํคํผ ์ค์น ๋ฐฉ๋ฒ์ฃผํคํผ ํ์ผ ..
livy-env.sh export SPARK_HOME=/usr/lib/spark export HADOOP_CONF_DIR=/etc/hadoop/conf livy start ./bin/livy-server start livy ์ ์๋์ํ๋์ง spark์์ ํ ์คํธํ๋ ์์ sudo pip install requests import json, pprint, requests, textwrap host = 'http://localhost:8998' data = {'kind': 'spark'} headers = {'Content-Type': 'application/json'} r = requests.post(host + '/sessions', data=json.dumps(data), headers=headers) r..
$ wget https://archive.apache.org/dist/hbase/2.2.0/hbase-2.2.0-bin.tar.gz $ tar xvzf hbase-2.2.0-bin.tar.gz $ ln -s hbase-2.2.0-bin hbase hbase ์ค์น ํ ์์ถ ํ๊ณ ์ฌ๋ณผ๋ฆญ ๋งํฌ๋ฅผ ๊ฑด๋ค. hbase.rootdir hdfs://localhost:9000/hbase hbase.master.port 60000 hbase.master.info.port 60010 hbase.regionserver.info.bindAddress 0.0.0.0 hbase.regionserver.port 60020 hbase.regionserver.info.port 60030 hbase.zookeeper.quorum bdh2..