์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ์ค์๋ธ ์ค์น
- ์ค์๋ธ
- LeetCode
- ์ค์นผ๋ผ ๋ถ
- kudu
- aws ccp
- ํด ์ค์น
- ๋ฆฌ๋ ์ค RPM
- ansible
- BIGDATA
- ๋น ๋ฐ์ดํฐ
- ํ๋ก์ค์น
- standalone
- ํ์ด๋ธ
- CLF-C02
- ํ๋ก์์ฝ์์คํ
- ๋ฆฌ๋ ์ค
- ์ํ์น ์คํํฌ
- ๋ฆฟ์ฝ๋
- ์๋ผ์คํฑ์์น
- elastic stack
- hadoop
- airflow
- rpmbuild
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- Apache spark
- ์ฑ๊ธ์๋ฒ
- ํ๋ก
- HBase
- ์คํํฌ
- Today
- Total
๋ชฉ๋กhadoop (8)
data_lab
ํ๋ก์ ์ค์นํ๊ณ ํ๊ฒฝ์ ๋ง๊ฒ ์ธํ ํ ํ ์ ์์ ์ผ๋ก ์ค์น๊ฐ ๋์๋์ง ํ์ธํ ํ์๊ฐ ์๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ ๊ณตํ๋ example.jar ํ์ผ์ ํตํด ์์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ๋ณ๋ ฌ์ฒ๋ฆฌํ์ฌ ์ ๋ ฌ, ์ ๋ ฌ๋ ๋ฐ์ดํฐ์ ์ ํจ์ฑ์ ๊ฒ์ฌํ์ฌ ๊ธฐ๋ณธ์ ์ธ ์ฑ๋ฅ์ ํ ์คํธํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ณต์์ฌ์ดํธ์์๋ ์์ ์ฐพ๊ธฐ ํ๋ค์๊ณ , microsoft azure๋ฅผ ์ฐธ๊ณ ํ์ฌ ํ ์คํธ๋ฅผ ์งํํ๋ค. https://docs.microsoft.com/ko-kr/azure/hdinsight/hadoop/apache-hadoop-run-samples-linux HDInsight์์ Apache Hadoop MapReduce ์์ ์คํ - Azure HDInsight์ ํฌํจ๋ jar ํ์ผ์ MapReduce ์ํ์ ์ฌ์ฉํ์ฌ ์์ํ์ธ์. SSH๋ฅผ ํตํด ํด๋ฌ์คํฐ์..
HIVE ํ ์ด๋ธ ๊ด๋ฆฌ HIVE ํ ์ด๋ธ 1. ๋ฐ์ดํฐ๋ฅผ HIVE ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๋ฉด? HiveQL, ํผ๊ทธ, ์คํํฌ ๋ฑ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ > ์ํธ์ด์ ๋ณด์ฅ 2. HIVE๊ฐ ์ง์ํ๋ ํ ์ด๋ธ ์ข ๋ฅ - ๋ด๋ถ ํ ์ด๋ธ : HIVE๊ฐ ๊ด๋ฆฌ, HIVE/ ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค์ ์ ์ฅ, ๋ด๋ถํ ์ด๋ธ ์ญ์ ์ ๋ฉํ์ ์์ ๋ฐ์ดํฐ๊น์ง ์ญ์ ๋จ, ORC๊ฐ์ ํ์์ผ๋ก ์ ์ฅ๋์ด ๋น๊ต์ ๋น ๋ฅธ ์ฑ๋ฅ - ์ธ๋ถ ํ ์ด๋ธ : ํ์ด๋ธ๊ฐ ์ง์ ๊ด๋ฆฌํ์ง ์์, ํ์ด๋ธ์ ๋ฉํ์ ์๋ง ์ฌ์ฉํ์ฌ ์์ ํํ๋ก ์ ์ฅ๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๊ทผ ์ธ๋ถ ํ ์ด๋ธ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํด๋ ํ ์ด๋ธ ๋ฉํ ์ ์๋ง ์ญ์ ๋๊ณ ๋ฐ์ดํฐ๋ ์ ์ง๋จ. ํด๋น ๋ฐ์ดํฐ๊ฐ ํ์ด๋ธ ์ธ๋ถ์ ์ ์ฌ ๋์ด์๊ฑฐ๋ ํ ์ด๋ธ์ด ์ญ์ ๋๋๋ผ๋ ์๋ณธ ๋ฐ์ดํฐ๊ฐ ๋จ์ ์์ด์ผํ ๋ ์ฌ์ฉ 3.csv ํ์ผ์ ํ์ด๋ธ ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๊ธฐ 1...
ํ๋ก ๋ฒ์ 3.1 ๊ธฐ์ค์ผ๋ก ๊ฐ์ธ์ ์ผ๋ก ์ ๋ฆฌํ ๋ช ๋ น์ด์ด๋ค. ๊ธฐ์กด์ ๋ฆฌ๋ ์ค์ ๋ํด ๊ณต๋ถํ๋ค๋ฉด ํ๋ก ๋ช ๋ น์ด๋ฅผ ๊ณต๋ถํ๋๋ฐ์ ์์ฒญ ์ด๋ ต์ง์๋ค. 1.hdfs dfs โcat /tmp/Sample2.txt #ํ์ผ ์ฝ๊ธฐ 2.hdfs dfs โchecksum /tmp/Sample2.txt ๋ฐ์ดํฐ๋ฌด๊ฒฐ์ฑ 3.hdfs dfs โchgrp kyn /tmp/Sample2.txt 4.hdfs dfs โchown kyn /tmp/Sample2.txt 5.hdfs dfs โchmod โR 777 /tmp/Sample2.txt 6.hdfs dfs โcopyFromLocal /tmp/Sample2.txt put์ ์ฌ 7.hdfs dfs โcopyToLocal /tmp/Sample2.txt 8.hdfs dfs โcount /tmp/Sampl..
hue ์ค์น ํ ๋ ์์ ์๋ ํ๋ก ์์ฝ์์คํ ๋ค์ด ์ด๋์ ๋ ์ค์น๋์๋ค๊ณ ๊ฐ์ ํ๊ณ ์งํํ๊ฒ ๋ค. ํด์ ๊ฒฝ์ฐ ์ค์นํ๊ธฐ์ ์ ์ฌ์ ์์ ์ ํด์ค์ผ ํ๋ค. postgres๋ ๋ค๋ฅธ ํฌ์คํธ์์ ์ค์ ์ ๋ค๋ฃจ๊ธฐ๋ก ํ๊ณ , ํด ์ค์น ๊ฐ์ด๋ ์์๋ ํด์์ ์ฌ์ฉํ ๋ฐ์ดํฐ ๋ฒ ์ด์ค ์์ฑ์ ๋๋ง ๋ค๋ฃฐ ์์ ์ด๋ค. ์ฌ์ ์์ ํด๋ ํ์ด์ฌ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ๊ฒฝ๋ณ์๋ก ํ์ด์ฌ ๋ฒ์ ์ ์ก์์ค์ผํ๋ค. ํ๊ฒฝ๋ณ์๋ .bash_profile ์ ์ถ๊ฐํ์๋ค. ํ์ด์ฌ ํ๊ฒฝ๋ณ์ ์ถ๊ฐ $ sudo vi ~/..bash_profile export PYTHON_VER=python3.8 psycopg2 ์ค์น (์ ์ pip๋ ์ค์น๋์ด ์์ด์ผํจ) $ pip install psycopg2 $ python setup.py build $ sudo python setup.py i..
$ wget https://archive.apache.org/dist/hbase/2.2.0/hbase-2.2.0-bin.tar.gz $ tar xvzf hbase-2.2.0-bin.tar.gz $ ln -s hbase-2.2.0-bin hbase hbase ์ค์น ํ ์์ถ ํ๊ณ ์ฌ๋ณผ๋ฆญ ๋งํฌ๋ฅผ ๊ฑด๋ค. hbase.rootdir hdfs://localhost:9000/hbase hbase.master.port 60000 hbase.master.info.port 60010 hbase.regionserver.info.bindAddress 0.0.0.0 hbase.regionserver.port 60020 hbase.regionserver.info.port 60030 hbase.zookeeper.quorum bdh2..
์ฑ๊ธ๋ ธ๋์์ ํ๋ก์ ์ด๋ป๊ฒ ์ค์นํ๋์ง ์์ฑํ๋ คํ๋ค. ํ๋ก์ ์ค์นํ๊ธฐ ์ ์ ๊ธฐ๋ณธ์ ์ผ๋ก os์์ ์ค์ ์ ๋ฐ๊ฟ์ผ ํ๋๊ฒ ์๋ค. ์ผ๋จ ๊ธฐ๋ณธ์ ์ผ๋ก os ๋ฒ์ ์ cent os7.x ์ด๋ค. ์ธํ๋ผ๋ฅผ ์ด์ํ ๋ root ๊ณ์ ์ ์ฌ์ฉํ์ง ์๋๋ค. ๋ค๋ฅธ ๊ณ์ ์ ์์ฑํ์ฌ sudo ๊ถํ์ ๋ถ์ฌ๋ฐ๊ณ ์ต๋ํ ๊ทธ ๊ณ์ ์ผ๋ก ์ค์น๋ฅผ ์งํํ๋ค. ํ๋ก์ ์ค์นํ๊ธฐ ์ ์?๋ฐฉํ๋ฒฝ์ ๋ด๋ฆฌ๊ณ selinux disabled ๊ทธ๋ฆฌ๊ณ ์ ์ ๊ณ์ ์ ์ถ๊ฐํ์ฌ ๋๋๋ก root๊ณ์ ์ ์ฌ์ฉํ์ง ์๊ณ ์งํํ๋ คํ๋ค. ์๋ฐ๋ open jdk 1.8๋ฒ์ ์ ์ค์นํ์ฌ ํ๊ฒฝ๋ณ์ ์ถ๊ฐํ๋ค. ํด๋น ๋ด์ฉ์ ์ถํ์ ์ถ๊ฐ์์ ์ด๋ค.ํ๋ก ์ค์น์ค์น ๋ฒ์ : Apache Hadoop 3.1.1https://hadoop.apache.org/release/3.1.1.htmltar.gz ๋ฒ์ ์ผ๋ก..
RDBMS ์คํค๋ง์ ์์กด์ฑ ๊ฐํจ ์ผ๋ก ์์ ์ด ์งํ ๋ถ๊ฐ๋ฅํ ๊ฒฝ์ฐ๊ฐ ์์ - ์คํค๋ง๊ฐ ์ ๋๋ก ์ ์๋์ด ์์ง์๊ฑฐ๋ - ์ฟผ๋ฆฌ๋ฅผ ํตํ ์ง์๊ฐ ์คํค๋ง์ ๋ง์ง ์์ ๊ฒฝ์ฐ ๋์ฉ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌํ๋๋ฐ ๋ถ์ ์ ํจ โ ๋ง์ ์๊ฐ ์์๋จ HIVE ๋ฐ์ดํฐ์จ์ด ํ์ฐ์ง ์ธํ๋ผ ๋ฐ์ดํฐ ์ ์ฅ, ์ฒ๋ฆฌ์ ์คํค๋ง ๊ฒ์ฆ ์์ ์คํค๋ง์ ๋ง์ง ์๋ ์ฟผ๋ฆฌ๋ null ๋ฆฌํด SQL๊ณผ ์ ์ฌํ HiveQL ์ฌ์ฉ MapReduce ํ๋ก๊ทธ๋จ ์์ฑ ๋์ ์ฟผ๋ฆฌ ์ธํฐํ์ด์ค ์๋น์ค ์ ๊ณต ์ฟผ๋ฆฌ ์คํ ์ MapReduce ํ๋ก๊ทธ๋จ์ผ๋ก ์ ํ๋์ด ๊ฒฐ๊ณผ ์์ฑ ๋น ์ ํํ๋ ์ ๋ ฅ ์์ค ๋ถ์์๋ ์ ํฉํ์ง ์์ HIVE Architecture -HIVE Client -JDBC ์์ฉ ํ๋ก๊ทธ๋จ ์ง์ , -Thrift ๊ธฐ๋ฐ ์์ฉ ํ๋ก๊ทธ๋จ ์ง์(์๋ก ์ปค๋ฎค๋์ผ์ด์ ํ ์ ์๋ ํต์ ํ๋กํ ์ฝ..
ํ๋ก์ ๋ค์ด๊ฐ๊ธฐ ์์ ๋น ๋ฐ์ดํฐ๊ฐ ๋ญ์ง ์์๋ณด๋ ค ํ๋ค. ๋น ๋ฐ์ดํฐ๋ ? ๊ธฐ์กด์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ด๋ฆฌ ๋๊ตฌ ๋ฐฉ๋ฒ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๊ท๋ชจ๋ก ๋ณต์กํ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ๊ธฐ์กด์ ๋ฐ์ดํฐ ๋ฒ ์ด์ค๋ OLTP์ฑ์ผ๋ก ๋น ๋ฅด๊ณ ์ ํํ๋ค. ๋น ๋ฐ์ดํฐ๋ ์ ํ์ฑ์ ์ด์ ์ ๋๊ธฐ๋ณด๋ค๋ ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ์ฒ๋ฆฌํ๋๋ฐ์ ์ด์ ์ ๋๊ณ ์๋ค. ๋ฐ๋ผ์ pk, update๋ฑ ์๋๊ณ ๋ฐ์ดํฐ๋ฅผ ์๋ก putํด์ผ ํ๋ค. ๋น ๋ฐ์ดํฐ 3V Volume ๋๊ท๋ชจ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. (๊ธฐ์ ๋ง๋ค ์ฐจ์ด๋ ์์ง๋ง ์์ญํ ๋ผ๋ฐ์ดํธ๋ถํฐ ์์ญํํ๋ฐ์ดํฐ ์ด์) Variety ์กด์ฌํ๋ ๋ฐ์ดํฐ์ ๋ฐฉ์์ด ๋ค์ํ๋ค. ์ ํ : ์๋ฏธ ํ์ ํ๊ธฐ ์ฌ์ฐ๋ฉฐ ๊ท์น์ ์ธ ๋ฐ์ดํฐ ๋ฐ์ ํ: HTML, XML,JSON ํํ๋ก ํ ํ ์คํธ์ column, value ๊ฐ์ด ๋น์ ํ:ํ ์คํธ, ์์ฑ, ์์ ..