์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ์ํ์น ์คํํฌ
- ์๋ผ์คํฑ์์น
- BIGDATA
- Apache spark
- ํ๋ก์ค์น
- HBase
- ์ฑ๊ธ์๋ฒ
- ๋ฆฌ๋ ์ค RPM
- ๋น ๋ฐ์ดํฐ
- ์ค์๋ธ ์ค์น
- ์คํํฌ
- CLF-C02
- ansible
- rpmbuild
- ๋ฆฟ์ฝ๋
- ํ์ด๋ธ
- ๋ฆฌ๋ ์ค
- ํด ์ค์น
- elastic stack
- aws ccp
- ์ค์นผ๋ผ ๋ถ
- ํ๋ก
- hadoop
- airflow
- LeetCode
- kudu
- standalone
- ์ค์๋ธ
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ํ๋ก์์ฝ์์คํ
- Today
- Total
๋ชฉ๋กhadoop (8)
data_lab
ํ๋ก์ ์ค์นํ๊ณ ํ๊ฒฝ์ ๋ง๊ฒ ์ธํ ํ ํ ์ ์์ ์ผ๋ก ์ค์น๊ฐ ๋์๋์ง ํ์ธํ ํ์๊ฐ ์๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ ๊ณตํ๋ example.jar ํ์ผ์ ํตํด ์์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ๋ณ๋ ฌ์ฒ๋ฆฌํ์ฌ ์ ๋ ฌ, ์ ๋ ฌ๋ ๋ฐ์ดํฐ์ ์ ํจ์ฑ์ ๊ฒ์ฌํ์ฌ ๊ธฐ๋ณธ์ ์ธ ์ฑ๋ฅ์ ํ ์คํธํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ณต์์ฌ์ดํธ์์๋ ์์ ์ฐพ๊ธฐ ํ๋ค์๊ณ , microsoft azure๋ฅผ ์ฐธ๊ณ ํ์ฌ ํ ์คํธ๋ฅผ ์งํํ๋ค. https://docs.microsoft.com/ko-kr/azure/hdinsight/hadoop/apache-hadoop-run-samples-linux HDInsight์์ Apache Hadoop MapReduce ์์ ์คํ - Azure HDInsight์ ํฌํจ๋ jar ํ์ผ์ MapReduce ์ํ์ ์ฌ์ฉํ์ฌ ์์ํ์ธ์. SSH๋ฅผ ํตํด ํด๋ฌ์คํฐ์..
HIVE ํ ์ด๋ธ ๊ด๋ฆฌ HIVE ํ ์ด๋ธ 1. ๋ฐ์ดํฐ๋ฅผ HIVE ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๋ฉด? HiveQL, ํผ๊ทธ, ์คํํฌ ๋ฑ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌ > ์ํธ์ด์ ๋ณด์ฅ 2. HIVE๊ฐ ์ง์ํ๋ ํ ์ด๋ธ ์ข ๋ฅ - ๋ด๋ถ ํ ์ด๋ธ : HIVE๊ฐ ๊ด๋ฆฌ, HIVE/ ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค์ ์ ์ฅ, ๋ด๋ถํ ์ด๋ธ ์ญ์ ์ ๋ฉํ์ ์์ ๋ฐ์ดํฐ๊น์ง ์ญ์ ๋จ, ORC๊ฐ์ ํ์์ผ๋ก ์ ์ฅ๋์ด ๋น๊ต์ ๋น ๋ฅธ ์ฑ๋ฅ - ์ธ๋ถ ํ ์ด๋ธ : ํ์ด๋ธ๊ฐ ์ง์ ๊ด๋ฆฌํ์ง ์์, ํ์ด๋ธ์ ๋ฉํ์ ์๋ง ์ฌ์ฉํ์ฌ ์์ ํํ๋ก ์ ์ฅ๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๊ทผ ์ธ๋ถ ํ ์ด๋ธ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํด๋ ํ ์ด๋ธ ๋ฉํ ์ ์๋ง ์ญ์ ๋๊ณ ๋ฐ์ดํฐ๋ ์ ์ง๋จ. ํด๋น ๋ฐ์ดํฐ๊ฐ ํ์ด๋ธ ์ธ๋ถ์ ์ ์ฌ ๋์ด์๊ฑฐ๋ ํ ์ด๋ธ์ด ์ญ์ ๋๋๋ผ๋ ์๋ณธ ๋ฐ์ดํฐ๊ฐ ๋จ์ ์์ด์ผํ ๋ ์ฌ์ฉ 3.csv ํ์ผ์ ํ์ด๋ธ ํ ์ด๋ธ๋ก ๊ฐ์ ธ์ค๊ธฐ 1...
ํ๋ก ๋ฒ์ 3.1 ๊ธฐ์ค์ผ๋ก ๊ฐ์ธ์ ์ผ๋ก ์ ๋ฆฌํ ๋ช ๋ น์ด์ด๋ค. ๊ธฐ์กด์ ๋ฆฌ๋ ์ค์ ๋ํด ๊ณต๋ถํ๋ค๋ฉด ํ๋ก ๋ช ๋ น์ด๋ฅผ ๊ณต๋ถํ๋๋ฐ์ ์์ฒญ ์ด๋ ต์ง์๋ค. 1.hdfs dfs –cat /tmp/Sample2.txt #ํ์ผ ์ฝ๊ธฐ 2.hdfs dfs –checksum /tmp/Sample2.txt ๋ฐ์ดํฐ๋ฌด๊ฒฐ์ฑ 3.hdfs dfs –chgrp kyn /tmp/Sample2.txt 4.hdfs dfs –chown kyn /tmp/Sample2.txt 5.hdfs dfs –chmod –R 777 /tmp/Sample2.txt 6.hdfs dfs –copyFromLocal /tmp/Sample2.txt put์ ์ฌ 7.hdfs dfs –copyToLocal /tmp/Sample2.txt 8.hdfs dfs –count /tmp/Sampl..
hue ์ค์น ํ ๋ ์์ ์๋ ํ๋ก ์์ฝ์์คํ ๋ค์ด ์ด๋์ ๋ ์ค์น๋์๋ค๊ณ ๊ฐ์ ํ๊ณ ์งํํ๊ฒ ๋ค. ํด์ ๊ฒฝ์ฐ ์ค์นํ๊ธฐ์ ์ ์ฌ์ ์์ ์ ํด์ค์ผ ํ๋ค. postgres๋ ๋ค๋ฅธ ํฌ์คํธ์์ ์ค์ ์ ๋ค๋ฃจ๊ธฐ๋ก ํ๊ณ , ํด ์ค์น ๊ฐ์ด๋ ์์๋ ํด์์ ์ฌ์ฉํ ๋ฐ์ดํฐ ๋ฒ ์ด์ค ์์ฑ์ ๋๋ง ๋ค๋ฃฐ ์์ ์ด๋ค. ์ฌ์ ์์ ํด๋ ํ์ด์ฌ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ๊ฒฝ๋ณ์๋ก ํ์ด์ฌ ๋ฒ์ ์ ์ก์์ค์ผํ๋ค. ํ๊ฒฝ๋ณ์๋ .bash_profile ์ ์ถ๊ฐํ์๋ค. ํ์ด์ฌ ํ๊ฒฝ๋ณ์ ์ถ๊ฐ $ sudo vi ~/..bash_profile export PYTHON_VER=python3.8 psycopg2 ์ค์น (์ ์ pip๋ ์ค์น๋์ด ์์ด์ผํจ) $ pip install psycopg2 $ python setup.py build $ sudo python setup.py i..
$ wget https://archive.apache.org/dist/hbase/2.2.0/hbase-2.2.0-bin.tar.gz $ tar xvzf hbase-2.2.0-bin.tar.gz $ ln -s hbase-2.2.0-bin hbase hbase ์ค์น ํ ์์ถ ํ๊ณ ์ฌ๋ณผ๋ฆญ ๋งํฌ๋ฅผ ๊ฑด๋ค. hbase.rootdir hdfs://localhost:9000/hbase hbase.master.port 60000 hbase.master.info.port 60010 hbase.regionserver.info.bindAddress 0.0.0.0 hbase.regionserver.port 60020 hbase.regionserver.info.port 60030 hbase.zookeeper.quorum bdh2..
์ฑ๊ธ๋ ธ๋์์ ํ๋ก์ ์ด๋ป๊ฒ ์ค์นํ๋์ง ์์ฑํ๋ คํ๋ค. ํ๋ก์ ์ค์นํ๊ธฐ ์ ์ ๊ธฐ๋ณธ์ ์ผ๋ก os์์ ์ค์ ์ ๋ฐ๊ฟ์ผ ํ๋๊ฒ ์๋ค. ์ผ๋จ ๊ธฐ๋ณธ์ ์ผ๋ก os ๋ฒ์ ์ cent os7.x ์ด๋ค. ์ธํ๋ผ๋ฅผ ์ด์ํ ๋ root ๊ณ์ ์ ์ฌ์ฉํ์ง ์๋๋ค. ๋ค๋ฅธ ๊ณ์ ์ ์์ฑํ์ฌ sudo ๊ถํ์ ๋ถ์ฌ๋ฐ๊ณ ์ต๋ํ ๊ทธ ๊ณ์ ์ผ๋ก ์ค์น๋ฅผ ์งํํ๋ค. ํ๋ก์ ์ค์นํ๊ธฐ ์ ์?๋ฐฉํ๋ฒฝ์ ๋ด๋ฆฌ๊ณ selinux disabled ๊ทธ๋ฆฌ๊ณ ์ ์ ๊ณ์ ์ ์ถ๊ฐํ์ฌ ๋๋๋ก root๊ณ์ ์ ์ฌ์ฉํ์ง ์๊ณ ์งํํ๋ คํ๋ค. ์๋ฐ๋ open jdk 1.8๋ฒ์ ์ ์ค์นํ์ฌ ํ๊ฒฝ๋ณ์ ์ถ๊ฐํ๋ค. ํด๋น ๋ด์ฉ์ ์ถํ์ ์ถ๊ฐ์์ ์ด๋ค.ํ๋ก ์ค์น์ค์น ๋ฒ์ : Apache Hadoop 3.1.1https://hadoop.apache.org/release/3.1.1.htmltar.gz ๋ฒ์ ์ผ๋ก..
RDBMS ์คํค๋ง์ ์์กด์ฑ ๊ฐํจ ์ผ๋ก ์์ ์ด ์งํ ๋ถ๊ฐ๋ฅํ ๊ฒฝ์ฐ๊ฐ ์์ - ์คํค๋ง๊ฐ ์ ๋๋ก ์ ์๋์ด ์์ง์๊ฑฐ๋ - ์ฟผ๋ฆฌ๋ฅผ ํตํ ์ง์๊ฐ ์คํค๋ง์ ๋ง์ง ์์ ๊ฒฝ์ฐ ๋์ฉ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌํ๋๋ฐ ๋ถ์ ์ ํจ – ๋ง์ ์๊ฐ ์์๋จ HIVE ๋ฐ์ดํฐ์จ์ด ํ์ฐ์ง ์ธํ๋ผ ๋ฐ์ดํฐ ์ ์ฅ, ์ฒ๋ฆฌ์ ์คํค๋ง ๊ฒ์ฆ ์์ ์คํค๋ง์ ๋ง์ง ์๋ ์ฟผ๋ฆฌ๋ null ๋ฆฌํด SQL๊ณผ ์ ์ฌํ HiveQL ์ฌ์ฉ MapReduce ํ๋ก๊ทธ๋จ ์์ฑ ๋์ ์ฟผ๋ฆฌ ์ธํฐํ์ด์ค ์๋น์ค ์ ๊ณต ์ฟผ๋ฆฌ ์คํ ์ MapReduce ํ๋ก๊ทธ๋จ์ผ๋ก ์ ํ๋์ด ๊ฒฐ๊ณผ ์์ฑ ๋น ์ ํํ๋ ์ ๋ ฅ ์์ค ๋ถ์์๋ ์ ํฉํ์ง ์์ HIVE Architecture -HIVE Client -JDBC ์์ฉ ํ๋ก๊ทธ๋จ ์ง์ , -Thrift ๊ธฐ๋ฐ ์์ฉ ํ๋ก๊ทธ๋จ ์ง์(์๋ก ์ปค๋ฎค๋์ผ์ด์ ํ ์ ์๋ ํต์ ํ๋กํ ์ฝ..
ํ๋ก์ ๋ค์ด๊ฐ๊ธฐ ์์ ๋น ๋ฐ์ดํฐ๊ฐ ๋ญ์ง ์์๋ณด๋ ค ํ๋ค. ๋น ๋ฐ์ดํฐ๋ ? ๊ธฐ์กด์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ด๋ฆฌ ๋๊ตฌ ๋ฐฉ๋ฒ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๊ท๋ชจ๋ก ๋ณต์กํ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ๊ธฐ์กด์ ๋ฐ์ดํฐ ๋ฒ ์ด์ค๋ OLTP์ฑ์ผ๋ก ๋น ๋ฅด๊ณ ์ ํํ๋ค. ๋น ๋ฐ์ดํฐ๋ ์ ํ์ฑ์ ์ด์ ์ ๋๊ธฐ๋ณด๋ค๋ ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ์ฒ๋ฆฌํ๋๋ฐ์ ์ด์ ์ ๋๊ณ ์๋ค. ๋ฐ๋ผ์ pk, update๋ฑ ์๋๊ณ ๋ฐ์ดํฐ๋ฅผ ์๋ก putํด์ผ ํ๋ค. ๋น ๋ฐ์ดํฐ 3V Volume ๋๊ท๋ชจ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. (๊ธฐ์ ๋ง๋ค ์ฐจ์ด๋ ์์ง๋ง ์์ญํ ๋ผ๋ฐ์ดํธ๋ถํฐ ์์ญํํ๋ฐ์ดํฐ ์ด์) Variety ์กด์ฌํ๋ ๋ฐ์ดํฐ์ ๋ฐฉ์์ด ๋ค์ํ๋ค. ์ ํ : ์๋ฏธ ํ์ ํ๊ธฐ ์ฌ์ฐ๋ฉฐ ๊ท์น์ ์ธ ๋ฐ์ดํฐ ๋ฐ์ ํ: HTML, XML,JSON ํํ๋ก ํ ํ ์คํธ์ column, value ๊ฐ์ด ๋น์ ํ:ํ ์คํธ, ์์ฑ, ์์ ..