Big Data에 대해 알아보자~[얕고 넓은 직무지식#36]

  • 12,315
  • 0
  • 0

 


1. Big Data란 무엇인가?

빅데이터란 통상적으로 예전에는 장기적으로 저장되지 않거나 분석되지 않던 방대한 분량의 데이터를 뜻한다. 단순히 데이터가 쌓인 것뿐이라면 뭐 대단할게 있나?싶을 수도 있겠지만 데이터를 쌓을 수 있게 되었다는 것이 대단한 의미를 갖는다. 


디지털 기술의 발달과 확산 덕택에, 과거에는 기록 자체가 되지 않고 저장되지 않던 데이터들이 

디지털 데이터로 기록되고 저장 가능해지면서 데이터를 실제로 쌓아서 분석할 수 있게 된 것이다. 나의 애인은 언제 지름신이 강림하는가?라는 개인적 문제부터, 매운 라면 수요량이 늘어나니까 

물가가 내려가더라는 국가 경제적 문제까지 말이다.


기술적 가능성, 경제적 타당성, 분석 성능 등의 이유로 과거엔 버려지던 데이터를 저장하고, 서로 관계 없어 보이는 것들끼리의 연관관계를 분석함으로써 우리가 모르는 사실을 알게 되거나 미래가 어떻게 변할지 예측할 수 있게 되는 것. 이것이 바로 빅데이터의 의미이자 가치이다.


2. 빅데이터가 이슈가 된 배경은?

기술적 가능성, 경제적 타당성, 분석 성능 이 3가지의 해결이 가능해지면서 이슈가 되었다.


3. 빅데이터 적용사례 - 석유 시추선

석유 시추선은 매 초마다 엄청난 석유를 생산하고 동시에 방대한 데이터를 만들어낸다. 거대한 
석유 시추선을 구성하는 모든 부품 하나 하나마다 적은 양의 데이터를 계속 토해내는데, 워낙 많은 부품들이 데이터를 내 놓다 보니 방대한 양이 되는 것이다. 예전엔 이 데이터를 모두 버렸다. 장애 감지용으로 데이터를 감시하지만, 장애가 안 생기면 과거 데이터는 저장할 필요 없기 때문이다.

하지만 문제는 장애가 발생할 경우다. 원유 채굴을 멈추고 장애 부품을 파악, 대체품을 본국에 
요청해 본국에서 항공편으로 부품을 가져와서 수리를 해야하는데 7일이 걸렸다고 치면 
그 동안 생산하지 못한 손해는 어마어마한 액수가 된다.

그래서 버려지던 방대한 데이터를 계속 쌓으면서 장애가 발생할 경우, 장애 발생 전에 관련 부품들이 토해낸 데이터들을 분석해 장애 발생의 징후를 가리키는 패턴을 찾게 됐다. 
“특정 부품들이 특정 경향의 값들을 보이면 48시간내 부품 X가 고장날 확률 80%”, “따라서 
그 경우 48시간 내 본국에서 부품 공수해 선제적으로 부품 교체” 이런 것들이 가능해진 것이다.

결과적으로 고장으로 인한 정지일을 80% 줄였고, 생산량은 5%까지 늘었으며, 운영비용이 
매년 7억$ 줄게 됐다.(한국 SAS 이사가 소개한 사례)


4. 빅데이터 적용사례 - 기타

LG디스플레이 공장 생산라인, 구글의 미국 내 독감 발생 추이 예측, 오바마 정부의 빅데이터 정책

`17.08.31(updated. `17.08.31)