위키피디아에 따르면 국내 최대포탈 네이버의 하루 평균 페이지뷰는 860,000,000. 웹로그 한 라인의 평균을 150 bytes라고 계산하면 (referrer URL 추가해서 이정도라고 계산),
하루: 196 GB
일년: 69 TB
10년: 698 TB
99년도 창립 이후 지금까지 14년정도 운영해왔으니 대충 계산해도 access log는 700 TB정도 밖에 안되는거다.
그럼 페타바이트 규모의 데이터는 어디에?
무시무시한 속도로 생성되는 웹 문서, 웹 메일 정도 되겠다. 검색엔진 서비스 개선을 위한 페이지랭크, 스팸필터링, 그리고 문서 클러스터링 요런거 말고 할 것이 별로 없다 (이런 필요성에 MapReduce 모델이 나온 것이다). 아마 분석보다는 스토리지 문제에 포커싱해야겠지.
이런 데이터가 전체 데이터의 90% 이상을 차지하는 것이고, 오늘날 빅데이터가 말하는 "사용자 성향 분석", "추천엔진" 뭐 그런 것들에 필요한 인풋 데이터는 실질적으로 네이버 규모에서도 그 사이즈가 GB ~ TB 수준일 수 밖에 없다.
그러면, 네이버 웹스케일이 아닌 다른 회사들의 전자데이터는 과연 얼마나 될까? :-)
뭐 외국도 사실 마찬가지다. 몇 테라바이트 트윗 데이터에서 어떤 분석을 위해 사용자 인터렉션 구조를 추출해봐야 몇 GB 되지 않는다.
고급 분석에서는 데이터 사이즈가 문제되는게 아니고 계산 복잡도가 문제인 것을 사람들은 알아야해.
Subscribe to:
Post Comments (Atom)
-
음성 인공지능 분야에서 스타트업이 생각해볼 수 있는 전략은 아마 다음과 같이 3가지 정도가 있을 것이다: 독자적 Vertical 음성 인공지능 Application 구축 기 음성 플랫폼을 활용한 B2B2C 형태의 비지니스 구축 기 음성 플랫폼...
-
우리는 남들의 비판을 경험하면서 창조적 사고를 포기하게 된다. 비판으로부터 방어논리와 자기 검열에 취중한 나머지 더 이상 사고에 자유롭지 못하게 되니까 그렇다. 남들의 비판을 두려워하지 않는 자세.. 그것이 순수한 창조적 사고를 지속하는 방법이다...
-
“군자는 어울리되 패거리를 짓지 않고, 소인은 패거리를 짓되 어울리지 않는다." 군자는 의(義)를 높이기에 아부하지 않고, 부화뇌동(附和雷同)하지 않는다. 군자는 대의명분을 지키면서 화합하며 협력한다. 하지만 소인은 이익을 높이기에 이해관...
-
네이버, KT, 오라클, 그리고 잠깐의 사업을 거쳐 삼성전자에 입사한지도 2년이 지났습니다. 2016년 병신년을 뒤로하며 이번에는 꽤 색다른 도전에 나섭니다. 무슨 일이야!? 국내 O2O 숙박전문 회사 CTO로 조인합니다! 존! 나 고...
https://www.oobbg.com 우리카지노사이트
ReplyDeletehttps://www.oobbg.com/theking 더킹카지노
https://www.oobbg.com/sands 샌즈카지노
https://www.oobbg.com/first 퍼스트카지노
https://www.oobbg.com/yes 예스카지노
https://www.oobbg.com/coin 코인카지노
https://www.oobbg.com/33 33카지노
https://www.oobbg.com/world 월드카지노
https://www.oobbg.com/merit 메리트카지노
https://www.oobbg.com/gatsby 개츠비카지노
https://www.bbdd66.com 우리카지노사이트
ReplyDeletehttps://www.bbdd66.com/theking 더킹카지노
https://www.bbdd66.com/sands 샌즈카지노
https://www.bbdd66.com/first 퍼스트카지노
https://www.bbdd66.com/yes 예스카지노
https://www.bbdd66.com/super 슈퍼카지노
https://www.bbdd66.com/gatsby 개츠비카지노
https://www.bbdd66.com/33 33카지노
https://www.bbdd66.com/world 월드카지노
https://www.bbdd66.com/merit 메리트카지노