이산확률변수 \(X = x_1, x_2, \cdots, x_n\) 일 때, 각 확률 \(P = p_1, p_2, \cdots, p_n\)의 합은 \(\displaystyle\sum_{i=0}^n p_i = 1\) 이 된다. 이산확률변수의 평균(기대값)은 \(E(x) = \displaystyle\sum_{i=0}^n x_ip_i\)로 정의된다. 보통 통계에서는 mean 이라고 하며 우리가 아는 그 평균이다. 가령, 10, 20, 30의 평균을 구해라 이러면 각 변수의 확률은 1/3이 되니까, \(\frac{10 + 20 + 30}{3}\)과 같이 식이 간소화 된다.
분산은 각 변수에 mean 값을 뺀 제곱에 확률 값을 곱한 것의 합으로 정의되는데 \(V(x) = \displaystyle\sum_{i=0}^n (x_i - m)^2p_i\), 값이 작으면 조밀하고 크다면 퍼져 있다라고 이해할 수 있다. 마지막으로 표준편차는 분산에 sqrt를 씌우면 되는데 \(\sigma(x) = \sqrt{\displaystyle\sum_{i=0}^n (x_i - m)^2p_i}\) 평균으로부터 얼마나 떨어져 있는지를 나타내는 값이 된다.
그러면 예를 들어보자, 웹사이트 방문자 모집단 체류 시간을 모아서 2d plotting 하면 분포를 눈으로 볼 수 있겠고 (이것만 보더라도 알 수 있는게 많음), 평균, 분산, 표준편차를 구하면 어떤 사용자가 이질적인 성향을 보이는지 등을 추적 할 수 있게 된다.
Subscribe to:
Post Comments (Atom)
-
Opening the black box of Deep Neural Networks via Information - https://arxiv.org/pdf/1703.00810.pdf 지금까지 딥 러닝은 어떻게 동작하는지 이해할 수 없다고 믿어져왔다...
-
음성 인공지능 분야에서 스타트업이 생각해볼 수 있는 전략은 아마 다음과 같이 3가지 정도가 있을 것이다: 독자적 Vertical 음성 인공지능 Application 구축 기 음성 플랫폼을 활용한 B2B2C 형태의 비지니스 구축 기 음성 플랫폼...
-
As mentioned ago, I've been forming up the Hamburg project with Hyunsik Choi. Let's see more detail in the diagram of computing met...
I've read all your post and It's really amazing , I can say. Keep it up and I will follow every single one of them :)
ReplyDelete