Edward J. Yoon's Blog: 2019

공유 모빌리티 회사로 합류

공유 모빌리티 시장

여러 자료를 살펴보니 2010년부터 공유 모빌리티 시장이 빠르게 발전하기 시작했다. 최근에는 1천만명 이상으로 성장했고 Frost & Sullivan에 따르면 2025년까지 그 이용자 수는 3600만 명으로 연간 성장률은 16.4% 성장을 예측하고 있다. Global Market Insights는 2024 년에 전세계 자동차 공유 시장의 가치를 110억 달러로 예측한다.

현재 주요 공유 모빌리티 시장은 서유럽과 미국이며, 전문가들은 아시아가이 분야에서 가장 빠른 성장을 경험할 것이라고 예측하고 있다. 그랩이라는 회사는 동남아 8개국 336개 도시에 각종 모빌리티 서비스를 제공하는 세계 3대 차량 공유 서비스로 성장해있다.

Source: Frost & Sullivan, Future of Car Sharing Market to 2025

한국은?

이건 지극히 내 생각이지만, 현재 이용 고객은 300만 정도 되는 것 같다. 디디추싱이 한국 진출을 노리고 있지만 국내 플레이어도 빠르게 움직이고 있다보니 2배는 문안하게 성장 가능하지 않을까 생각한다.

B2C만 보았을 땐 규모에 경제 특성이 있어서 자연독점으로 가게 될 공산이 크고, P2P 우버 처럼 규제를 벗어나 다양한 서비스로 진화할 수 있을지는 미지수.

성공 키포인트?

카셰어링 서비스는 휴대폰에 앱을 설치하면 계정을 등록하고 차량을 렌트하며 시간과 함께 이동 거리를 측정하고 렌트 비용을 지불하는 방식으로 동작한다. 이 과정에 신뢰성과 유용성은 고객 만족에 영향을 미치는 주요 문제 중 하나다. 그 중 가장 중요해보이는 3가지는 아래와 같다:

등록 절차 – 보안 상의 이유로 자동차 공유 회사는 운전 면허증, 신용 카드 번호 또는 개인 신분증 사진 등을 요구한다. 사용자를 유지하려면이 프로세스의 단순화와 신뢰성을 극대화해야한다.
신뢰성 – 코드 및 이미지 스캐닝, GPS, 지불. 모든 프로세스를 올바르게 처리하려면 응용 프로그램의 각 구성 요소가 매끄럽고 빠르게 실행되고 가능한 적은 배터리 리소스를 사용해야한다.
사용자 경험 및 디자인 – 자동차 공유는 복잡한 서비스이므로 직관적인 프로세스를 디자인하고 사용자가 앱에서 해메이지 않도록해야한다.

그 밖에 자율주행이라거나 seamless한 무언가 등은 중장기라 아직은 잘 모르겠다.

결론

그냥 충분히 매력적인 서비스이고 좋은 미래 산업이라고 생각한다. 서버 판매에서 렌탈, 그리고 클라우드로 넘어온 것 처럼!

이번 달 중순부터 공유 모빌리티 회사에 기술임원으로 합류 하기로 하였다. 직장생활은 충분히 한 것 같은데 아직도 직장생활은 나에게 어떤 의미인지 정의내리기 어려운 것 같다. 내가 관심을 갖고 있는 분야이다보니 그저 살아가는 현 시대와 인생을 즐기기로.

인간 본성의 법칙 (책 리뷰 + 잡담)

점심 먹고 서점에 들러서 집어든 책이 하나 있다. "인간 본성의 법칙", 몇 장 읽어보면서 바로 몰입되는 책. 아직 다 읽지 못해서 리뷰 하긴 뭐 하지만, 과거 내 행동들에 대한 부끄러움, 감정을 배제한 이성적 의사결정에 큰 깨달음을 얻었다.

사실 표정이 순수하고 자연스럽지 못한 사람은 그 입에서 아무리 유식하고 논리 정연한 이야기가 나온다 해도 본능적으로 의심하게 되지 않나?

인간의 본성을 이해하고, 나를 이해하고, 내 행동들을 조금 더 이성적으로 결정한다면 아마도 나는 더 좋은 사람이 될 수 있으리라. 마음을 비워라. 감정을 내려놓자.

무한의 세계

무한 집합의 크기^Cardinality, 즉 원소의 개수를 수학에서는 '농도'라고 말한다. 유한 집합의 크기는 그대로 원소의 개수 이지만, 무한 집합의 경우는 원소의 개수를 낱낱이 셈하는 것은 불가능하기 때문에 '농도'라는 말을 사용하고 히브리 문자 ℵ로 표시하고 aleph라 읽는다.

자연수 전체의 개수, 즉 농도가 ℵ0인 집합은 \(\{ℵ0,ℵ1,ℵ2,…\}\) 와 같이 자연수로 번호^Index를 붙일 수 있는 집합이라 하여 가부번 무한(집합)이라고 하고 \(\{ℵ_n : n ∈ ℕ\}\) 와 같다.

자연수 다음에 등장하는 것은 유리수(분수)이다. 분수는 직선 상에서 아무리 짧은 부분을 잡아도 그 속에 또 분수가 촘촘히 박혀 있다. 즉, 유리수의 집합은 조밀한 농도를 지닌다. 그러나, 분수 전체의 집합도 자연수의 집합과 1대 1 대응이 가능하며, 따라서 유리수 집합도 같은 가부번 집합이다.

그런데, 0 에서 1 사이의 선분 상의 점을 나타내는 수들의 집합은 아무리 해도 1, 2, 3, ...과 같이 번호를 매길 수 없다. 실수 집합의 농도는 연속의 선분 상의 점의 개수와 같기 때문에 연속체 농도 또는 비-가부번 농도라고 부르며, ℵ1으로 나타낸다. 즉, 실수의 집합은 자연수보다 훨씬 큰 무한 집합이다.

거시세계와 미시세계가 프랙탈 구조로서 연속되어 있다는 석가모니의 우주관에서 소름이 돋을수 밖에 없다! 우주의 무한 크기에 놀랄 것 없이 우리 자체가 훨씬 큰 무한일지 모르겠다.

음성 인공지능 스타트업의 기회 분석

음성 인공지능 분야에서 스타트업이 생각해볼 수 있는 전략은 아마 다음과 같이 3가지 정도가 있을 것이다:

독자적 Vertical 음성 인공지능 Application 구축
기 음성 플랫폼을 활용한 B2B2C 형태의 비지니스 구축
기 음성 플랫폼 생태계 내에 3^rd party 서비스 구축

(1) 의 접근은 도메인 특화된 Standalone 음성 인공지능 Application을 만드는 방법이다. (2) 의 접근은 기 음성 플랫폼 비지니스 사업자에 특수 분야 기술을 제공해서 최종적으로 소비자에게 전달되는 B2B2C 형태의 사업 추진이다. 마지막으로 (3) 은 기 음성 플랫폼 내 3^rd party 서비스를 개발하여 소비자에게 제공하는 방법이다. 지금부터 하나씩 사례와 함께 자세히 살펴보자.

1) 독자적 Vertical 음성 인공지능 Application 구축

너무 당연한 얘기지만 스타트업이 구글이나 아마존의 범용 음성인식과 차별없는 음성 인식을 통해 경쟁하려 든다면 그것은 별로 좋은 아이디어는 아니다. 구글이나 바이두와 같은 막강한 기업 만큼의 예산과 기술을 갖추고 있지 않기 때문에 무조건 백전 백패다.

그러나, 특정 산업에 특화된 문제를 발굴하고 AI를 결합해 그 문제를 해결하는 접근으로 속도를 내고 있는 Vertical AI 스타트업이 있다. 대표적으로 Chorus.ai와 한국의 리뷰와이저(?), 액션파워 정도가 될 것 같다.

코러스의 창업자는 도메인 특화된 버티컬 엔진이 (경험적으로 퉁쳐서) 일반 범용 엔진보다 최소 15% 향상된 성능을 낼 수 있다고 한다. 국내 Vertical voice AI 회사도 만나본 적은 있지만 개인적으로 나눈 대화다 보니 특별히 언급은 생략한다.

뭐 여하튼 (정량적 평가 수치는 확인할 수 없었으나) 기술적으로 따져보았을 때 명백히 narrow domain으로 접근하면 자연어 처리에 있어 그 복잡도를 낮추고 결론적으로 높은 성능을 낼 수는 있을 것이다.

이 때문에 도메인 특화된 음성 인식 엔진은 당장 빠르게 우위를 점할 수 있다는 점은 분명하다.

다만, 막강한 자본과 기술로 무장한 메이저 플레이어들이 데이터를 확보하는 것은 시간 문제이기 때문에, 시간이 지남에 따라 점점 더 많은 활용 사례로 확장될 것이고 장기적으로 보았을때 방어력을 구축 하는 것은 어려울 것이라고 생각한다.

물론 Vertical 이라 해서 단순히 "전문용어" 같은 언어적 특성 영역 만을 바라볼 필요는 없다. 업무 몰입을 돕는 Voxo, Agvoice 라는 스타트업도 있다.

2) 기 음성 플랫폼을 활용한 B2B2C 형태의 비지니스 구축

아마존 에코 (echo) 를 활용해서 심장병 환자의 가정 치료 솔루션을 병원에 제공하는 회사가 하나 있다. 카디오큐브라는 곳인데, 그들은 기 음성 플랫폼을 전략적 B2B 비지니스 고객으로 활용해서 의료기기 형태로 제품을 만들고 병원을 통해 그것이 최종 환자 (소비자) 에게 공급되도록 하는 B2B2C 형태의 비지니스를 하고 있다.

AI 스피커를 따로 만들고 음성 인식 관련 기술을 모두 자체 연구 개발하는 것 대신 기 음성 스피커를 적당히 레버러징하여 비지니스를 풀어내는 것이다.

언뜻 보면 굉장히 매력적인 모습으로 보이긴 하는데, 이런식으로 제품을 만들면 구글과 아마존의 플랫폼 전략에 좌지우지 되며 결국 제약에 발목을 잡힐 수 있지 않을까?

또, 그들 플랫폼은 원본 오디오나 텍스트 정보에 접근하는 것을 엄격하게 제한하고 있기 때문에 서비스 품질을 고도화하거나 자체적인 데이터 경쟁력을 확보하기 어려워 장기 계획을 세우기 어렵다고 볼 수 있다.

3) 기 음성 플랫폼 생태계 내에 3^rd party 서비스 구축

거대 회사에서 음성 플랫폼을 만들자마자 역시나 빠르게 기존 성공 방정식대로 서비스 분석 통계 툴, 개발 생산성 도구, 그리고 cross-platform SDK 제공 회사들이 빠르게 쏟아져 나왔다. 대표적인 업체가 VoiceLabs, Storyline, Jovo 등이 있다.

이러한 3^rd party 사업은 다 좋은데 그 시장이 충분히 성장한 상태인지가 중요하다. 개인적으로는 이러한 스타트업들은 선점 효과만을 보고 들어가는 약간의 도박성이 있다고 생각한다.

선점 효과가 존재한다는 것은 결국 진입이 쉽다는 얘기라 빠른 시간 내 무한 경쟁 환경에 처하게 되고, (2) 접근과 같이 거대 기업의 플랫폼 전략에 운명이 좌지우지 할 수 밖에 없다.

서비스 분석 통계 툴을 제공하는 VoiceLabs 경우는 아마존의 정책 변경 때문에 서비스를 종료하는 상황도 맞이했는데, 내가 보았을 땐 다분히 의도적인 대기업 횡포의 일환이라고 본다.

맺으며

요즘 특히 음성 AI에 관심이 많다. (지금은 쪼깨 막연하긴 하지만) 음성이라는 것이 정보 소통과 정보 기록에 있어 중요한 인터페이스라는 점에서다. 소통이라는 것은 너무 본질적인 것이다 보니 인간사와 20년 전부터 오늘날 모든 인터넷 서비스에도 여전히 킬러 요소로 자리하고 있다.

어쨌든 스타트업으로써는 (1) 의 접근이 가장 현실적이라고 생각하고 있고, 특별히 B2C 서비스로 AI startup 이 활약할 기회는 (지금 까지 내 생각엔) 크게 많지 않다고 생각하고 있다. 메모장이나 통화 기록을 받아적어주는 정도랄까? (이것들은 이미 내가 시도를 해봤고 playstore에서도 한번 받아 써볼 수 있다).

그래서 B2B 사업 전략과 기회들을 간략히 한번 살펴보았고, 내릴 수 있는 결론은 3가지 모두 장단이 있어서 상황과 문제 특성과 타이밍에 의존적이며, 그에 맞는 전략을 취하는 것이 좋다.

방향이 없는 아주 초기 경우에는 (1) 의 접근이 조금 좋아보인다. 문제는 도메인 지식이다.

다음은 "The Secrets of Successful AI Startups. Who’s Making Money in AI?" 라는 제목의 블로그 포스트 일부 내용이다.

It is clear that AI startups are providing valuable point solutions to enterprises and are succeeding as they have access to (1) large and proprietary data training sets, (2) domain knowledge that gives them deep insights into the opportunities within a sector, and (3) a deep pool of talent around applied AI.

큰 틀에서는 동의를 하지만 내 경험상 데이터는 그렇게 중요한 문제가 아니라고 생각하고 있고, .. 그래서 가장 중요한 문제는 역시나 특정 분야 내 기회를 잡아낼 수 있는 날카로운 인사이트와 도메인 지식이 가장 중요하다고 생각하고 있다.

기술력은 후행 변수다. 타겟이 명확히 없으면 트렌드 공부와 academic 수준의 쉐도우복싱 (?) 말고는 할 것이 없다.

그렇다보니 AI로 돈벌어 먹고 살거라면, 세상을 살펴보고 다양한 사람들을 만나보는 것이 어쩌면 지금 가장 우리가 해야할 일이 아닌가 싶다.

References:

- https://towardsdatascience.com/the-secrets-of-successful-ai-startups-whos-making-money-in-ai-part-ii-207fea92a8d5
- http://www.bradfordcross.com/blog/2017/6/13/vertical-ai-startups-solving-industry-specific-problems-by-combining-ai-and-subject-matter-expertise

CTC 손실 함수

\(L\)을 label의 집합, \(L’\)을 공백이 포함된 label의 집합이라고 하자. 길이 T를 갖는 sequence에 대하여, 모든 가능한 paths(network output)의 집합을 \(L’^T = \pi\) 라 하자. 실제 labeling z를 갖는 input x에 대하여, 제대로 labelling이 될 확률을 최대화 하는 문제가 된다. 이후에 maximum likelihood estimation 을 이용해 최적화한다.

\(\hat\theta = arg \max_{\theta} \prod_{i=1}^N p(Z^{(i)} | X^{(i)} ; \theta)\)

output에서 얻은 labels에서 중복되는 label과 공백을 없애는 n:1 함수를 B라고 정의하자. 함수 B는 “Collapsing” operation한다고 칭한다. 예시는 다음과같다.
B(_A__AAAA_BBBCCCC) = B(A_A_BBBB_CC) = AABC

B의 역함수 B^-1 가 정의 가능하며, 이 함수는 ground truth에 대하여 모든 possible paths로 map이 가능하다.
B^-1(ABCC) = -A-AAA-BBBCCC, 등등등등등 (1:n 함수?형태)

역함수의 성질을 수식으로 표현하면 우측과 같다: \(\{ B(x)|x \in B^{-1}(z)\} = z \)

이제, 주어진 labelling z에 대한 가능도를 정의할 수 있으며, z로 Collapse 가능한 모든 paths가 나올 확률의 합으로 가능도를 정의할 수 있다.

\(p(Z|x ; \theta) = \sum_{\pi \in B^{-1}(z)} p(\pi | x ; \theta) \)

앞서 본 인풋x에 대해 labeling z 를 최적화 하려는 식(아래의 식) 안에 대입을 하고 합의 형태로 바꿔 minimazation 문제로 바꾸면 최종식은 다음과 같다.

\(\hat\theta = arg \max_{\theta} \sum_{i=1}^Nlog [ \sum_{\pi \in B^{-1}(z^{(i)})} p(\pi | x^{(i)} ; \theta) ] \)

Edward J. Yoon's Blog

공유 모빌리티 회사로 합류

공유 모빌리티 시장

한국은?

성공 키포인트?

결론

인간 본성의 법칙 (책 리뷰 + 잡담)

무한의 세계

음성 인공지능 스타트업의 기회 분석

CTC 손실 함수

음성 인공지능 스타트업의 기회 분석

Report Abuse

Labels