• 페이스북
  • 트위터
  • 유튜브

객관은 없다, 주관의 신통력 ‘베이즈통계학 입문’

등록 2017.03.02 15:13:50

  • 이메일 보내기
  • 프린터
  • PDF
【서울=뉴시스】신동립 기자 = 인터넷에서는 고객의 구매나 검색 행동 이력이 자동으로 수집된다. 이를 바탕으로 고객의 유형을 추정하는 데는 전통적인 통계학보다 베이즈통계가 훨씬 낫다. 베이즈통계를 일찌감치 비즈니스에 이용한 것으로 유명한 기업이 마이크로소프트다. 윈도OS의 도움말 기능에 베이즈통계를 도입했고, 웹에서 사용자가 ‘아이의 병 증상’이라고 검색하면 유익한 지침이 우선 노출되는 소프트웨어도 개발했다. 구글 또한 검색엔진의 자동번역 시스템에 베이즈통계 기술을 활용한 것으로 알려져 있다.  ‘세상에서 가장 쉬운 베이즈통계학 입문’은 책 제명 그대로다.  “필자가 오락잡지에 실었던 베이즈 추정 관련 기사에서는 앙케트 조사 결과를 활용했다. 사전에 편집자에게 부탁하여 직장 여성들의 밸런타인 행동에 대한 앙케트 조사를 실시했다. 알고 싶었던 부분은 ‘여성들이 마음에 두고 있는 남성과 논외인 남성에게 각각 어느 정도의 확률로 초콜릿을 주는가’였다. 편집자는 직장 여성을 대상으로 인터넷 앙케트용 게시판에 ‘0%, 50%, 100%’의 선택지를 제시한 간이적인 설문 조사를 실시하여 보고해 주었다. 그것을 통계적으로 처리한 결과, 평균적으로 봤을 때 그녀들은 ‘진심’인 상대에게는 42.5%의 확률로, 논외인 상대에게는 22%의 확률로 초콜릿을 준다는 판명이 났다. 진심으로 생각하는 상대에게 주는 확률이 50% 이하라는 것도 의외였지만, 논외인 상대에게 22%나 되는 확률로 준다는 것에 ‘예의상 초콜릿을 주는 습관’의 대단함을 실감했다.”  베이즈 역확률은 영국의 수학자 겸 목사 토머스 베이즈(1702~1761)가 발견하고, 1787년 프랑스의 수학자 라플라스가 공식 형태로 완성해냈다.  베이즈통계가 다루는 확률은 주관적이다. 객관적인 수치가 아니라 인간의 심리에 의존한 것이기 때문이다. 베이즈통계가 사상적인 면을 갖추고 있다고 평가받는 이유이기도 하다. 주관성과 사상성은 베이즈통계의 본질이자 편의성의 원천이다.  책은 베이즈통계의 주관성, 사상성을 숨김없이 해설했다. 특히 표준 통계학과 어떤 점이 어떻게 다른가를 상세히 설명했다.  “이처럼 설정되어 있는 확률 모델에 대해 사후분포가 사전분포와 동일한 분포를 따르게 되는 경우 이 사전분포를 ‘공액사전분포’라 부른다. 여기서 아이가 여아인지 남아인지에 대한 확률 모델의 공액사전분포는 베타분포다. 베이즈 추정에서는 추정하고 싶은 확률 모델의 공액사전분포를 사전분포로 사용하는 것이 통례다. 그 이유로 다음 두 가지를 생각할 수 있다. 첫 번째 이유: 사전분포와 사후분포가 같은 분포를 따르면 계산이 현저히 간편해 진다. 두 번째 이유: 사전분포와 사후분포가 다르다는 것은 철학적으로 볼 때 이상하다고 생각할 수 있다. 이상의 두 가지 이유는 정반대라 해도 될 만큼 다른 시점이다. 어디까지나 전자는 기능면에서의 이유이고, 후자는 철학적인 이유를 붙인 것이기 때문이다. 그러나 어느 한쪽을(혹은 양쪽을) 채용하게 된다면 공액사전분포를 사용하는 것의 정당성을 어느 정도 수긍한다는 뜻일 것이다.”  고지마 히로유키 지음, 장은정 옮김, 300쪽, 1만5500원, 지상사  reap@newsis.com

【서울=뉴시스】신동립 기자 = 인터넷에서는 고객의 구매나 검색 행동 이력이 자동으로 수집된다. 이를 바탕으로 고객의 유형을 추정하는 데는 전통적인 통계학보다 베이즈통계가 훨씬 낫다. 베이즈통계를 일찌감치 비즈니스에 이용한 것으로 유명한 기업이 마이크로소프트다. 윈도OS의 도움말 기능에 베이즈통계를 도입했고, 웹에서 사용자가 ‘아이의 병 증상’이라고 검색하면 유익한 지침이 우선 노출되는 소프트웨어도 개발했다. 구글 또한 검색엔진의 자동번역 시스템에 베이즈통계 기술을 활용한 것으로 알려져 있다.

 ‘세상에서 가장 쉬운 베이즈통계학 입문’은 책 제명 그대로다.

 “필자가 오락잡지에 실었던 베이즈 추정 관련 기사에서는 앙케트 조사 결과를 활용했다. 사전에 편집자에게 부탁하여 직장 여성들의 밸런타인 행동에 대한 앙케트 조사를 실시했다. 알고 싶었던 부분은 ‘여성들이 마음에 두고 있는 남성과 논외인 남성에게 각각 어느 정도의 확률로 초콜릿을 주는가’였다. 편집자는 직장 여성을 대상으로 인터넷 앙케트용 게시판에 ‘0%, 50%, 100%’의 선택지를 제시한 간이적인 설문 조사를 실시하여 보고해 주었다. 그것을 통계적으로 처리한 결과, 평균적으로 봤을 때 그녀들은 ‘진심’인 상대에게는 42.5%의 확률로, 논외인 상대에게는 22%의 확률로 초콜릿을 준다는 판명이 났다. 진심으로 생각하는 상대에게 주는 확률이 50% 이하라는 것도 의외였지만, 논외인 상대에게 22%나 되는 확률로 준다는 것에 ‘예의상 초콜릿을 주는 습관’의 대단함을 실감했다.”

 베이즈 역확률은 영국의 수학자 겸 목사 토머스 베이즈(1702~1761)가 발견하고, 1787년 프랑스의 수학자 라플라스가 공식 형태로 완성해냈다.

 베이즈통계가 다루는 확률은 주관적이다. 객관적인 수치가 아니라 인간의 심리에 의존한 것이기 때문이다. 베이즈통계가 사상적인 면을 갖추고 있다고 평가받는 이유이기도 하다. 주관성과 사상성은 베이즈통계의 본질이자 편의성의 원천이다.

 책은 베이즈통계의 주관성, 사상성을 숨김없이 해설했다. 특히 표준 통계학과 어떤 점이 어떻게 다른가를 상세히 설명했다.

 “이처럼 설정되어 있는 확률 모델에 대해 사후분포가 사전분포와 동일한 분포를 따르게 되는 경우 이 사전분포를 ‘공액사전분포’라 부른다. 여기서 아이가 여아인지 남아인지에 대한 확률 모델의 공액사전분포는 베타분포다. 베이즈 추정에서는 추정하고 싶은 확률 모델의 공액사전분포를 사전분포로 사용하는 것이 통례다. 그 이유로 다음 두 가지를 생각할 수 있다. 첫 번째 이유: 사전분포와 사후분포가 같은 분포를 따르면 계산이 현저히 간편해 진다. 두 번째 이유: 사전분포와 사후분포가 다르다는 것은 철학적으로 볼 때 이상하다고 생각할 수 있다. 이상의 두 가지 이유는 정반대라 해도 될 만큼 다른 시점이다. 어디까지나 전자는 기능면에서의 이유이고, 후자는 철학적인 이유를 붙인 것이기 때문이다. 그러나 어느 한쪽을(혹은 양쪽을) 채용하게 된다면 공액사전분포를 사용하는 것의 정당성을 어느 정도 수긍한다는 뜻일 것이다.”

 고지마 히로유키 지음, 장은정 옮김, 300쪽, 1만5500원, 지상사

 [email protected]

많이 본 기사