다음에서 제공하는 '문맥 키워드 추천 API'를 사용해 보려고 잠시 살펴보았습니다.

문맥 키워드 추천 API는 이런 서비스입니다. (from DAUM)
문맥 키워드 추천 API는 특정 단락 혹은 문서 내에서 가장 중요하거나 많이 언급된 단어를 추출하여 제공해 주는 API 입니다.

블로그 글이나 뉴스 기사 등을 정해진 규격으로 전달(POST)해 주면, 그 문서를 설명하는 가장 적합한 단어를 추출 해주기 때문에 자동 태깅(Auto Tagging)이나 관련 검색어 선정, 적합 광고 검색에 유용하게 이용할 수 있습니다.


파라미터의 사용법이란 예제코드를 통해서 이해하는 것이 가장 쉽다는 믿음을 가지고 예제페이지로 이동 예제 코드 그대로 실행해 보았습니다.
결과값이 나름 괜찮은듯 보여서 간단한 프로그램을 만들기 시작하였습니다.
그런데.. 이럴수가..
이 녀석이 탐탁치않은 결과값만 돌려줍니다.
혹시 글이 안좋은 패턴인가 싶어서 많이도 도전했지만..
예제로 쓰인 글만 멋지게 분석될뿐 제가 입력한 글들은 대략 즐겁지 않은 결과를 보내더군요

내부로직이 어떻게 되는지는 알지못하니 이렇다 저렇다 말을 하기가 힘들지만..
이건 좀.. 많이 이상하다는 생각이 듭니다.

사용한 글
‘이명박 BBK 특검법’이 17일 오후 국회 본회의를 통과했다. 국회는 본회의를 열고 대통합민주신당이 제출한 이른바 ‘이명박BBK 특검법’을 신당과 민주노동당 등 국회의원 160명이 참석한 가운데 찬성 160 반대 0 으로 통과시켰다. 이 특검법안은 대통령이 거부권을 행사하지 않으면, 정식 법률로 확정된다. 한나라당은 앞서 의원총회를 열고 표결에 참석하지 않기로 결정해 모두 본회의에 불참했다. 이에 따라 한나라당 이명박 후보는 대선에서 승리한다고 하더라도 당선자 신분으로 특검의 조사를 받게 됐다. ‘이명박 BBK 특검법’의 정식 명칭은 ‘한나라당 대통령 후보 이명박의 주가조작 등 범죄혐의의 진상규명을 위한 특별검사의 임명 등에 관한 법률안’이다. 이 법률안은 상임위 토론 절차를 거치지 않고, 임채정 국회의장의 직권 상정을 통해 본회의를 통과했다.

분석결과
<?xml version="1.0" encoding="utf-8" ?>
- <daum service="search">
- <requestor>
- <![CDATA[ null
  ]]>
  </requestor>
- <title>
- <![CDATA[ null
  ]]>
  </title>
- <docID>
- <![CDATA[ null
  ]]>
  </docID>
  <date>2007-12-17 18:17:07</date>
  <group>true</group>
  <itemcount>1</itemcount>
- <item>
- <keyword>
- <![CDATA[ 대통합민주신당
  ]]>
  </keyword>
  <score>13.0</score>
  <count>1</count>
- <locations>
  <location>50</location>
  </locations>
  </item>
  </daum>

오직 하나의 키워드만 추출되었다니요..
(물론 키워드 출력값을 '100'개로 하였습니다.)
대략 어떻게 받아들여야 하는것인지..

짐작이 가는 부분은 정렬을 할때 발견된 갯수외에 가중치를 가지고 처리하는 부분이 있는 걸로봐서 아마도 그 외 단어들은 가중치가 '0'으로 처리되었다는 것입니다.
그렇다는 것은 단순히 문맥을 '형태소 분석'하는 것을 넘어서 자체적으로 가지고 있는 알수없는 뭔가를 실행하는것 같습니다.
뭐 그렇다고 하더라도 왜? 도대체 왜? 저 글에서 '대통합민주신당'만이 키워드가 될 수 있는 지 이해할 수 없습니다.

DAUM님.. 알려주세요..
제가 모르는 뭐가 있는 건가요?
아니면 제가 서비스를 잘못 이해하고 있는건가요?
Posted by 달빛변신