연 구 실 적 / 학 술 활 동

 

1. 객체 관계형 멀티미디어 DBMS 오디세우스 / OOSQL 개발



본 총괄과제에서는 대규모 전자도서관, 웹 검색 엔진, 대용량 전자게시판 검색시스템, 대용량 인트라넷 서버 등의 IT 응용에 핵심 소프트웨어로사용될 수 있는 대용량 정보검색 객체관계형 멀티미디어 DBMS인 오디세우스/OOSQL을 개발하였다.
오디세우스/OOSQL은 정보검색(IR)과 DBMS 기능을 엔진 내부에서 밀결합하는 첨단 기술을 채택하여 일반 DBMS가 제공하지 못하는 탁월한 대용량 검색 성능을 발휘한다. 오디세우스/OOSQL은 빠른 질의 처리 속도를 제공함으로써 대규모 정보검색 질의를 효과적으로 지원하고, 이론적으로 최소 시간에 근접하게 데이터베이스를 구축(로딩)하는 획기적인 신기술을 달성하였다. 그리고 최대 8 테라바이트 크기의 볼륨을 다수 연결하여 거의 무한대의 용량에 가까운 대용량 데이터베이스를 구축할 수 있다. 그밖에 정교한 파손 회복 및 동시성 제어 기능, 다수의 사용자를 지원하는 동적 수정 기능, 멀티 서버로 운영시 버퍼 일관성 보장 등의 최첨단 기능들을 제공하고 있다.
또한, 오디세우스/OOSQL은 DBMS에 기반한 검색 엔진이기 때문에 DBMS와 검색 엔진의 장점을 모두 수용하여 다른 DBMS 및 검색 엔진이 지원하지 못하는 응용 분야를 효과적으로 지원할 수 있다. 즉, 전자도서관과 같이 복수개의 검색 필드가 요구되는 응용 분야에서 탁월한 검색 성능을 발휘할 수 있다. 또한, 동적 수정 기능을 사용하여 데이터의 갱신, 입력, 삭제가 빈번하게 발생하는 전자게시판 검색시스템과 같은 응용에서 시스템을 정지할 필요 없이 검색 서비스를 계속할 수 있다. 이러한 기능은 타 상용 검색시스템에서는 지원되지 않는 오디세우스/OOSQL 만의 유일한 특징이다.
오디세우스/OOSQL은 기 개발된 오디세우스 객체지향 DBMS의 경험을 토대로 차세대 첨단 DBMS 방식인 객체관계형 DBMS 방식을 따라 새로이 개발한 시스템이다. 오디세우스의 초기 버전은 국내 웹 검색 엔진인 네이버에 장착되어 1997년부터 2000년까지 성공적으로 상용 서비스를 행한 바 있다. 따라서 이번 최신 버전을 활용한 상용 응용분야는 무궁무진할 것으로 기대된다.
현재 (주)네오위즈의 세이클럽 전자게시판 검색시스템(http://finder.sayclub.com) 개발과 (주)마이씨크의 웹 검색엔진 개발에 오디세우스/OOSQL을 사용하여 성공적으로 실용화되고 있으며 대검찰청 법무검찰 종합자료 검색시스템, 한국과학기술원 전자도서관, 수리과학정보센터 논문검색시스템 등에서 오디세우스/OOSQL을 사용하여 안정적으로 서비스를 제공하고 있다. 그밖에 다수의 학교, 기업체, 연구기관과 공동 연구 개발을 추진하고 있다. 그리고 개발 내용이 매일경제신문과 인터넷 전자신문에 크게 보도되었다.
 


  - 매일경제신문, 인터넷 전자신문등 주요일간지에서 개발 결과 보도

  - 해외 상용 제품 사용 대체로 인한 로열티 획득 및 외화 유출 방지

  - 선진국과의 경쟁을 위한 자체 소프트웨어 핵심 기술 확보

  - 국가 정보 인프라를 구축할 핵심 소프트웨어의 역할 수행

 

2. 미국 HP Labs와 UDDI 프로젝트 공동수행



첨단정보기술연구센터의 황규영 교수팀은 지난 7월 12일부터 8월 12일까지 미국 HP 연구소(Hewlett-Packard Labs)를 방문하여 HP 연구소에서 수행 중인 UDDI Repository 프로젝트와 관련하여 공동 연구를 수행하였다. 이번 방문은 HP 연구소의 Umesh Dayal 박사의 초청으로 이루어졌으며, 향후 공동 연구를 약속하는 국제협력약정(MOU)을 교환하였다. 본 연구는 센터 연구원 2명과 HP 연구원 2명의 공동팀으로 추진하였다.
UDDI(Universal Description, Discovery and Integration) Repository 시스템은 전세계 e-business(전자 상거래)를 위한 기업 정보를 등록하고, 통합(integrate) 하며, 검색(discover) 하는 시스템이다. IBM, Microsoft, HP, SAP등 세계 굴지의 회사들을 포함한 200여개의 대규모 소프트웨어 회사들이 UDDI 컨소시움에 참여하고 있다.
공동 연구 기간 동안에 본 센터에서 개발한 대용량 정보검색용 객체관계형 DBMS인 오디세우스가 UDDI Repository 시스템의 엔진으로 적합함을 보였다. UDDI Repository 시스템을 개발하기 위해서는 대규모 기업 데이터에 대한 빠른 검색을 제공하는 DBMS가 필수적인데, DBMS 엔진내에서 정보검색 기능을 밀결합하므로 대규모 데이터에 대해 빠른 검색을 제공한다. 이는 범용 DBMS에 없는 오디세우스만의 첨단 기술이어서 HP 연구진들의 큰 관심을 모았으며 현재 HP product division과의 기술 이전을 협의 중에 있다.
또한 본 연구는 우리 센터 연구진의 설계 및 구현 능력이 세계적 수준임을 보인 한 계기가 되었다. 즉, 1) UDDI 스펙 분석, 2 ) UDDI 스키마 설계, 3 ) UDDI 검색 시스템 프로토타입의 개발, 4) UDDI 유틸리티의 개발을 포함한 UDDI 시스템 프로토타입의 설계와 구현을 단기간에 완료하여 센터 연구진의 우수성을 간접적으로 증명하였다. 이는 우수 인적 자원의 개발이 ERC의 가장 중요한 목표중에 하나임을 생각할 때 매우 의미있는 결과이다.
 


이번 방문 연구는 다음의 세 가지 측면에서 큰 의의를 가진다고 요약할 수 있다. 첫째, 첨단 정보 기술 연구센터에서 순순 국내 기술로 개발된DBMS검색엔진인 오디세우스를 세계 굴지의 기업인 HP사에 적용하는 첫 사례라는 점이다. 둘째, 오디세우스 엔진이 최신의 응용을 지원하는데뛰어난 성능과 기능을 보유하고 있음을 보여주고 있다는 점이다. 이는 센터의 연구가 향후 응용을 잘 예측하여 왔음을 보여주는 사례라 할 수 있다. 셋째, 센터 연구진의 수준이 세계적 수준에 근접해있음을 보여주는 사례라는 점이다.
센터에서는 앞으로도 HP 연구소와의 지속적인 협력을 통하여 우리 기술을 보다 세계적인 수준으로 향상시키고 아울러 국내 기술을 해외에
홍보하고 나아가서는 선진국에 기술을 이전하는 계기로 삼고 노력해 나갈 예정이다.

 

3. 데이타 마이닝 알고리즘 개발



데이타마이닝(Data Mining)은 ‘대용량의 실제 데이타로부터, 미리 알려지지 않았지만 잠재적으로 유용한 암시적인 정보를 발굴하는 작업’으로, 최근 여러 업무 현장에서 데이타베이스에 대한 업무의존도가 높아지면서 데이타 규모가 급증함은 물론, 업무 현장의 특성 분석에도 활용할 수 있다는 인식이 확산됨에 따라 관심이 높아지고 있다.
데이타 마이닝의 중요한 분야중의 하나인 분류(Classification)는 ‘이미 클래스가 주어진 데이타가 있을 때, 클래스를 모르는 미래의 새로운 데이타도 구분할 수 있도록 각 클래스에 대한 의미 있는 모델을 만드는 작업’이다. 실제 대부분의 경우 사용자는 분류를 통해 데이타에 대한 대략적인 개요만을 원하는 반면, 기존의 분류 알고리즘들은 대용량의 데이타를 정확하게 분류하기 위해서는 시간이 오래 걸리는 단점이 있었다.
본 세부과제에서는 ‘사용자에게 제한 조건을 줄 수 있도록 하고, 그 제한 조건을 최대한 이용하여 계산을 줄임으로써 성능을 개선한 새로운 분류 알고리즘을 연구 및 개발’하였다. 따라서 사용자가 원하는 정도에 따라 최적화된 탁월한 성능을 발휘할 수 있다. 이 알고리즘은 Data Mining and Knowledge Discovery라는 세계 유명 논문지에 게재되는 등 학계에 공헌한 바가 크고, 상용 응용에서도 중요하게 쓰일 것으로 기대된다.
또한 백화점 구매 데이터나 인터넷상의 전자상거래 사이트에 방문한 웹페이지 등과 같은 categorical 데이터를 군집화(Clustering)하는 알고리즘은 별로 개발된 것이 없어서 데이타마이닝 기술로 사용하기에 어려운 점이 많았다. 하지만 본 세부과제에서는 아주 혁신적으로 이러한 데이터의 특징을 이용해서 아주 효율적인 군집화 알고리즘을 개발하고 ROCK이라고 이름을 지었다. 이 논문도 역시 세계적으로 인정 받아서 Information System Journal이라는 국제 학술지에 게재되었다. 또한 수치 데이터인 경우에 사용할 수 있는 군집화 알고리즘도 개발하여 그 이름을 CURE라 명명하였고 또한 Information System Journal에 게재되었다. 그 외에도 여러 편의 데이타마이닝 기술을 본 세부과제에서 개발되어 IEEE TKDE 국제 저널에 다수 게재승인 되었고 또 Approximate Query Answering에 관한 논문으로 VLDB 국제저널에도 게제승인 되었다. 하지만 사실 데이터베이스나 데이타마이닝 분야에선 국제 학술지 보다는 ACM SIGMOD나 VLDB같은 국제 학술회의에 논문이 나오는 것이 훨씬 힘들고 세계적으로 더욱 인정 받고 있다. 본 세부과제에서는 저널을 중요시 하는 국내의 잘못된 척도에 맞추기 보다는 세계적으로 명성있는 대학이나 연구소와 같이 세계 최고의 학술대회에 여러 편의 논문을 발표하였다. 이러한 업적으로인해서 연구원 심규석 교수는 세계적으로 명성있는 ACM SIGKDD등을 비롯한 많은 국제 학술회의에서 데이타마이닝에 관하여 튜토리얼 강사로 초청되어 국위를 선양했고 현재 ACM SIGKDD의 Advisory Board Member로 활약중이다.
 


  - 기존 분류 알고리즘들보다 더욱더 이해하기 쉬운 형태로 결과를 제공함으로써 좀 더 데이터를 잘 이해할 수 있는 툴을 제공하게 된다.

  - 선진국과의 경쟁을 위한 자체 소프트웨어 핵심 기술 확보

  - 국제 무대에서 국제저널 편집위원으로 초대되어 활동 (VLDB 국제저널)

  - 국제 학술회의에서 튜토리얼 강사로 초청되어 선도적인 위치에서 여러 나라 사람들에게 연구의 방향을 제시함 (예: ACM SIGMOD,

     VLDB, IEEE, CIKM, PAKDD등)

  - 한국도 세계적으로 인정 받는 논문을 쓸 수도 있다는 것을 보여줌 (예: ACM SIGMOD, ACM SIGKDD 와 VLDB Conference)

  - Bell연구소와 Microsoft 연구소와 같은 세계적인 연구소에 초청되어 공동연구를 수행