소식지 제 17 호

차례


학술 및 연구활동

 

Jun-ichi Tsujii, 일본 동경대학 교수 초청강연  

지난 10 31일 일본 동경대학의 Jun-ichi Tsujii 교수가 본 센터를 방문하여 Natural Language Processing Techniques for Bioinformatics라는 제목의 초청강연을 하였다.

이흥규, KAIST 전산학과 교수 초청강연

지난 8 11일 본 센터의 참여교수인 전산학과 이흥규 교수가 ㈜드림인테크를 방문하여 저작권보호기술 세미나라는 제목의 초청강연을 하였으며, 9 2일에는 ㈜마크텍을 방문하여 불법유통 추적기술 세미나라는 제목의 초청강연을 하였다.

오성흔, ㈜디지캡 선임연구원 초청강연

지난 11 12일 ㈜디지캡의 오성흔 선임연구원이 본 센터를 방문하여 Mobile DRM 세미나라는 제목의 초청강연을 하였다.

주상현, ETRI 선임연구원 초청강연

지난 9 24일 한국전자통신연구원(ETRI)의 주상현 선임연구원이 본 센터를 방문하여 핑거프린팅 세미나라는 제목의 초청강연을 하였다.

ISIS 2003 (The 4th International Symposium on Advanced Intelligent Systems) 개최

지난 9 25-28 ISIS 2003 (The 4th International Symposium on Advanced Intelligent Systems)이 본 센터의 지원을 받아 제주대학교에서 개최되었다.

센터연구동향

바이오정보 통합 검색시스템 설계 및 구현

첨단정보기술연구센터 제2총괄 1세부과제 책임자 이도헌 교수

 

   첨단정보기술연구센터 제2총괄 제1세부 이도헌 교수 연구실에서는 지능형 에이전트 기술을이용한 바이오정보 통합검색시스템에 대한 연구를 진행하고 있다. 생물학 정보가 Genome Project 이후 급속히 증가하는 추세에 있다. 그 예로 유전자 서열 정보를 관리하는 GenBank에 등록된 DNA 서열 수가 1982 600 여개에서 출발하여, 1998 200여만개, 2002년에는 2천만개를 훨씬 넘기고 있다. 이런 가속화 현상은 DNA 서열 뿐만 아니라 Microarray, 2D-PAGE 등 다양한 생물학 분야에서 동시에 일어나고 있다. 자연히 이런 정보를 저장하고 있는 데이터베이스의 수도 증가하는 추세에 있다. 현재 약 500여개의 각기 다른 데이터베이스가 존재하는데, 문제는 이들 데이터베이스가 서로 다른 정보를 가진 것이 아니라 하나의 생물학적 현상을 서로 다른 관점에서 측정한 것이기 때문에 정보가 서로 독립적일 수 없다는데 있다. 바이오정보학 분야에서 주로 다루는 정보가 이렇게 독립적이어서는 다량의 정보 속에서도 원하는 지식을 찾아내기가 쉽지 않다. 그래서 이런 독립적인 정보의 산재가 in silico knowledge discovery를 저해하는 요인이 된다. 그러므로 이들 정보를 하나로 통합검색할 수 있는 기술이 필요하다.

본 과제에서 개발하고 있는 바이오정보 통합검색시스템의 특징은 아래와 같다.

(1) 시스템 수준 통합검색 API 제공

현재까지 각 기관에서 개발되어 온 바이오정보 통합검색 시스템은 대상 데이터베이스와 사용자 인터페이스가 미리 고정된 소위 hard-wired 구조를 주로 택하고 있다. 하지만, 바이오정보처리 분야의 특성상 대상 데이터베이스와 인터페이스에 대한 요구가 계속 변하기 때문에 좀더 유연한 시스템 구조가 필요하다. 따라서, 본 과제에서는 통합검색 API를 제공하는 유연성 있는 시스템 소프트웨어를 구축하여, 필요한 응용 프로그램을 단시간내에 개발할 수 있는 플랫포옴을 제공하는 것을 목표로 하고 있다.

(2) XML

본 시스템은 최근 표준으로 자리잡고 있는 XML을 기반으로 하고 있다. 그래서 XML-DBMS의 기능을 갖도록 설계되었다. 그래서 검색 또한 XML 표준 검색어인 XQuery를 지원하며, 검색의 결과 역시 XML 형태로 제공한다. 그러나 아직 많은 연구자들은 데이터베이스 원래의 flat file 형태를 선호하기에 그 형식 역시 제공하고 있다.

(2) Join Query

앞서 설명하였듯, 현재 산재해 있는 생물학 관련 데이터베이스를 이용하는데 큰 어려움은 동일한 생물학적 사실을 가리키는 데이터가 서로 다른 형식으로 저장되어있다는 점이다. 그래서 본 시스템은 서로 다른 데이터베이스에 속한 자료일지라도 동일한 것을 가리키고 있는 것이라면, 이것을 하나의 자료로 찾을 수 있게 한다. 예를 들어, 단백질의 이름이 A이면서, 기능이 B인 것을 단백질 데이터베이스와 기능에 관련한 데이터베이스에서 찾을 수 있다. 이런 기능을 통해 진정한 새로운 발견을 유도할 수 있는 것이다.

본 연구실에서는 이와 같은 특징을 가지는 바이오정보 통합검색시스템을 구축하여 국내외 기관에 생물학이나 의학 연구의 기반을 제공할 예정이다.

 

 

우수 논문상

금상- 1총괄 제2세부과제 KAIST 전산학과 현동준

먼저 논문을 추천해 주신 심규석 교수님과 심사위원님들, 그리고 AITrc 구성원 여러분께 감사 드립니다. 늦게나마 이렇게 지면을 통하여서라도 감사 말씀을 드릴 있게 되어 다행이라 생각합니다. 우수 논문 수상 소식을 처음 들었을 , 저는 육군훈련소에서 전문연구요원 4 훈련 과정에 참가하고 있었습니다. 반가운 아내의 편지 속에서 뜻밖에 소식을 듣게 것이지요. 되돌아보면, 동안 AITrc로부터 참으로 많은 도움을 받았습니다. 든든한 연구 지원으로부터 시작하여, 연구 결과 발표를 위한 국제 학회 참가 지원(2000년도), 그리고 이번의 우수 논문상에 이르기까지 다방면으로 지속적인 지원을 해준 AITrc 감사한 마음뿐 입니다.

이번 수상 논문은 1총괄 2세부에서 그동안 연구해오던 데이터 마이닝에 대한 연구 결과의 일부입니다. 데이타 마이닝은 많은 데이터로부터 지금까지 알려지지 않은 유용한 패턴을 찾아내는 것을 연구하는 분야인데, 기술 분류(Classification) 이미 클래스(class) 구분되어 주어진 데이터 집합만을 사용해서, 미래의 다른 데이터에 구분할 있게 클래스에 대한 의미 있는 모델을 만들어 내는 방법입니다. 많이 사용되는 모델로는 결정 트리(Decision Tree) 있습니다. 2세부에서는 기술을 연구 발전시켜서 사용자로 하여금 만들어질 모델에 대한 제한 조건을 미리 정해줄 있도록 하고, 제한 조건을 만족하는 가장 간단한 모델을 만들어내는 방법을 고안했습니다. 결정 트리 모델의 경우, 트리의 크기나 정확도에 대한 제한 조건을 지정해 주면 조건을 만족하는 가장 간단한(작은) 트리를 효율적으로 만들어내게 됩니다. 연구 결과가 마침내 올해 국제 저널에 실리게 되었고, 이렇게 우수 논문상을 수상하게 되었습니다.

과학자 뉴턴은 자신의 성공의 비결에 대해 거인의 어깨 위에 올라서서 넓은 시야를 가지고 멀리 있었기 때문이라고 말했답니다. 부족한 저에게는 모든 영광이 지금껏 이끌어주신 심규석 교수님과 AITrc 여러분 덕분입니다. 감사합니다.

 

서울시립대학교 홍의경 교수 교수 연구실 소개


첨단정보기술연구센터 1총괄 1세부과제 연구원

서울시립대학교 컴퓨터과학부 데이터베이스 연구실은 1992년에 설립되었다. 동안 홍의경 교수님의 지도 하에 1990년대에는 지리 정보 시스템을 위한 데이터베이스에 대한 연구를 진행했고, 2000년부터 XML 관한 다양한 연구를 수행하고 있다.

연구실에서 수행해 주요 연구 과제들을 살펴보면 다음과 같다.

대형 공간 데이터베이스 관리를 위한 GIS 엔진의 개발

1994 ~ 1996, 한국통신의 장기기초연구사업으로 한국과학기술원 부산대학교와 함께 수행한 연구이다. 지리정보시스템의 공간 객체의 공간적 특성을 고려하는 저장시스템을 개발했다. 저장구조 위에 기본 공간 연산자 처리 알고리즘을 개발한 , 개발된 기능을 구동하기 위한 GIS 인터페이스를 구현하였다.

객체 지향 SDL 그래픽 도구 언어

1995, 객체 지향 언어인 SDL 중심으로 시스템을 개발할 있도록 지원하는 통합 시스템의 개발이 필요하게 됨에 따라 OMT, 객체지향 SDL, MSC 등의 결합 방법을 제시하고, 이들을 지원하는 그래픽 편집기의 인터페이스를 설계 구현하였다.

▶ 국가 GIS  사업 참여

1995 ~ 1997, 지리 정보 시스템이 국가 업무 수행뿐만 아니라 기업의 사업 수행에도 필수적인 요소로 활용될 필요성이 증가함에 따라 국가 GIS 사업에 참여하였다. 지리 정보 시스템의 성능을 좌우하는 기능인 지리 정보 저장 및 검색과 공간 연산을 효율적으로 수행하기 위한 연구가 진행되었다. 공간 연산자 정의 및 구현, 공간/비공간 데이터 통합과 공간 데이터를 위한 기본 클래스를 설계하였다.

또한 본 연구실에서 현재 진행 중인 연구는 아래와 같다.

오디세우스를 이용한 XML 리포지터리 프로토타입 시스템의 구현

1999 ~ 현재, 첨단정보기술연구센터(Advanced Information Technology Research Center : AITrc)의 제1세부과제(분산 멀티 DBMS의 개발)에 연구원으로 참여하여, XML을 이용하여 이질적인 다양한 데이터를 통합할 수 있는 프로토타입 시스템을 구현하고 있다. 분산 멀티 DBMS에서 방대한 정보를XML 형태로 저장 및 검색이 가능하도록 지원하는 것을 최종 목표로 두고, 2007년까지 이 과제에 관한 연구를 진행할 계획이다. 현재 XML 질의 변환기를 설계하여 구현을 마친 상태이다. 금년에는 시스템 안정과 성능 향상을 높이는 방안을 연구할 예정이다.

현재 박사 과정 2명과 석사 과정 4명이 재학 중이며, 석사 20여명이 배출되었다. 이들은 데이터베이스 분야를 포함하여 다양한 분야에서 활발하게 활동하고 있다.

데이터베이스 연구실 홈페이지 http://dblab.uos.ac.kr

 

  

 

시맨틱 웹과 온톨로지
 

첨단정보기술연구센터 제2총괄 제1세부과제 참여 연구원

서울시립대학교 전자전기컴퓨터공학부 이재호 교수

시맨틱 웹(semantic web)은 웹(web) 상의 정보에 잘 정의된 의미(semantic)를 부여함으로써 사람뿐만 아니라 컴퓨터도 쉽게 문서의 의미를 해석할 수 있도록 하여 컴퓨터를 이용한 정보의 검색 및 해석, 통합 등의 업무를 자동화하기 위한 목적으로 제안되었다. 이러한잘 정의된 의미를 다루고자 하는 것이 바로 시맨틱 웹 온톨로지 언어의 역할이다. 시맨틱 웹은 이러한 지식의 정의와 관련된 온톨로지 연구와, 웹 자원을 서술하기 위한 RDF RDFS와 같은 연구, 그리고 이를 활용하기 위한 자동화된 자율적 프로그램인 에이전트에 관한 연구와 웹 서비스와 결합된 시맨틱 웹 서비스등을 포괄한다.

시맨틱 웹의 문서는 자연어 위주의 기존 웹 문서와 달리 컴퓨터가 해석하기 쉽도록 부여한 의미를 가지고 있기 때문에 자동화된 에이전트나 정교한 검색 엔진들이 부여된 의미를 이용하여 고 수준의 자동화와 지능화를 이룰 수 있게 된다. 웹은 기본적으로 웹 자원(resource)의 위치를 URI(Universal Resource Identifier)를 써서 정적으로 지정하는 공유된 공간이다. 웹에 의미(semantic)를 부여한다는 것은 사용자 인터페이스를 위한 자연어 처리 기능을 부가하고자 하는 것이 아니라 컴퓨터가 처리하기 용이하게 하고자 선언적인 추가 정보를 부여하는 것을 뜻한다

아직까지 웹 상의 대부분의 정보는 컴퓨터가 아닌 사람이 읽고 해석하기 편리하도록 구성되어 있기 때문에 이를 컴퓨터가 지능적으로 해석하여 처리하기에는 어려움이 많은 것이 현실이다. 일상의 컴퓨터 사용을 보더라도 사용자가 검색 엔진을 이용하여 원하는 정보들을 검색하고 이를 사용자의 눈으로 일일이 확인하여 필요한 정보를 선택한 후 이를 다시 마우스나 키보드 조작을 거쳐 선택된 내용을 해석하여 확인하는 과정을 반복적으로 수행하게 된다. 원하는 정보를 검색하고 해석하여 핵심 정보만을 추출한 후 이를 가공하고 종합하여 사용자에게 제공하고 사용자의 의도에 맞게 예약이나 구매와 같은 일을 행할 수 있는 컴퓨터 프로그램이 사용자의 신뢰 속에 일상적으로 사용될 수 있다면 사용자는 반복적이고 소모적인 작업에서 벗어날 수 있을 것이다.

특히 웹의 사용자와 정보량이 증가함에 따라 사용자가 필요한 정보를 얻는 것이 오히려 힘들어 지는 현상이 발생한다. 이러한 현상은 웹 상에 존재하는 문서들이 문서의 내용(content)”이 아니라 글자체, 글자크기, 문단의 모양과 같은 문서의 외관(format)”을 표현하기 위해서 HTML이나 SGML과 같은 마크업 언어를 사용하기 때문이다. 문서의 의미를 담고 있는 문서의 내용은 실상 자연어로 나열되어 있어 자동화된 컴퓨터 프로그램, 즉 에이전트가 의미에 적합한 처리를 하기 위해서는 많은 노력을 들려 의미 해석을 해야 한다. 더욱이 이러한 과정은 노력에 비하여 부정확한 해석을 종종 낳는 것이 현실이다. 웹 상의 문서가 증가함에 따라, 대부분의 웹 검색에 사용자는 검색 엔진이 제시한 수많은 검색 결과에서 자신의 원하는 정보를 찾기 위해 시간을 허비하게 되는 것이다.

시맨틱 웹에서 추구하는 이상은 웹 상에 존재하는 문서들을 자율적 컴퓨터 프로그램이 손쉽게 접근하고 해석하여 문서의 의미에 적합하게 자동적으로 처리할 수 있도록 함으로써 다양한 응용 영역에서 자동화되고 통합화 된 정보의 공유가 이루어 지도록 하는 것이다. 이러한 이상을 실현하기 위해서는 문서로 표현된 데이터의 구조와 이들 데이터간의 연관관계가 명시적으로 명확히 표현될 필요가 있다. 데이터의 구조와 관계를 명시적으로 명확하게 표현하고자 하는 것이 바로 온톨로지(ontology)의 목적이다 철학에서는 존재의 본질과 유형에 관한 이론을 의미하는 온톨로지는 인공지능이나 웹 관련 연구에서는개념화의 규정을 말하며 일반적으로 용어와 용어들 간의 관계를 표현하는, 컴퓨터 판독이 가능한 공식 규정을 의미한다. 시맨틱 웹에서도 온톨로지는 특정 주제에 관한 지식 및 용어들의 집합으로서 이들 용어뿐만 아니라 용어들 간의 의미적 연결 관계와 추론 규칙을 포함한다. 시맨틱 웹에서는 소수의 복잡한 대규모 온톨로지 대신에 다수의 소규모 온톨로지와 이들 간의 상호 참조로 이루어진 웹을 추구한다. 소규모의 온톨로지들은 저장소(repository)에 보관되어 검색될 수 있으며 필요한 온톨로지를 가져다 확장하거나 특화(subclass)하여 사용할 수 있게 된다. 시맨틱 웹의 등장은 특히 에이전트 시스템의 활성화에 결정적 역할을 할 것으로 기대된다. 에이전트 시스템 또는 넓게는 인공지능의 활용에 장애가 되었던 요소 중에서 지식 획득과 공학 (knowledge acquisition and engineering) 문제와 지식 표현(knowledge representation) 문제를 들 수 있다. 웹 상의 수많은 사용자가 제공하는 온톨리지 기반 정보를 에이전트가 의미 있게 처리할 수 있게 되면 지식 획득의 노력을 줄일 수 있으며, 온톨로지가 제공하는 확장성과 호환성의 장점에 따라 에이전트 간의 공유가 용이한 지식 표현 방안이 제공됨에 따라 시맨틱 웹의 활성화는 이 두 가지 문제에 대한 근본적인 해결책을 제공할 것으로 기대된다.

온톨로지에 관한 연구는 인공지능 분야의 시작과 함께 지식 표현 분야의 핵심으로 활발히 연구가 이루어져 온 분야이다시맨틱 웹의 출현과 더불어 온톨로지의 중요성이 인식되면서 새롭게 주목 받는 온톨로지는 새로운 연구 분야가 아닌 새로운 응용 분야라 할 수 있다웹이라는 다수의 사용자가 광범위하게 손쉽게 때와 장소를 가리지 않고 공유할 수 있는 지식의 체계는 인류 문명이 추구해온 기본적인 목표라고도 할 수 있으며 바야흐로 시맨틱 웹이라는 지식표현 표준과 활용 기술이 이러한 꿈을 현실화 시킬 수 있을지 기대되는 바가 크다. 시맨틱 웹의 실현에 따른 기술적, 사회적 파급 효과는 90년대를 휩쓴 웹의 영향보다도 훨씬 지대할 것으로 예측되는 바, 시맨틱 웹의 핵심이라고 할 수 있는 온톨로지에 대한 연구가 활성화되기를 기대한다.

 

 

센터 동정
 

연구원 동정

황규영 교수

Program Committee Member

국제 학술대회

[1] Program committee member: 29th International Conference on Very Large Databases (VLDB 2003), Berlin, Germany, Sept. 9-12, 2003 (Chairman: Peter C. Lockemann)

[2] Program committee member: 14th International Conference on Database and Expert Systems Applications (DEXA 2003), Prague, Czech Republic, Sept. 1-5, 2003 (Chairman: Roland Wagner)

[3] Program committee member: the 22st ER Conference on Conceptual Modelling (ER 2003), Chicago, USA, Oct. 6-9, 2003 (Co-chairmen: Il-Yeol Song, Steven Liddle, and Tok Wang Ling)

[4] Program committee member: the 10th International Conference on Cooperative Information Systems (COOPIS 2003), Sicily, Nov. 3-7, 2003 (Co-chairmen: Elisa Bertino and Dennis McLeod)

[5] Program committee member: VLDB 2003 Ten-Year Best Paper Award Selection Committee, 2003

[6] Session chairman: VLDB 2003 Ten-Year Best Paper Award Session, Berlin, Germany, Sept. 11, 2003

[7] Session chairman: 29th International Conference on Very Large Databases (VLDB 2003), Berlin, Germany, Sept. 9-12, 2003

Invited Talk

[1] General Match: A Subsequence Matching Method in Time-Series Databases Based on Generalized Windows, University of Minnesota, USA, July 17-28, 2003

[2] A One-Pass Aggregation Algorithm with the Optimal Buffer Size in Multidimensional OLAP, University of Rome, La Sapienza, Nov. 10, 2003

[3] Tight-Coupling: A Way of Building High-Performance Application Specific Engines, IFIP WG 2.6 meeting, Catania, Italy, Nov. 7-8, 2003

이도헌 교수

● 위원선정

[1]이도헌, International Conference on Artificial Immune Systems, Steering Committee Member -Asian Representative

[2] 이도헌, The 2nd Annual Conference on Korea Society for Bioinformatics(10/31-11/1, KAIST 정문술 빌딩), Outstanding Service Award 수상

박종철 교수

● 위원선정

[1] 박종철, The 1st International Joint Conference on Natural Language Processing (IJCNLP-04), Thematic Session Co-chair

● 국제학회참석

[1] 박종철, 이창수, Conference on Visualization, Imaging, and Image Processing (VIIP) 2003, Spain, Sept. 8-10, 2003.

● 국내학회참석

[1] 박종철, 최지원, 민혜진, 정지용, 장은영, 13회 한글 및 한국어 정보처리 학술대회, 고려대학교, 2003 10 10-11

김태환 교수

● 국제학회참석

[1] 김태환, The First Asian Symposium on Programming Languages and Systems (APLAS’03), 중국, 북경, Nov. 26 – Dec. 1, 2003

 


webmaster@aitrc.kaist.ac.kr