Posts tagged: Ontology

Apr 10 2009

시맨틱웹 세미나-Semantic Web & Data Link

시맨틱웹이라는 큰 주제로 시작된 이번 세미나는 “Semantic Web & Data Link”라는 소주제로 이야기를 펼쳐냈습니다.

김홍기 교수님께서는 “시맨틱웹과 링크의 진화”라는 주제로 시맨틱웹, 링크가 무엇인지 언급하시고, 그 중 링크의 중요성을 강조하셨습니다. 발표자료가 약하다고 걱정하시더니 정말 멋지게 발표를 해주시더군요. :-)

두번째는 제가 “데이터를 웹으로”라는 주제로 웹에서의 데이터가 무엇이고 기존의 링크와 앞으로의 링크에 대해 이야기 했습니다. 어찌보면 소소한 문제인것 같으면서도 기초가 주제가 아니였나 생각됩니다. 발표를 들으셨던 분들은 제가 백만번 강조한 “라인”을 기억하셨을텐데요. 제 발표를 한마디로 요약한다면

시맨틱웹의 비전인 “Person or Machine can explore the web of data”이 가능하기 위해선 “RDF, URI, HTTP”이 필요하다.

다음으로는 오픈마루의 정지웅님께서 “우리곁의 데이터웹”이란 주제로 이야기해주셨습니다. 데이터웹에서 오픈 소셜, 리믹스웹까지 시맨틱웹으로 가는 길목요소들의 과거-현재-미래에 대해 이야기하셨습니다.

마지막으로 “시맨틱 소셜 네트워크”라는 주제로 김학래님의 발표가 있었습니다. 소셜네트워크에 대해 이야기 해주셨습니다. 즉석에서 소셜네트워크가 만들어지는 예도 보여주셨구요.

Apr 09 2009

시맨틱웹 (Semantic Web)

1. 서론

팀 버너스리(Tim Berners-Lee)에 의해 1989년 웹 기술이 출현한 이래로, 웹기술은 어느 정보기술보다도 사회발전에 심대한 영향을 주었다. 웹 기반 원격교육, 전자상거래, 전자도서관, 인터넷 포털 등 지식 정보사회의 새로운 모습들이 웹 기술을 기반으로 선보였다. 웹 기술 응용의 급속한 확산과 더불어, 기술적으로도 HTML, DHTML, XHTML등 개선된 기술이 속속 개발되었고 CSS, 플래시등 연관 기술들이 숨 가쁘게 선보였다. 웹 기술은 정보 기술의 새로운 지평을 열어 보인 기술로서, 아직도 미완인 채 새로운 기술의 출현을 기다리고 있다.

비즈니스 분야에서의 웹2.0에 대한 요란한 관심과는 대조적으로 학계와 연구계에서는 차세대 웹기술의 원형을 지속적으로 탐구하여 왔다. 2001년 팀 버너스리등이 차세대 웹 기술의 비전으로 시맨틱웹(Semantic Web)을 제시한 이래로, W3C를 중심으로 시맨틱웹 계층구조가 제시되었다. 또한, 온톨로지 기술언어인 RDF/S와 OWL, 질의어인 SPARQL, 규칙언어인 SWRL등의 표준화가 진행되었다. 시맨틱웹은 기존의 정보 중심 웹이 당면한 제반 문제를 해결하고, 지식 추론이 가능한 지식웹(Knowledge Web)을 구현하여, 환상적인 지식 정보 서비스를 실현할 수 있을 기대감을 고조시켰다. 그러나, 처음의 예측과는 달리, 시맨틱웹의 표준화와 관련 기술의 연구개발 노력에도 불구하고 킬러앱(killer applications) 논쟁과 함께 제2의 인공지능 겨울(AI Winter)가 도래하는 것이 아닌가 하는 우려감도 제기되고 있다. 차세대 웹의 비전으로써 시맨틱웹에 대한 개념 이해와 확실한 방향 정립이 필요한 시점이다.

2. 시맨틱웹의 이해

시맨틱웹은 어렵고 복잡하며 현재의 웹과는 동떨어져 있는 학계의 연구과제로 생각되는 경우가 많다. 시맨틱웹의 현재 그리고 미래를 중심으로 시맨틱웹의 개념과 구조를 요약 정리한다.

2.1 시맨틱웹의 개념

웹 기술은 정보표현과 전달에 간편한 방법을 제공하여 인터넷이 실생활까지 확산되는 기폭제 역할을 하였다. 그러나, 웹상에 축적된 정보가 방대한 짐에 따라 많은 문제에 봉착하게 되었다. 웹 기술은 축적된 방대한 데이터에 대하여 키워드(keyword)에 의한 정보 접근만을 허용하고 있어, 정보 검색시 무수히 많은 불필요한 정보가 돌출하여 정보 홍수를 가중시키고 있다. 또한, 컴퓨터가 필요한 정보를 추출, 해석, 가공할 수 있는 방법이 없어, 그림1(a) 처럼 모든 정보를 사용자가 직접 개입해서 처리하여야 하는 문제가 있다. 이러한 문제들의 근본원인은 컴퓨터가 정보자원의 의미를 이해하지 못하는데 원인이 있다. 이러한 웹 기술은 팀 버너스리가 초창기에 구상하였던 웹과도 거리가 있다.

2001년 팀 버너스리등에 의해 웹 기술의 비젼으로 시맨틱웹이 제시되었다[4]. 시맨틱웹은 기존 웹을 확장하여 컴퓨터가 이해할 수 있는 잘 정의된 의미를 기반으로 의미적 상호운용성(semantic inteoperability)을 실현하여, 다양한 정보자원의 처리 자동화, 데이터의 통합 및 재사용등을 컴퓨터가 스스로 수행하여, 인간과 컴퓨터 간의 효과적인 협력체계를 구축하기 위한 것이다. 즉, 시맨틱웹은 컴퓨터가 웹 정보자원의 의미를 이해하고, 정보의 검색, 추출, 해석, 가공등 제반 처리를 사용자를 대신하여 지능형 에이전트(intelligent agent)가 수행하는 컴퓨터 중심의 기술이다. 일반적으로 시맨틱웹의 개념은 그림1(b)로 표현할 수 있으며, 3가지 주요 요소로 구성된다.

그림1. 기존웹과 시맨틱웹 비교

● 온톨로지(ontology)

온톨로지는 도메인의 공유된 개념화(conceptualization)에 대한 형식적 명세체제로서, 도메인 어휘의 의미 정보를 표현한다. 온톨로지는 일종의 지식 표현(knowledge representation)으로, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있다. 추론, 증명등의 처리에 온톨로지의 공리(axiom)와 규칙(rule)이 사용되며, 규칙 표현을 위해서 별도의 규칙 언어가 사용된다.

● 의미적으로 주석화된 웹(semantically annotated Web)

온톨로지로 주석화된 웹 정보 자원은 일종의 지식베이스를 형성한다. 시맨틱웹에서는 온톨로지의 의미적 상호 운용성을 기반으로 인터넷의 분산 정보 자원을 의미적으로 통합한 거대한 지식 베이스를 구축할 수 있다.

● 에이전트(agent)

인간(사용자)를 대신하여 정보 자원을 수집, 검색하고 추론하여, 온톨로지를 이용해서 다른 에이전트와 상호 정보 교환등의 일을 수행하는 지능형 에이전트이다. 지능형 에이전트는 시맨틱웹 기반 응용 서비스의 핵심 요소라 할 수 있다.

시맨틱웹은 정보처리의 실제적 주체인 컴퓨터가 의미를 이해할 수 있도록 하고, 에이전트가 사용자 대신에 업무를 수행하는 지능형 웹 기술이다. 때문에, 시맨틱웹에서는 지식 표현의 역할을 하는 온톨로지가 무엇보다도 중요하다. 인공지능등의 연구에서 알수 있는 바와 같이, 지식 표현은 도메인의 관점, 시스템 구축의 목적, 지식의 활용등에 따라 다양한 표현방식이 가능한 난제중의 하나이다. 시맨틱웹에서는 웹 정보자원의 의미를 효과적으로 기술 할 수 있도록, 그림2처럼 시맨틱웹 계층을 구성하였다.

그림2. 시맨틱웹 Layer Cake (2001년)

■ Unicode/URI : 웹 정보 자원 서술과 식별을 위한 표준 체계

■ XML+NS+XML Schema : 정보구조와 전달등 정보 표현 형식을 위한 표준 체계

■ RDF+RDF Schema : 정보자원의 의미적 연결관계를 정의하고, 메타데이터 수준의 의미 표현을 위한 표준체계

■ Ontology : 도메인 온톨로지를 기술하는 표준 체계

■ Logic : 온톨로지 기반의 추론을 위한 표준 논리체계

■ Proof, Trust : 논리체계를 이용해서 증명하고 웹 정보자원의 신뢰성을 평가하는 표준 체계

그림2에서 알수 있는 바와 같은, 시맨틱웹은 웹 정보자원을 대상으로 강력한 의미 표현을 위한 표준 기술 체계를 확립하는데 초점을 두고 있다. 이러한 표준 체계는 웹 정보자원의 의미적 상호 운용성을 실현하는 기반이 된다.

2.2 시맨틱웹 요소 기술및 전망

시맨틱웹에 대한 관심과 연구가 증폭되면서, 관련기술의 지속적인 연구, 개발이 이루어졌다. 특히 의미적 상호 운용성의 실현을 위한 핵심 기술의 표준화가 W3C를 중심으로 집중적으로 추진되어 왔다. 2004년 1단계 표준화 활동을 정리하고, 시맨틱웹 응용 사례 발굴과 상위 계층 표준화를 위한 2단계 표준화 활동이 진행되고 있다. W3C의 시맨틱웹 표준화 추진 현황을 표1에 요약하였다[9].

시맨틱웹 표준화와 연관 기술의 개발로, 초창기에 제시되었던 시맨틱웹의 계층구조가 더욱 정교화되었다. 최근에는 그림3과 같은 시맨틱웹 계층구조가 새로이 제시되어, 이에 대한 활발한 논의가 진행되고 있다. 그림2의 초창기 계층구조와 비교해 보면, 몇가지 변화된 점을 확인할 수 있다. 이로부터, 시맨틱웹 실현을 위한 핵심 요소 기술을 새로이 발견할 수 있다.

그림 3. 시맨틱웹 Layer Cake (2006년)

● URI/IRI : 웹 정보 자원의 식별을 위하여 URI을 사용하여 왔지만, 다양한 정보자원 형태와 프로토콜의 출현으로 통합된 식별체계가 요구되고 있다. 이에 따라 URI를 확장한 IRI(Internationalized Resource Identifier)의 필요성이 증대되고 있다.

● 데이터 상호 교환(data interchange) : 데이터 표현 및 전송 등 상호 교환의 기본 형식으로 XML이 사용되어 왔지만, XML의 기능은 상대적으로 축소된 반면에 RDF 형태가 시맨틱웹의 기본 형식으로 자리잡아 가고 있다. 시맨틱웹에서는 단순 정보 구조화를 위한 XML보다 정보자원의 의미 기술과 관계 형성이 기본이 되기 때문이다.

● 온톨로지, 질의(query)와 규칙(rule)

시맨틱웹의 핵심 계층이 온톨로지, 질의 및 규칙으로 세분화되었다. 온톨로지로 텍소노미(taxonomy)나 시소러스(thesaurus)등과 같은 단순한 얕은 온톨로지(shallow ontology)를 위한 RDF와, 도메인의 복잡한 깊은 온톨로지(deep ontology)을 위한 OWL로 구분하여 온톨로지 개발 및 구축의 효용성을 제고하고 있다. 온톨로지로 구현된 시맨틱웹을 검색하는 기본 검색어와 프로토콜로 RDF 그래프 기반의 SPARQL이 표준화 되었다. 한편, 서로 다른 다양한 시스템간 규칙의 공표(publication), 공유, 재사용할 수 있도록 규칙 공통언어(interlingua)로서 규칙 상호 교환 형식(Rule Interchange Format : RIF)의 표준화를 진행하고 있다. 기존에 다양한 규칙언어와 규칙엔진이 널리 사용되고 있기 때문에, 이들의 상호 운용성을 보장하는 공통형식(common format)을 제정하여 시맨틱웹에서 다양한 규칙 응용을 보장하고자 한다.

● 통합 논리(Unifying Logic)

통합 논리는 RDF, RDFS, RIF, OWL, SPARQL 등 시맨틱 웹 요소 기술에 공통으로 적용되는 모델-이론 의미론(model-theoretic semantics)기반의 논리 프레임워크(logic framework)이다. 통합 논리는 규칙 데이터의 공유와 일관된 추론 결과 생성을 위한 것이다.

● 웹 정보자원에 의미 정보 추가

시맨틱웹이 활성화되기 위해서는 온톨로지와 같은 컴퓨터가 이해할 수 있는 의미 정보를 포함하고 있는 웹 페이지가 대량 생산되어야 한다. 온톨로지로 주석화된 웹페이지의 개발이 어려운 만큼, 기존의 웹페이지에 컴퓨터가 이해할 수 있는 의미 정보를 추가가 하는 것이 현실적인 방법이다. 이를 통해서, 인간(사용자)과 컴퓨터가 모두 접근 가능한 웹을 실현할 수 있다. (X)HTML의 class 속성을 활용하여 웹페이지 안에 행사일정이나 연락처등의 의미 정보를 추가하고 컴퓨터가 이를 알아낼 수 있도록 하는 hCard, hCalendar등 여러 데이터 형식을 Microformat이라 한다. Microformat은 표준은 아니지만, 커뮤니티를 중심으로 웹 페이지 개발의 설계 지침으로 확산되고 있다. RDFa는 컴퓨터가 처리할 수 있는 RDF 형식의 의미 데이터를 XHTML또는 XML문서에 직접 추가할 수 있는 방법을 제공한다 GRDDL(Gleaning Resource Description form Dialects of Language)는 XML또는 XHTML 문서에 추출, 수집 가능한 데이터를 선언하고, 이들 문서로부터 RDF데이터를 추출, 수집하기 위한 연계 알고리즘을 정의할 수 있는 마크업언어이다. GRDDL은 인간 중심의 기존 웹과 컴퓨터 중심의 시맨틱웹의 간격을 바꾸어 줄 수 있을 것으로 기대되고 있다.

시맨틱웹은 이제 더 이상 연구를 위한 기술이 아니라, 상용화 단계로 발전하고 있다[6,7]. eClassOWL, BioPAX와 같은 다양한 온톨로지, AllegroGraph, TopBraid와 같은 상용도구가 개발되었고, 노키아 S60 포털, Haper 온라인 매거진, Yahoo!Food등 수 많은 사이트들에서 시맨틱웹 기술이 활용되고 있다. 이미 인터넷 상에는 107 시맨틱웹 문서가 존재하는 것으로 알려지고 있다. Garlik, Radar Networks, Joost, Ontology Works 등 수많은 시맨틱웹 기업이 활발한 제품 개발과 비즈니스 활동을 전개하고 있다.

분산된 정보자원을 의미적 상호 운용성으로 통합하여 거대한 지식 베이스를 구축한 시맨틱웹은, 웹서비스에도 의미적 상호운용성을 실현하여, 궁극적으로 그림4와 같이 시맨틱 웹서비스(Semantic Web Service)로 진화하여 갈 것이다. 온톨로지 언어 OWL 개발과 동시에 서비스 온톨로지인 OWL-S가 개발되었고, W3C의 SWSI나 유럽의 WSMO/L/X 연구등에서 알 수 있는 바와 같이, 시맨틱웹은 지식을 넘어서 지식 서비스로 나아가고 있다[12].

그림 4. 시맨틱웹서비스로 진화

현재는 서로 독립적이며 자발적으로 발전되어 온 웹2.0과 시맨틱웹은 자신의 영역을 더욱 확대하기 위하여 상존하고 있지만, 궁극적으로는 자연스럽게 통합되어 차세대 웹 기술로 나타날 것이다. 이미, Microformat, RDFa, GRDDL, RSS등에서 상호 협력이 진행되고 있고, 인간중심의 RIA 인터페이스와 컴퓨터 중심의 시맨틱 비즈니스 프로세스를 기반으로 하는 새로운 엔터프라이즈 시스템의 개발이 가속화되고 있다. 웹2.0과 시맨틱웹은 경계가 분명한 경쟁기술이 아니라, 그림5의 차세대 웹 기술 발전 추세에서 보는바와 같이 차세대 웹을 향한 진행과정의 기술로 가까운 시일내에 서로를 포옹하게 될것이다.

그림 5. 웹 기술의 진화

참고문헌

[1] Tim Berners-Lee, James Hendler, Ora Lassila The Semantic Web, Scientific American, May 2001

[2] Nigel Shadbolt, Wendy Hall, Tim Berners-Lee, The Semantic Web Revisited, IEEE Intelligent Systems, 2007

[3] Semantic Web Best Practices and Deployment Working Group, http://www.w3.org/2001/sw/BestPractices/

[4] James Hendler, Ora Lassila, SemWeb@5: Current Status and Future Promise of the Semantic Web, Semantic Technology Conference, March, 2006

[5] Anupriya Ankolekar et al, The TwoCultures: Mashing up Web 2.0 and the Semantic Web, WWW2007, May, 2007

[6] Tim Berners-Lee, Wendy Hall, James Hendler, Nigel Shadbolt, Daniel J. Weitzner, Creating a Science of the Web, Science, August, 2006

[7] Tim Berners-Lee et al, A Framework for Web Science, Foudations and Trends in Web Science, Vol.1, No.1, 2006

[8] 전양승 외, 시맨틱 웹 서비스 기술 연구 동향, 정보과학회지, 2006년 4월

[9] 전종홍 외, 시맨틱웹, TTA Jouranl, No 107, 2006년, 10월

Apr 08 2009

시맨틱웹 쉽게? 알기

질문 : 당신이 컴퓨터 전공자도 아닌데 시맨틱웹이 무엇인지에 대해 알고싶다면 어떻게 해야할까요?
답 : 이 영상을 보세요.

WordPress Themes