21세기 세종계획 최종 성과발표회에 다녀왔습니다.

21세기 세종계획 이란?

우리말과 우리글을 연구하는 데 필요한 기초 자료들이 너무 부족하니까, 한번 국가가 나서서 자료를 모아보자! 라는 취지로, 1998년부터 10년간 시행된 초거대 프로젝트입니다.

우리들이 심심할 때마다 돌려보는 "맞춤법 검사기" 와 같은 프로그램은, 말하자면 "우리말"을 다루는 컴퓨터 프로그램들이죠. 이런 프로그램을 만들기 위해서는 "우리말"에 대해 많은 연구를 해야 합니다. 그런 연구를 하는 데 필요한 기초 이론이라던가, 기초 자료와 같은 것은 어디에 가면 구할 수 있을까요?

그 전에 잠깐 "기초 자료"라는게 뭐 하는건지 생각해 보면, 말하자면. 한국말에 대한 문법적 정의랑, 그 정의에 맞춰서 직접 분석한 우리말로 된 글들, 이 있을 겁니다. 이 단어가 어떤 문장에서 쓰이는지, 이 형태소는 어떤 형태로 변화하는지, 그런 것들을 모두 분석해내려면 그에 걸맞게 엄청나게 많은 양의 "글" 이 필요하겠죠? 이런 걸 "말뭉치" 라고 합니다.

하지만, 연구에 쓸만한 말뭉치는 의외로 구하기가 어렵습니다. 저 멀리! 멀리 멀리 멀리! 미국 펜실베니아 주에 있는, 펜실베니아 주립대학까지 가야 그나마 쓸만한 걸 구할 수 있습니다. "Penn Korean Treebank" 라고 불리는 자료에요. 분명 우리나라에서도 많은 연구가 있었을텐데, 분명 우리말인데, 다른 나라말에 비해서 연구자료 구축이 너무 너무 빈약했던 겁니다.

그.래.서. 문화관광부와 국립국어원이 나섰습니다! 전국의 수십개 대학교와 수백명의 교수들, 수천명의 학생들이 함께 나서 대 프로젝트를 진행했습니다. 그것이 바로 21세기 세종계획입니다.


2007년 12월 11일. Google의 동료 직원 분들과 함께 21세기 세종계획 최종 성과 발표회장에 갔습니다. 장소는 용산에 있는 국립중앙박물관. 이미 발표 절반 정도는 끝나 있었고, 저는 그냥 중앙 발표회장을 둘러싸고 여기 저기 설치된 부스들을 하나씩 하나씩 돌아다니는데 시간을 쏟았습니다.

이날 행사에는 여러 회사들이 자신들의 기술을 자랑하러 나왔습니다.

LNI소프트 - 인가이드, 한가이드 라는 번역 프로그램을 써 보신 분 손? 이번엔 이 회사에서 Qualia Engine 이라는, "문서를 구성하는 내용어와 문형을 예비 스캐닝함으로써 도메인과 상황을 자동적으로 인지, 상황에 맞는 대역어와 번역문을 생성"하는 번역 프로그램을 만들었다고 하네요.

... )@*#(*$!)(@# 복잡한 이야기 좀 쉽게 풀어서 써 보면.

"나는 약을 사 왔다. 나는 그걸 먹었다." 라는 문장을 영어로 번역할 때,
"I bought a medicine. I ate it." 이라고 번역하던 것이 기존의 프로그램들이라면,
"I bought a medicine. I took it." 이라고 번역할 테다!! 라는 거죠.

즉. "그걸" 이라는 말을 기존의 번역 프로그램들은 단순히 it 으로만 바꿔버리고, it 이 무엇을 가리키는 말인지는 고민하지도 않고 그냥 "먹었다" 를 "ate" 라고 번역했었는데, 이 회사의 프로그램은, "it" 이 무엇을 가리키는지를 정확히 추적해 내고, 대응되는 말인 "약" 에 맞춰서 "먹었다" 를 "took" 으로 번역하게 만들었다, 는 거죠.

한번 직접 문장을 입력해서 그걸 번역하는 모습을 보고 싶었는데, 아쉽지만 그건 좀 어려웠습니다.

CoreVoice - 라는 회사에서는, 한국어/영어 문장을 입력하면 그걸 읽어주는 - 그 왜. 엽기국어듣기평가 만드는데 쓴다는. "보이스웨어" 같은 프로그램, TTS 계열의 프로그램을 출품했습니다. 시연하시던 분은 자신들의 프로그램이 한국어 문장을 "형태소 분석"을 통해, 어디서 끊어읽어야 하는지를 자동으로 계산해서 적절하게 읽어주는 기능을 탑재하고 있다고 설명하시더군요.

그런데 솔직히 별로 티가 안 나서 모르겠었습니다. OTZ

그래도 잘 읽더군요. 일부러 괴롭히려고 "똠방각하는 커피숖에 가서 왜날쀍" 라는 말을 읽을 수 있는지 시연을 부탁했는데, 지극히 잘 읽었습니다. [... 좀 엄한 글자가 섞여있긴 하죠 ^^;]

나라인포테크 - 왜 그. 네이버에서 "맞춤법 검사기" 라고 치면 검색되는, urlmal.cs.pusan.ac.kr 로 접속되는 부산대학교 우리말 배움터라는 곳 있죠? 이분들은 자신들이 얼마나 뛰어난 맞춤법 검사기를 개발했는지 자랑하러 오셨더랬습니다. 워낙에 잘 알려진 프로그램이니까 뭐라고 추가 설명을 하기는 힘드네요.

아. 시연하시는 분들께. "맞춤법 검사기의 개인적인 의견"에 대해 어떻게 생각하느냐고 여쭈었는데. 잘 모르시더군요. [...] 흐흐.

그 밖의 여남은 회사는 생략합니다. >_< 한 회사는 한국어 Ontology에 대한 연구 결과를 공개하기도 했는데, 말하자면 동명이인을 구별하여 검색할 수 있게 해 주는 기술(?!) 쯤이라고 생각하면 큰 문제 없을 것 같습니다.



다음은 21세기 세종계획을 통해 만들어진 각각의 자료들을 홍보하는 부스를 한바퀴 돌았습니다. 마침 행사장에서는, "저작권 갖고 문제 일으키지 않게, 조용히 연구목적으로만 쓸 것임을 서약" 하는 사람에 한해서 21세기 세종계획의 최종 성과물 배포 DVD를 나눠주고 있었습니다. 물론 저도 하나 Get 했습니다.



국어 기초 자료 구축 분과에서는, 현대국어 말뭉치를, 무려 9316만 어절(!) 규모로 구축해 내었습니다! 그리고, 이걸 다시 언어학적으로 심도 있게 분석 (형태소 분석이라던가, 그런 것 말이지요) 한 자료는 1,230만 어절이나 되고, 북한말로 된 자료도 1,083만 어절이나 모았습니다.

이게 왜 대단한 숫자냐면 ... 그 많은 "글" 들을, "저작권" 문제까지 해결해서 모은다는 건 쉬운 일이 아닌 탓입니다. 다들 아시겠지만 저작권이라는 거, 무섭습니다. 우리말로 된 글을 무작정 모은답시고 인터넷에 있는 글을 아무렇게나 긁어 모아다가 연구에 썼다간 저작권 침해가 될 가능성이 크지요. 그리고 기왕에 긁어모을 거면 같은 우리말로 된 글이라도 좀 더 "좋아 보이는" 녀석들을 모아야 할 텐데 - 신문기사라거나, 소설이라거나, 중학생들의 대화라거나 - 이런 것들을 전부 저작권자로부터 "연구 목적으로 쓸 테니 배포해도 되게 해 주세요" 라고 허락을 받기란 어려운 일일 테니까요 .

집에 돌아온 뒤. 이 분과에서 만든 "형태소 분석 자료"를 들여다 봤습니다.


가가대소 : 가(명사) + 이(동사) +가(명사) + 이(동사) + 대(명사) + 소(명사)
1달러 : 1 + 달르(동사) + 어(어말)


... ... 폭소. ㅠㅠㅠ 너무하잖아요 저런 형태소 분석 결과는!


그래도, 저렇게 이상하게 (?) 분석한 경우는 수 %도 되지 않는다고 하니, 믿어 보아야지요.





이어서 이번엔 영한 대역 / 일한 대역 말뭉치 구축 자료 소개 부스로 찾아갔습니다. 여쭈어 보니, 영한 대역 말뭉치는, 700만 단어 어치의 자료를 모았다고 하더군요.

"영어 한국어 대역이야 텝스 문제집 같은거 사면 되지 않느냐"고 말씀하는 분이 계실지 모르겠는데, 그런거 몇천권을 모아야 수백만 단어를 모을 수 있고, 또 저작권료는 얼마나 내야 할지 고민해 보면 눈 돌아갈겁니다.

그래서! 그네고치기는 두근두근한 마음을 품고, 700만 단어 규모의 영한 대역 자료를 구경하려고 했는데,

"국립국어원을 통해 매년 70만 단어치씩을 배포하고 있었어요. 700만 단어 모두 모으시려면 국립국어원에 문의하셔서 10년치 CD를 전부 받으셔야 할 거에요."

OTL 최종 성과물 DVD 에는 DVD가 무색하게 70만 단어만 담은 겁니까 ...





넘어가서, 옆에서는 "한민족 언어 정보화" 라는 성과에 대한 설명을 하고 있었습니다. 여기서는 각 지역의 사투리를 검색하면 그 유래가 어떻게 되는지, 어떻게 변화하였고 지금은 어느 어느 지방에서 그런 말을 쓰는지, 등을 모두 검색할 수 있는 프로그램을 개발하였다고 알리고 있었습니다.

한번 실험을 해 보려고, 검색어 입력창에 이런 걸 집어넣었습니다.

[


... 1만 7천건 검색 잘 되더군요! >ㅁ<

살짝 당황하시는 시연자 분을 뒤로하고, 장난은 그쯤 해두고, 본격적으로 프로그램을 써보기 시작했습니다. 알고 있던 북한말들을 몇 개 검색창에 입력했습니다.

겉명켕킴힘
제곱뿌리
어미전산기

- 각각, "표면장력", "제곱근", "호스트 컴퓨터" 를 뜻합니다. [......]

검색 결과 : 0건

... 네. 전 사람들이 만든 프로그램을 괴롭히는 데 취미가 있는 모양입니다.






여하간에! 그렇게, 각각의 분과들이 어떤 자료를 만들었는지 구경하고, 질문하고, 답변을 듣고 하다가 시간이 다 지나가버렸습니다.


펼쳐놓기는 조금 뻘쭘한 뒷이야기.





===============================================


그래도 명색이. 컴퓨터 관련 회사에서 인턴하는 사람 블로그에 컴퓨터 관련 글이 하나도 없는게 마음에 걸려서 한번 적어 봤습니다. 사실 문장이 너무 매끄럽지 않아서 포스트를 올려야 하나 말아야 하나 고민입니다. 그래도, 올려 보렵니다.

다음 포스팅이 또 언제 올라올 지는 아무도 몰라요 /ㅅ/

Posted by 그네고치기

2007/12/27 21:50 2007/12/27 21:50
,
Response
0 Trackbacks , 6 Comments
RSS :
http://combacsa.net/blog/rss/response/69

Trackback URL : http://combacsa.net/blog/trackback/69


블로그 이미지

하고픈, 듣고픈 이야기가 많은 그네고치기의 블로그, 임시 개장.

- 그네고치기

Notices

Archives

Calendar

«   2010/09   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    

Site Stats

Total hits:
59466
Today:
6
Yesterday:
20