정책연구검색


전체 검색

Home  정책연구검색  전체 검색

과제정보

과제정보
과제명 국어 특수자료 구축
기관명 문화체육관광부 담당부서 조직성과담당관실
전화번호 02-3704-9227 연구기간 2005-04-14 ~ 2005-12-13
연구분야
개요 국어 특수자료 구축

계약정보

과제정보
수행기관 연세대학교 [대학]
수행연구원 임용기 계약일자 2005-04-14
계약방식 기타 계약금액 0원

연구결과 정보

과제정보
제목 (21세기 세종계획)국어 특수자료 구축
연구보고서
목차
<사업의 개요>=1 1. 1 ? 2단계 연구 추진 실적 및 2005년도 연구 목표=3 2. 2005년도 사업 목표=7 3. 연구 추진 방법=10 제1부 원시 말뭉치의 구축=21 1장. 현대 국어 구어 전사 말뭉치 개발=23 1. 연구의 필요성 및 목표=25 2. 구어 전사 원시 말뭉치 개발=30 3. 말뭉치 구축 지침=38 4. 현대 국어 구어 전사 말뭉치 구축 실례=38 <붙임 1> 2005 구어 전사 말뭉치 목록=46 <붙임 2> 21세기 세종계획 구어 말뭉치 전사 및 마크업 지침=50 <붙임 3> 21세기 세종계획 구어 말뭉치 표기 지침=67 <붙임 4> 구어 전사 말뭉치 목록(1998-2005)=84 <붙임 5> 국가 언어 자원(말뭉치) 구축 및 활용 승낙서=104 <붙임 6> 화자 정보=105 <붙임 7> 담화 상황 정보=106 2장. 한영 병렬 말뭉치 개발=107 1. 연구의 필요성 및 목표=109 2. 한영 병렬 말뭉치 개발 =110 3. 연구 ? 배포용 한영 병렬 말뭉치 샘플 구성=129 <붙임 1> 국가 언어 자원(말뭉치) 구축 및 활용 승낙서 샘플=134 <붙임 2> 한 ? 영 병렬 원시 말뭉치의 입력 지침=135 <붙임 3> 한 ? 영 병렬 원시 말뭉치의 문장 분할 지침=139 <붙임 4> 한 ? 영 병렬 원시 말뭉치의 문장 정렬 지침=148 <붙임 5> 한 ? 영 병렬 말뭉치의 구축 실례=151 3장. 한일 병렬 말뭉치 개발=175 1. 개요=177 2. 설계원칙=178 3. 작업 지침=178 4. 작업 파일 목록=192 5. 말뭉치 지도=196 6. 한일 병렬 말뭉치 구축의 실례=200 4장. 북한 및 해외 한국어 말뭉치 개발=213 1. 연구의 필요성, 목표, 대상=215 2. 북한 말뭉치 구축 결과=217 3. 연구 추진 방법=219 4. 결론 및 제언=230 5장 역사자료 말뭉치 개발=231 1. 연구 목적=233 2. 원시 말뭉치 개발=233 3. 역사자료 원시 말뭉치 구축 지침=236 4. 기존 말뭉치와의 차이점=244 5. 역사 자료 원시 말뭉치 구축의 예=247 <붙임 1> 『東國正韻』조합 한자 목록=256 <붙임 2> 『東國正韻』입력 불가 한자 목록=265 6장. 전문용어 말뭉치 개발=267 1. 연구의 필요성, 목표 및 방법=269 2. 말뭉치 구축 결과=271 3. 연구 추진 방법=274 4. 문제점 및 향후 계획=293 제2부 형태소 분석 말뭉치의 구축=295 1장. 현대 국어 구어 전사 말뭉치 개발=297 1. 연구의 필요성 및 목표=299 2. 구어 형태소 분석 말뭉치 개발=300 3. 구어 형태소 분석 말뭉치 개발 성과=307 4. 구어 형태소 분석 말뭉치 구축의 예=311 <붙임 1> 구어 형태소 분석 말뭉치 목록(2001~2005)=318 <붙임 2> 구어 형태소 분석 말뭉치 구축 지침=325 2장. 한영 병렬 말뭉치 개발=385 1. 연구의 필요성 및 목표=387 2. 한 ? 영 병렬 형태소 분석 말뭉치 개발=388 3. 기구축 형태소 분석 말뭉치에 대한 통합 정비=401 <붙임 1> 한 ? 영 병렬 형태소 분석 말뭉치 한국어 형태소 분석 지침=404 <붙임 2> 한 ? 영 병렬 형태소 분석 말뭉치 영어 형태소 분석 지침=449 <붙임 3> 한 ? 영 병렬 형태소 분석 말뭉치 구축 실례=514 <붙임 4> 한 ? 영 병렬 형태소 분석 말뭉치 목록(2001~2005)=525 3장. 한일 병렬 말뭉치 개발=533 1. 연구 개요=535 2. 한일 병렬 형태소 분석 말뭉치 구축=535 3. 한일 병렬 형태소 분석 말뭉치 구축 방법=539 4. 한일 병렬 형태소 분석 말뭉치 구축의 실례=551 4장. 북한 및 해외 한국어 말뭉치 개발=575 1. 주석 말뭉치 개발=477 2. 북한 및 해외 한국어 말뭉치 주석 지침(2005-수정본)=580 5장. 역사자료 말뭉치 개발=621 1. 연구 목표=623 2. 역사자료 말뭉치 주석 체계=624 제3부 전문가 초청 특강 발표 요지=639
 

<사업의 개요>=1 
1. 1 ? 2단계 연구 추진 실적 및 2005년도 연구 목표=3 
2. 2005년도 사업 목표=7 
3. 연구 추진 방법=10 
제1부 원시 말뭉치의 구축=21 
1장. 현대 국어 구어 전사 말뭉치 개발=23 
1. 연구의 필요성 및 목표=25 
2. 구어 전사 원시 말뭉치 개발=30 
3. 말뭉치 구축 지침=38 
4. 현대 국어 구어 전사 말뭉치 구축 실례=38 
<붙임 1> 2005 구어 전사 말뭉치 목록=46 
<붙임 2> 21세기 세종계획 구어 말뭉치 전사 및 마크업 지침=50 
<붙임 3> 21세기 세종계획 구어 말뭉치 표기 지침=67 
<붙임 4> 구어 전사 말뭉치 목록(1998-2005)=84 
<붙임 5> 국가 언어 자원(말뭉치) 구축 및 활용 승낙서=104 
<붙임 6> 화자 정보=105 
<붙임 7> 담화 상황 정보=106 
2장. 한영 병렬 말뭉치 개발=107 
1. 연구의 필요성 및 목표=109 
2. 한영 병렬 말뭉치 개발 =110 
3. 연구 ? 배포용 한영 병렬 말뭉치 샘플 구성=129 
<붙임 1> 국가 언어 자원(말뭉치) 구축 및 활용 승낙서 샘플=134 
<붙임 2> 한 ? 영 병렬 원시 말뭉치의 입력 지침=135 
<붙임 3> 한 ? 영 병렬 원시 말뭉치의 문장 분할 지침=139 
<붙임 4> 한 ? 영 병렬 원시 말뭉치의 문장 정렬 지침=148 
<붙임 5> 한 ? 영 병렬 말뭉치의 구축 실례=151
3장. 한일 병렬 말뭉치 개발=175
1. 개요=177
2. 설계원칙=178
3. 작업 지침=178
4. 작업 파일 목록=192
5. 말뭉치 지도=196
6. 한일 병렬 말뭉치 구축의 실례=200
4장. 북한 및 해외 한국어 말뭉치 개발=213
1. 연구의 필요성, 목표, 대상=215
2. 북한 말뭉치 구축 결과=217
3. 연구 추진 방법=219
4. 결론 및 제언=230
5장 역사자료 말뭉치 개발=231
1. 연구 목적=233
2. 원시 말뭉치 개발=233
3. 역사자료 원시 말뭉치 구축 지침=236
4. 기존 말뭉치와의 차이점=244
5. 역사 자료 원시 말뭉치 구축의 예=247
<붙임 1> 『東國正韻』조합 한자 목록=256
<붙임 2> 『東國正韻』입력 불가 한자 목록=265
6장. 전문용어 말뭉치 개발=267
1. 연구의 필요성, 목표 및 방법=269
2. 말뭉치 구축 결과=271
3. 연구 추진 방법=274
4. 문제점 및 향후 계획=293
제2부 형태소 분석 말뭉치의 구축=295
1장. 현대 국어 구어 전사 말뭉치 개발=297
1. 연구의 필요성 및 목표=299
2. 구어 형태소 분석 말뭉치 개발=300
3. 구어 형태소 분석 말뭉치 개발 성과=307
4. 구어 형태소 분석 말뭉치 구축의 예=311
<붙임 1> 구어 형태소 분석 말뭉치 목록(2001~2005)=318
<붙임 2> 구어 형태소 분석 말뭉치 구축 지침=325
2장. 한영 병렬 말뭉치 개발=385
1. 연구의 필요성 및 목표=387
2. 한 ? 영 병렬 형태소 분석 말뭉치 개발=388
3. 기구축 형태소 분석 말뭉치에 대한 통합 정비=401
<붙임 1> 한 ? 영 병렬 형태소 분석 말뭉치 한국어 형태소 분석 지침=404
<붙임 2> 한 ? 영 병렬 형태소 분석 말뭉치 영어 형태소 분석 지침=449
<붙임 3> 한 ? 영 병렬 형태소 분석 말뭉치 구축 실례=514
<붙임 4> 한 ? 영 병렬 형태소 분석 말뭉치 목록(2001~2005)=525
3장. 한일 병렬 말뭉치 개발=533
1. 연구 개요=535
2. 한일 병렬 형태소 분석 말뭉치 구축=535
3. 한일 병렬 형태소 분석 말뭉치 구축 방법=539
4. 한일 병렬 형태소 분석 말뭉치 구축의 실례=551
4장. 북한 및 해외 한국어 말뭉치 개발=575
1. 주석 말뭉치 개발=477
2. 북한 및 해외 한국어 말뭉치 주석 지침(2005-수정본)=580
5장. 역사자료 말뭉치 개발=621
1. 연구 목표=623
2. 역사자료 말뭉치 주석 체계=624
제3부 전문가 초청 특강 발표 요지=639
초록
1. 사업명 국어 기초자료 구축 - 국어 특수자료 구축 소분과 - 2. 연구의 목적 이 연구는 우리나라의 선진 정보 문화의 기본 바탕과 자원을 확충하는 국어정보화 중장기 발전계획의 일환으로 수립된 <21세기 세종 계획>의 10년간(1998~2007) 사업 중 제 3단계의 2차년도 작업에 해당한다. 21세기 정보화 사회에서 국민 전체의 언어 ? 문화 생활을 향상시키고 과학 기술 및 학문을 발전시키기 위해서는 대규모 언어 자료를 축적하여 정보 ? 지식으로 가공하는 일이 중요하다. 언어 규범과 추상적 이론 위주의 언어 정책이나 교육으로는 효과적 대응이 어려우며, 국어 생활을 과학적 토대 위에서 개선시키고 국어의 특성에 적합한 정보 문화와 새로운 정보 처리 이론 및 기술을 발전시켜야 한다. 이를 위해서는 기초적 연구로서 우수한 품질과 대용량의 규모를 갖춘 국어 자료의 지속적 축적이 필요하다. 국어 자료의 데이터베이스를 구축함으로써 언어 정책의 수립과 교육의 효율화, 정보 처리의 생산성 향상을 꾀할 수 있고 국민들 모두가 쉽고 편리하게 언어 정보를 찾고 활용할 수 있다. 이러한 기초 자료에는 문어 말뭉치뿐만 아니라 구어 말뭉치, 병렬 말뭉치 등의 특수 자료 말뭉치 또한 포함되어야 한다. 따라서 본 사업은 국가적 역량을 기반으로 국어 기초 자료 중 쉽게 접근하기 힘든 특수 자료를 대규모의 국가 말뭉치 수준으로 구축하는 것을 목적으로 한다. 1단계부터 2단계까지 구축한 자료를 효율적으로 이용하고 보완 ? 확장해 나가기 위해서는 국어 정보화를 위한 국가적 기반의 조직적, 지속적 구축이 필요하다. 따라서 본 연구는 국어 정보 처리, 국어 연구, 국어 교육, 국어 정책, 국어 생활, 정보 산업, 번역 등 여러 부문에 활용될 수 있는 특수자료의 기초 자원과 응용 자원을 개발하고자 한다. 특수자료 구축 소분과 3단계 2차년도 사업의 목적은 다음과 같다. 첫째, 3단계 2차년도 사업에서는 그동안 추진해 온 현대국어 구어 말뭉치, 한영 병렬 말뭉치, 한일 병렬 말뭉치, 역사자료 말뭉치, 북한 및 해외 한국어 말뭉치 구축과 함께, 그동안 전문용어 정비 분과에서 추진해 온 전문용어 원시 말뭉치 구축을 진행시킨다. 둘째, 자료의 활용도를 높이기 위하여 구축된 기초 자료를 지속적으로 가공한다. 구축된 자료를 다방면으로 활용하고 일반 말뭉치와 비교 연구하기 위해서는 자료를 언어학적으로 분석하고 기본적인 형태소 분석 표지를 부여하는 작업이 필수적이다. 따라서 2단계에서 형태소 주석 말뭉치 구축을 위한 기초 연구 및 시험 구축을 토대로 형태소 분석 말뭉치를 구축해 온 바 있다. 당해연도인 3단계 2차년도에서도 2단계 작업에 이어서 형태소 분석 말뭉치 구축을 지속적으로 진행시킬 예정이다. 또한 실질적인 연구 및 활용을 위한 연구, 배포용 말뭉치 구성 및 통합 ? 조정 작업을 추진해 나갈 예정이다. 이렇게 구축된 말뭉치는 문어와 구어의 대조 연구, 한국어와 외국어의 대조 연구, 한 ? 영, 한 ? 일 번역문 간의 대조 연구, 일반어 텍스트와 전문 분야 텍스트의 대조 연구, 북한어와 남한어의 대조 연구, 현대어와 고어의 대조 연구 등에 응용될 수 있을 것이다. 셋째, 일반 현대 국어 말뭉치에 비해 자료가 희귀하고 구축의 난이도가 높은 특수자료를 말뭉치의 균형성과 사업의 궁극적인 목표에 맞도록 구축한다. 넷째, <21세기 세종 계획>의 다른 분과 사업과의 연관성을 고려하면서 사업을 추진한다. 전문용어 말뭉치는 ‘전문용어 정비’ 분과에서 응용하기에 적합한 기초자료로 구축하고 역사자료 말뭉치는 한민족 언어정보화와 사업과의 학제적 교류 속에서 응용가능성을 모색하며 추진한다. 3. 연구의 필요성 국어 생활을 과학적 토대 위에서 향상시키고 국어의 특성에 적합한 정보 문화와 새로운 정보 처리 이론 및 기술을 발전시키기 위해서는 그 기초적 연구로서 대규모의 국어 텍스트 말뭉치가 필요하다. 국어 자료의 데이터베이스를 구축함으로써 언어 정책의 수립과 교육의 효율화, 그리고 정보 처리의 생산성을 향상 시킬 수 있고, 국민들 모두가 쉽고 편리하게 언어 정보를 찾고 활용할 수 있게 해야 하는 것이다. 그러기 위해서는 우수한 품질과 대용량의 규모를 갖춘 국어 자료의 지속적 축적이 필요하다. 구어는 말뭉치 언어학 연구의 초기부터 언어 연구와 긴밀한 관계를 맺어 왔으나, 구어 말뭉치의 필요성에 대한 문제가 제기되고 이에 대한 기초적인 연구가 시작된 것은 비교적 최근의 일이다. 구어 말뭉치의 개발은 그동안의 문어 중심 국어 연구의 문제점에 대한 해결의 실마리를 제공할 수 있을 뿐만 아니라 구어의 실제 쓰임이 반영된 사전이나 문법서를 제작할 수 있는 말뭉치를 제공하여 국어 교육이나 외국어로서의 한국어 교육에 이바지할 수 있다. 또한 최근 음성 언어 정보 처리에 대한 각 연구 기관과 기업체의 관심과 투자가 확대되고 있음을 생각할 때, 폭넓은 영역에서 구축된 구어 자료와 이에 대한 기초 가공 작업은 이러한 기술 개발에 일정 부분 기여를 할 것이다. 2004년까지 구축된 세종 구어 전사 말뭉치는 원시 337만 어절, 형태 주석 말뭉치 68만 어절에 불과하다. 그에 비해 서구 선진국의 경우에는 국가와 수많은 정보 산업 관련 기업체, 기술 개발자들을 중심으로 대규모의 사업들이 진행되어 왔다. 이 말뭉치들은 대부분 1천만 어절을 넘었으며 실제적 이용을 위해 다양한 언어학적 층위에서의 주석 작업이 진행되고 있다. 한국어 구어 말뭉치의 경우에도 기초 가공 작업이 지속적으로 이루어져야 하며, 이를 바탕으로 3단계 이후 배포될 연구 ? 배포용 통합 말뭉치가 구성될 수 있을 것이다. ? 영국국가말뭉치(British National Corpus) ?구축 기관 : 옥스퍼드대학 출판부, 롱맨 출판사, 옥스퍼드 대학, 랭카스터 대학 등 6개 기관이 영국 상공부와 과학기술연구협의 처로부터 50%의 지원을 받음 ?구축 규모 : 1천만 어절(문어 포함 1억 어절) ?구축 기간 : 1991.1 - 1994년 ?구축 목적 : 사전편찬학, 인공 지능 음성 인식 · 합성r 문헌학 둥 다 방면의 연구 및 웅용을 위한 기초 자료 제공. 2001년에는 구어 자료 1천만 어절 전체에 대한 어휘 빈도 작업과 문 어 어휘 빈도와의 비교 연구. ? 코빌드 구어 말뭉치(The COBUILD Spoken Corpus) ?구축 기관 : 버밍햄 대학, 콜린즈 출판사 ?구축 규모 : 1천만 어절 이상(문어 포함 4억 5천만 어절, 구어 자료는 대부분 90년대 이후의 자료임) ?구축 기간 : 1991년 ~ 현재 ?구축 목적 : 사전편찬학, 영어학, 언어 교육, 번역학 등의 연구를 위한 기초 자료 제공 및 철자 검사기, 기계 번역 시스템 등 정보처리산업 분야로의 응용. ? The International Corpus of English ?구축 기관 : 런던 대학 SEU(the Survey of English Usage) 센터를 중심으로, 15개 국가(지역)가 프로젝트에 참가 ?구축 규모 : 각 나라에서 100만 어절씩 모두 1천 500만 어절 구축(문어 ? 구어포함) ?구축 목적 : 전 세계의 영어 변이형 연구. 통사론, 형태론, 어휘론, 사회 언어학, 담화 분석, 음성학, 음운론 등의 연구를 위한 자료 제공 및 언어 교육, 자연 언어 처리 등 관련 분야로의 응용. 병렬 말뭉치의 구축은 대부분 유럽과 미국을 중심으로 한 서구어 사이의 대응을 기반으로 시작되었다(예: 영어-불어, 영어-독일어, 영어-노르웨이어 등). 말뭉치의 구축에 이어, 이를 활용하기 위한 사용자 인터페이스 도구에 대한 개발 및 텍스트의 정렬 등이 다양하게 연구되고 있다. 더욱이 병렬 말뭉치에 대한 응용 분야의 요구가 보다 증가할 것으로 여겨지기 때문에 병렬 말뭉치의 구축 및 도구의 개발은 더욱 가속화될 전망이다. 서구 선진국가들(특히 유럽의 국가들)의 대표적인 병렬 말뭉치 구축 및 관련 기술 개발 프로젝트는 다음과 같다. ? The English-Norwegian Parallel Corpus(영어 : 노르웨이어) ① 구축 기관 : Oslo Univ. ② 구축 규모 : 100개의 영어 원본 텍스트와 100개의 노르웨이어 번역본 텍스트, 100개의 노르웨이어 원본 텍스트와 100개의 영어 번역본 텍스트를 합하여 약 260만 어휘의 병려려 말뭉치의 구축 ③ 구축 기간 : 1994~1997 ④ 관련 프로그램 : 번역 말뭉치 정렬 프로그램, 번역 말뭉치 검색기 ⑤ 중심 연구 분야 : 언어의 대조 분석, 번역 연구 ? The Finnish-English Contrastive Corpus(영어 : 핀란드어) ① 구축 기관 : Jyv?skyl? Univ. ② 중심 연구 분야 : 언어의 대조 분석, 언어의 구조와 사용 양상에 대한 연구, 말뭉치 기반 언어 연구를 반영한 응용 프로그램 개발 ? Text_based contrastive studies in English(영어 : 스웨덴어) ① 구축 기관 : Lund Univ. ② 구축 규모 : 160만 어휘 ③ 구축 기간 : 1993 ~ 현재 ④ 중심 연구 분야 : 인식론적 양상, 담화 표지, 문법적 초점 기제 ? MULTEXT(Multilingual Text Tools and Corpora) ① 구축 기관 : EC(the European Commission: LRE - the Linguistic Research and Engineering Copernicus), 미국의 NSF(US: the Vassar/CNRS collaboration), 프랑스의 AUPELF-UREF(the Fonds Francophone pour la Recherche)와 CNRS(French)the Universite de Provence) ② 대상 언어: 체코어, 네델란드어, 영어, 불어, 독일어, 스페인어, 이태리어, 스웨덴어, 밤바라어(Bambara), 불가리어, 카탈란어, 에스토니아어 등 ? MULTEXT-EAST ① 구축 기관 : Laboratoire Parole et Langage, Centre National de la Recherche Scienctifique(CMRS) ② 구축 목적 : MULTEXT의 기술, 방법론, 도구를 응용하여 동구언어에 적용 ③ 대상 언어 : 6개의 동구언어(불가리아어, 체코어, 에스토니아어, 헝가리어, 루마니아어, 슬로바니아어) ④ 중심 연구 분야 : 언어표준과 부호화(CES)의 검증과 적용, 다중언어(6개국어) 말뭉치 개발(형태소 태깅, 병렬 말뭉치), MULTEXT의 말뭉치 도구의 적용, 형태소-어휘 자원 개발 ? The ECI Multilingual Corpus(ECI : European Corpus Initiative) ① 구축 기관: 영국 에딘버러 대학의 HCRC와 스위스 제네바 대학의 ISSCO ② 구축 목적 : 다중언어 말뭉치의 구축과 다중언어의 문자, 음성 말뭉치의 설계, 수집, 출판 지원 ③ 구축 규모 : 9천8백만 단어의 ECI/MCI 말뭉치 구축 ④ 대상 언어 : 주요 유럽어와, 터키어, 일어, 러시아어, 중국어, 말레이어 등 이뿐만 아니라, 최근에는 인근 아시아 국가인 중국에서도 중국어와 다른 언어의 병렬 말뭉치 구축 및 관련 기술 개발에 대한 관심도가 높아지고 있다. 따라서 병렬 말뭉치의 구축과 가공, 활용 및 이를 지원하는 관련 프로그램의 개발에서 괄목할만한 성과를 거두고 있다. 중국은 일본과의 국제적인 협력을 통해 중 ? 일 병렬 말뭉치의 구축과 활용에서 활발한 연구를 진행하고 있는 것도 주목할만한 일이다. ? The Babel English-Chinese Parallel Corpus(중국어 : 영어) ① 구축 기관 : 중국 베이징(北京)대학교 계산언어학연구소 ② 구축 규모 : 약 20만 문장의 문장 단위 정렬 말뭉치 구축 ③ 구축 기간 : 2001년 ~ 2004년 ④ 구축 목적 : 뉴스 도메인의 중영 기계번역기의 번역 메모리(Translation Memory)지원. ⑤ 관련 프로그램 : PreEncoder(원시 말뭉치의 텍스트 포맷 변환, 노이즈 제거 등의 전처리기), Encoder(원시 말뭉치 마크업 보조기), Checker(원시 말뭉치의 검수 및 통계 프로그램), PASAligner(단락 및 문장 단위 자동 정렬기), Convertor(XML 포맷 변환기), CN_segtag(XML 포맷의 중국어 말뭉치의 형태소 분석기), EN_tokenLemma(XML 포맷의 영어 말뭉치에 대한 tokenization 및 lemmatization), Concordancer(병렬 말뭉치에 대한 검색, 통계, 정렬 및 결과 보여주기) ? 英???平行?料?(영중 이개어 평행 말뭉치) ① 구축 기관 : 중국 샤먼(厦門)대학교 언어기술센터 제1 연구실 ② 구축 규모 : 131,523문장의 문장 정렬 말뭉치를 구축. 이중 영어 말뭉치의 규모는 1,248,345 단어, 중국어는 2,085,742자의 한자 포함 ③ 구축 목적 : 영어와 중국어의 어휘 및 문법의 대조 분석 연구 ④ 관련 프로그램 : 웹기반 영중 용례 및 대역 문자 검색기 ⑤ 중심 연구 분야 : 중영 대주 분석 연구 ? 중 ? 일 병렬 말뭉치(중국어 : 일본어) ① 구축 기관 : 중국 베이징외국어대학교(일본 국립국어연구소 협력) ② 구축 규모 : 2천만자의 중일 병력 말뭉치 구축(세계 최대 규모의 중일 병렬 말뭉치) ③ 구축 기간 : 2000-2003 ④ 관련 프로그램 : 단어, 구, 문형 및 그 대역문의 검색기 ⑤ 중심 연구 분야 : 중 ? 일 언어의 대조 분석, 중 ? 일 번역 연구 ? 중 ? 영 병렬 말뭉치 (중국어 : 영어) ① 구축 기관 : 중국 베이징외국어대학교 ② 구축 규모 : 3천만자의 중일 병렬 말뭉치 구축(세계 최대 규모의 중영 병렬 말뭉치) ③ 구축 기간 : 2000-2003 ④ 관련 프로그램 : 중영 자동 문장 정렬기, 단어, 구, 문형 및 그 대역문의 검색기 ⑤ 중심 연구 분야 : 중 ? 영 언어의 대조 분석, 중 ? 영 번역 연구 위와 같은 선진 외국의 개발 상황과, 기계 번역 산업계나 연구계가 자력으로는 병렬 말뭉치를 구축하지 못하는 국내의 현 상황을 고려할 때, 세종 병렬 말뭉치의 개발은 필수적이다. 그러나 세종 병렬 말뭉치는 아직까지 한 ? 영과 한 ? 일 병렬 말뭉치만을 대상으로 개발되고 있는 실정이며, 더욱이 한 ? 일 병렬 말뭉치의 경우 구축 시작 시기가 늦었던 만큼 한 ? 영 병렬 말뭉치에 비해 상대적으로 구축량의 증가가 더 필요하다고 할 수 있다. 또한, 국제적 언어 정보의 교류를 위해서는 이개어 병렬 말뭉치에서 다국어 병렬 말뭉치로의 확장이 고려되어야 한다. 3단계 2차년도에는 병렬 말뭉치의 구축량을 균형 있게 증가시키면서 향후 다양한 대응어의 병렬 말뭉치 개발을 위한 시험 말뭉치 구축 연구가 이루어져야 한다. 국어 자료의 데이터베이스 구축 작업에서 역사 자료의 말뭉치 구축 작업은 특히나 중요하다. 국어의 발달 변천사나 방언론과 같은 국어 연구와 국어 교육, 그리고 어문 생활의 발전을 기하기 위해서는 역사 자료들의 정보화가 필요한 것이다. 그것은 훈민정음이라는 우리의 세계적 문화유산을 보존하고 더욱 드높이는 길이기도 하다. 고어와 방언에 대한 이해는 이해 그 자체에 그치는 것이 아니라 현대국어의 근원을 파악할 수 있게 해주고, 현대의 어문 생활의 길잡이가 된다는 점에서도 중요하다. 최근 해외의 말뭉치 구축 사업의 동향도 현대어 이외의 고어와 방언을 포괄하는 방향으로 확산되고 있음은 그 필요성을 잘 말해주고 있다. 현대 국어의 올바른 언어 분석을 위해서는 역사적인 언어 정보에 토대를 두지 않으면 안 될 것이며, 역사 자료는 국어 연구와 교육뿐 아니라, 사전편찬학, 우리 문화의 정보화 ? 국제화의 기반을 이루게 될 것이다. 1단계에서부터 꾸준히 구축해 온 역사 자료 말뭉치를 실제 연구에 이용하기 위해서는 역사 자료를 적절한 언어단위로 분석하고 형태소 분석 작업을 수행하는 것이 필수적이다. 역사 자료의 형태소 분석 말뭉치를 개발하는 데에 있어서 가장 큰 문제점은 띄어쓰기의 구분이 없다는 자료 자체의 특성이다. 띄어쓰기의 구분이 없고 자료에 포함되어 있는 한자음, 방접 등의 요소를 동시에 고려해야 하기 때문에 역사 자료에 자동적으로 형태소 분석 표지를 부착하거나 검색하는 것은 거의 불가능하다. 따라서 형태소 분석 표지를 부착할 대상이 되는 언어 단위를 결정하고 역사 자료의 특성을 그대로 드러낼 수 있는 태그의 셋을 정하는 등의 기초 연구부터 단계별로 형태소 분석의 작업을 진행하기로 한다. 4. 연구내용 및 결과물 당해연도의 세부 과제별 연구 내용 및 결과물은 다음과 같다. <당해년도 연구 목표와 내용> 1. 현대 국어 구어 전사 말뭉치 개발 ? 분량 : 총 83만 어절 원시 말뭉치 55만 어절 형태소 분석 말뭉치 28만 어절 ? 내용 : 한국어의 일상적인 발화를 대표할 수 있도록 최대한 다양한 구어 전사 말뭉치를 개발하고, 세종 계획을 통해 구축될 기초 말뭉치 전체 구성에서 문어 자료와 균형을 이루는, 구어 형태 주석 말뭉치를 구축한다. 이 자료는, 3단계에 순차적으로 구어 통합 말뭉치의 형태로 배포할 수 있도록 하여, 국민의 언어 생활 연구와 언어 정책 수립에 필요한 기초 자료를 개발함과 동시에, 관련 연구 기술 개발 분야의 기초 자료를 제공하는 데에 목표를 둔다. 이를 통하여, 말뭉치를 기반으로 한 국어 연구, 사전학, 담화 분석, 실험음성학 등 구어에 대한 언어학적 연구와 언어 교육, 언어 병리학, 구어의 분석과 활용 기술 개발과 관련된 공학 분야 등에서의 실질적인 연구 및 활용에 기여할수 있도록 한다. 2.한 ? 영 병렬 말뭉치 개발 ? 분량 : 총 72만 어절 원시 말뭉치 50만 어절 형태소 분석 말뭉치 22만 어절 ? 내용 : 1) 자연 언어 처리, 기계 번역 등 언어지식 정보 기반 구축 분야와 언어 교육, 사전 편찬, 대조언어학 연구 등에서 실질적 연구 및 응용을 위해 활용할 수 있는 한국어-영어 병렬 말뭉치의 원시 말뭉치와 형태소 분석 말뭉치를 구축한다. 2) 지금까지 구축된 한 ? 영 병렬 말뭉치의 장르별 구성비와 내용을 재검토하고 정비하여 ‘연구 ? 배포용 한 ? 영 병렬 말뭉치 샘플’을 구성한다. 3.한 ? 일 병렬 말뭉치 개발 ? 분량 : 총 29만 어절 원시 말뭉치 20만 어절 형태소 분석 말뭉치 9만 어절 ? 내용 : 한 ? 일어의 대조 연구와 기계 번역, 언어 교육 등의 분야에 널리 활용될 수 있는 한국어 ? 일본어 병렬 말뭉치와 2단계의 기초 연구를 토대로 한 형태소 분석 말뭉치를 개발한다. 특히, 2004년도까지 구축한 말뭉치의 장르 및 구축량을 망라한 말뭉치 지도를 참고로 균형성이 떨어진 부분(장르, 구축량, 원본/대역본 비율 등)을 보완한다. 4. 북한 및 해외 한국어 말뭉치 개발 ? 분량 : 총 111만 어절 북한 및 해외 한국어 원시 말뭉치 80만 어절 형태소 분석 말뭉치 31만 어절 ? 내용 : 남북한 및 중국, 독립국가연합 등의 한국어 통합을 위한 연구와 정책 수립에 기초가 되는, 문헌자료의 원시 말뭉치를 균형있게 구축하고, 이들에 대한 형태소 분석 말뭉치를 개발한다. 5. 역사 자료 말뭉치 개발 ? 분량 : 총 55만 어절 원시 말뭉치 50만 어절 형태소 분석 말뭉치 5만 어절 ? 내용 : 디지털 한글 박물관의 자료 가운데 15세기 미입력 문헌 자료, 한자음 자료, 사전 등의 입력을 통하여 원시말뭉치를 구축하고자 한다. 또한 역사 자료들의 형태소 분석 작업을 통하여 형태소 분석말뭉치를 구축할 것이다. 형태소 분석 말뭉치의 구축 대상은 15세기 문헌 자료 5만 어절이다. 6. 전문 용어 말뭉치 개발 ? 분량 : 총 100만 어절 원시 말뭉치 100만 어절 ? 내용 : 전문 용어의 형태와 목록을 추출할 수 있도록, 균형성과 정보성이 고려된 전문분야 도서와 자료들을 선정하여 전문분야 말뭉치를 구축 한다. <특수 자료 구축 소분과 총괄 결과물> 1. 특수 자료 구축 결과 보고서 책자 200부 2. 결과 보고서 파일(CD-ROM 형태로 10장) 3. 말뭉치 결과물(CD-ROM 형태로 10장, 총 450만 어절) (1) 연구 결과물은 유니코드 텍스트 파일 또는 ?글 2002 이상으로 구축한다. (2) 표준화 지침에 따라 각종 문서 정보를 기입하고, 최종 오류율이 0.1% 이내가 되도록 한다. (3) 각 과제별 말뭉치 결과물의 양은 다음과 같다. ① CD 구어 전사 자료 83만 어절 구축 (원시 말뭉치 55만 어절+형태소 분석 말뭉치 28만 어절) ② 한 ? 영 병렬 말뭉치 72만 어절 구축 (원시 말뭉치 50만 어절+형태소 분석 말뭉치 22만 어절) ③ 한 ? 일 병렬 말뭉치 29만 어절 구축 (원시 말뭉치 20만 어절+형태소 분석 말뭉치 9만 어절) ④ 북한 및 해외 한국어 말뭉치 111만 어절 (원시 말뭉치 80만 어절+형태소 분석 말뭉치 31만 어절) ⑤ 역사 자료 말뭉치 55만 어절 (원시 말뭉치 50만 어절+형태소 분석 말뭉치 5만 어절) @ 전문용어 말뭉치 100만 어절 (원시 말뭉치 100만 어절) 4. 저작권 승인을 받은 저작권 양의 각서 일체(원본) (1) 현대 국어 구어 전사 말뭉치 (2) 한 ? 영 병렬 말뭉치 (3) 한 ? 일 병렬 말뭉치 (4) 전문용어 말뭉치 5. 말뭉치 원자료 사본 (1) 현대 국어 구어 전사 말뭉치 : 녹음 자료 사본 일체(오디오 ? 비디오 테이프 또는 CD-ROM ? DVD-ROM 형태의 음성 파일) (2) 한 ? 영 병렬 말뭉치 - 자체 보관 (3) 한 ? 일 병렬 말뭉치 - 자체 보관 (4) 북한 및 해외 한국어 말뭉치 - 자체 보관 (5) 역사 자료 말뭉치 (6) 전문용어 말뭉치 5. 연구결과의 활용 본 연구의 성과는 이후의 기초 언어 자료 구축 연구에 계속 반영될 것이며, 적절한 과정을 거쳐 전문연구기관, 학자, 정보 산업체 및 국어 연구 교육 분야에 보급됨으로써 국어 정보화의 전사회적 역량을 증진하는 데 기여하도록 한다. 결과물의 보급은 자료의 특성과 저작권 등의 사항을 고려하여 다음의 두 가지 경로를 통해 이루어지도록 한다. 1) 세종 계획 홈페이지와 국어 정보화 종합 처리실 ? 현재 운영되고 있는 세종 계획 홈페이지는 국어 정보화 사업인 ‘21세기 세종 계획’의 홍보와 함께 저작권 등의 일반 보급에 문제가 없는 자료들을 일반에 공개하고 있다. 기초자료뿐 아니라 세종 계획의 다른 분과의 결과물도 일부 제공되고 있다. ? 결과물 센터에서는 2002년도에 ‘국어 정보화 종합 처리실’을 개장해 ‘21세기 세종 계획’의 모든 결과물(공개 ? 비공개)을 검색할 수 있도록 하고 있다. 2) 전문기관 연구용 배포 ? 매년 세종 계획을 통해 구축되는 자료들은 주관기관(국립 국어연구원)이 판단하여 전문기관에 한정적으로 배포하고 있다. ? 이 자료들은 사업의 평가나 세종 계획 내 분과간 협력 등의 목적으로 이용되고 있다.
 

1. 사업명 
국어 기초자료 구축 - 국어 특수자료 구축 소분과 - 
2. 연구의 목적 
이 연구는 우리나라의 선진 정보 문화의 기본 바탕과 자원을 확충하는 국어정보화 중장기 발전계획의 일환으로 수립된 <21세기 세종 계획>의 10년간(1998~2007) 사업 중 제 3단계의 2차년도 작업에 해당한다. 
21세기 정보화 사회에서 국민 전체의 언어 ? 문화 생활을 향상시키고 과학 기술 및 학문을 발전시키기 위해서는 대규모 언어 자료를 축적하여 정보 ? 지식으로 가공하는 일이 중요하다. 언어 규범과 추상적 이론 위주의 언어 정책이나 교육으로는 효과적 대응이 어려우며, 국어 생활을 과학적 토대 위에서 개선시키고 국어의 특성에 적합한 정보 문화와 새로운 정보 처리 이론 및 기술을 발전시켜야 한다. 이를 위해서는 기초적 연구로서 우수한 품질과 대용량의 규모를 갖춘 국어 자료의 지속적 축적이 필요하다. 국어 자료의 데이터베이스를 구축함으로써 언어 정책의 수립과 교육의 효율화, 정보 처리의 생산성 향상을 꾀할 수 있고 국민들 모두가 쉽고 편리하게 언어 정보를 찾고 활용할 수 있다. 이러한 기초 자료에는 문어 말뭉치뿐만 아니라 구어 말뭉치, 병렬 말뭉치 등의 특수 자료 말뭉치 또한 포함되어야 한다. 따라서 본 사업은 국가적 역량을 기반으로 국어 기초 자료 중 쉽게 접근하기 힘든 특수 자료를 대규모의 국가 말뭉치 수준으로 구축하는 것을 목적으로 한다. 
1단계부터 2단계까지 구축한 자료를 효율적으로 이용하고 보완 ? 확장해 나가기 위해서는 국어 정보화를 위한 국가적 기반의 조직적, 지속적 구축이 필요하다. 따라서 본 연구는 국어 정보 처리, 국어 연구, 국어 교육, 국어 정책, 국어 생활, 정보 산업, 번역 등 여러 부문에 활용될 수 있는 특수자료의 기초 자원과 응용 자원을 개발하고자 한다. 
특수자료 구축 소분과 3단계 2차년도 사업의 목적은 다음과 같다. 
첫째, 3단계 2차년도 사업에서는 그동안 추진해 온 현대국어 구어 말뭉치, 한영 병렬 말뭉치, 한일 병렬 말뭉치, 역사자료 말뭉치, 북한 및 해외 한국어 말뭉치 구축과 함께, 그동안 전문용어 정비 분과에서 추진해 온 전문용어 원시 말뭉치 구축을 진행시킨다. 
둘째, 자료의 활용도를 높이기 위하여 구축된 기초 자료를 지속적으로 가공한다. 구축된 자료를 다방면으로 활용하고 일반 말뭉치와 비교 연구하기 위해서는 자료를 언어학적으로 분석하고 기본적인 형태소 분석 표지를 부여하는 작업이 필수적이다. 따라서 2단계에서 형태소 주석 말뭉치 구축을 위한 기초 연구 및 시험 구축을 토대로 형태소 분석 말뭉치를 구축해 온 바 있다. 당해연도인 3단계 2차년도에서도 2단계 작업에 이어서 형태소 분석 말뭉치 구축을 지속적으로 진행시킬 예정이다. 또한 실질적인 연구 및 활용을 위한 연구, 배포용 말뭉치 구성 및 통합 ? 조정 작업을 추진해 나갈 예정이다. 이렇게 구축된 말뭉치는 문어와 구어의 대조 연구, 한국어와 외국어의 대조 연구, 한 ? 영, 한 ? 일 번역문 간의 대조 연구, 일반어 텍스트와 전문 분야 텍스트의 대조 연구, 북한어와 남한어의 대조 연구, 현대어와 고어의 대조 연구 등에 응용될 수 있을 것이다. 
셋째, 일반 현대 국어 말뭉치에 비해 자료가 희귀하고 구축의 난이도가 높은 특수자료를 말뭉치의 균형성과 사업의 궁극적인 목표에 맞도록 구축한다. 
넷째, <21세기 세종 계획>의 다른 분과 사업과의 연관성을 고려하면서 사업을 추진한다. 전문용어 말뭉치는 ‘전문용어 정비’ 분과에서 응용하기에 적합한 기초자료로 구축하고 역사자료 말뭉치는 한민족 언어정보화와 사업과의 학제적 교류 속에서 응용가능성을 모색하며 추진한다. 
3. 연구의 필요성 
국어 생활을 과학적 토대 위에서 향상시키고 국어의 특성에 적합한 정보 문화와 새로운 정보 처리 이론 및 기술을 발전시키기 위해서는 그 기초적 연구로서 대규모의 국어 텍스트 말뭉치가 필요하다. 국어 자료의 데이터베이스를 구축함으로써 언어 정책의 수립과 교육의 효율화, 그리고 정보 처리의 생산성을 향상 시킬 수 있고, 국민들 모두가 쉽고 편리하게 언어 정보를 찾고 활용할 수 있게 해야 하는 것이다. 그러기 위해서는 우수한 품질과 대용량의 규모를 갖춘 국어 자료의 지속적 축적이 필요하다. 
구어는 말뭉치 언어학 연구의 초기부터 언어 연구와 긴밀한 관계를 맺어 왔으나, 구어 말뭉치의 필요성에 대한 문제가 제기되고 이에 대한 기초적인 연구가 시작된 것은 비교적 최근의 일이다. 구어 말뭉치의 개발은 그동안의 문어 중심 국어 연구의 문제점에 대한 해결의 실마리를 제공할 수 있을 뿐만 아니라 구어의 실제 쓰임이 반영된 사전이나 문법서를 제작할 수 있는 말뭉치를 제공하여 국어 교육이나 외국어로서의 한국어 교육에 이바지할 수 있다. 또한 최근 음성 언어 정보 처리에 대한 각 연구 기관과 기업체의 관심과 투자가 확대되고 있음을 생각할 때, 폭넓은 영역에서 구축된 구어 자료와 이에 대한 기초 가공 작업은 이러한 기술 개발에 일정 부분 기여를 할 것이다. 
2004년까지 구축된 세종 구어 전사 말뭉치는 원시 337만 어절, 형태 주석 말뭉치 68만 어절에 불과하다. 그에 비해 서구 선진국의 경우에는 국가와 수많은 정보 산업 관련 기업체, 기술 개발자들을 중심으로 대규모의 사업들이 진행되어 왔다. 이 말뭉치들은 대부분 1천만 어절을 넘었으며 실제적 이용을 위해 다양한 언어학적 층위에서의 주석 작업이 진행되고 있다. 한국어 구어 말뭉치의 경우에도 기초 가공 작업이 지속적으로 이루어져야 하며, 이를 바탕으로 3단계 이후 배포될 연구 ? 배포용 통합 말뭉치가 구성될 수 있을 것이다. 
? 영국국가말뭉치(British National Corpus) 
?구축 기관 : 옥스퍼드대학 출판부, 롱맨 출판사, 옥스퍼드 대학, 랭카스터 대학 등 6개 기관이 영국 상공부와 과학기술연구협의 처로부터 50%의 지원을 받음 
?구축 규모 : 1천만 어절(문어 포함 1억 어절) 
?구축 기간 : 1991.1 - 1994년 
?구축 목적 : 사전편찬학, 인공 지능 음성 인식 · 합성r 문헌학 둥 다 방면의 연구 및 웅용을 위한 기초 자료 제공. 2001년에는 구어 자료 1천만 어절 전체에 대한 어휘 빈도 작업과 문 어 어휘 빈도와의 비교 연구. 
? 코빌드 구어 말뭉치(The COBUILD Spoken Corpus) 
?구축 기관 : 버밍햄 대학, 콜린즈 출판사 
?구축 규모 : 1천만 어절 이상(문어 포함 4억 5천만 어절, 구어 자료는 대부분 90년대 이후의 자료임) 
?구축 기간 : 1991년 ~ 현재 
?구축 목적 : 사전편찬학, 영어학, 언어 교육, 번역학 등의 연구를 위한 기초 자료 제공 및 철자 검사기, 기계 번역 시스템 등 정보처리산업 분야로의 응용. 
? The International Corpus of English 
?구축 기관 : 런던 대학 SEU(the Survey of English Usage) 센터를 중심으로, 15개 국가(지역)가 프로젝트에 참가 
?구축 규모 : 각 나라에서 100만 어절씩 모두 1천 500만 어절 구축(문어 ? 구어포함) 
?구축 목적 : 전 세계의 영어 변이형 연구. 통사론, 형태론, 어휘론, 사회 언어학, 담화 분석, 음성학, 음운론 등의 연구를 위한 자료 제공 및 언어 교육, 자연 언어 처리 등 관련 분야로의 응용. 
병렬 말뭉치의 구축은 대부분 유럽과 미국을 중심으로 한 서구어 사이의 대응을 기반으로 시작되었다(예: 영어-불어, 영어-독일어, 영어-노르웨이어 등). 말뭉치의 구축에 이어, 이를 활용하기 위한 사용자 인터페이스 도구에 대한 개발 및 텍스트의 정렬 등이 다양하게 연구되고 있다. 더욱이 병렬 말뭉치에 대한 응용 분야의 요구가 보다 증가할 것으로 여겨지기 때문에 병렬 말뭉치의 구축 및 도구의 개발은 더욱 가속화될 전망이다.
서구 선진국가들(특히 유럽의 국가들)의 대표적인 병렬 말뭉치 구축 및 관련 기술 개발 프로젝트는 다음과 같다.
? The English-Norwegian Parallel Corpus(영어 : 노르웨이어)
① 구축 기관 : Oslo Univ.
② 구축 규모 : 100개의 영어 원본 텍스트와 100개의 노르웨이어 번역본 텍스트, 100개의 노르웨이어 원본 텍스트와 100개의 영어 번역본 텍스트를 합하여 약 260만 어휘의 병려려 말뭉치의 구축
③ 구축 기간 : 1994~1997
④ 관련 프로그램 : 번역 말뭉치 정렬 프로그램, 번역 말뭉치 검색기
⑤ 중심 연구 분야 : 언어의 대조 분석, 번역 연구
? The Finnish-English Contrastive Corpus(영어 : 핀란드어)
① 구축 기관 : Jyv?skyl? Univ.
② 중심 연구 분야 : 언어의 대조 분석, 언어의 구조와 사용 양상에 대한 연구, 말뭉치 기반 언어 연구를 반영한 응용 프로그램 개발
? Text_based contrastive studies in English(영어 : 스웨덴어)
① 구축 기관 : Lund Univ.
② 구축 규모 : 160만 어휘
③ 구축 기간 : 1993 ~ 현재
④ 중심 연구 분야 : 인식론적 양상, 담화 표지, 문법적 초점 기제
? MULTEXT(Multilingual Text Tools and Corpora)
① 구축 기관 : EC(the European Commission: LRE - the Linguistic Research and Engineering Copernicus), 미국의 NSF(US: the Vassar/CNRS collaboration), 프랑스의 AUPELF-UREF(the Fonds Francophone pour la Recherche)와 CNRS(French)the Universite de Provence)
② 대상 언어: 체코어, 네델란드어, 영어, 불어, 독일어, 스페인어, 이태리어, 스웨덴어, 밤바라어(Bambara), 불가리어, 카탈란어, 에스토니아어 등
? MULTEXT-EAST
① 구축 기관 : Laboratoire Parole et Langage, Centre National de la Recherche Scienctifique(CMRS)
② 구축 목적 : MULTEXT의 기술, 방법론, 도구를 응용하여 동구언어에 적용
③ 대상 언어 : 6개의 동구언어(불가리아어, 체코어, 에스토니아어, 헝가리어, 루마니아어, 슬로바니아어)
④ 중심 연구 분야 : 언어표준과 부호화(CES)의 검증과 적용, 다중언어(6개국어) 말뭉치 개발(형태소 태깅, 병렬 말뭉치), MULTEXT의 말뭉치 도구의 적용, 형태소-어휘 자원 개발
? The ECI Multilingual Corpus(ECI : European Corpus Initiative)
① 구축 기관: 영국 에딘버러 대학의 HCRC와 스위스 제네바 대학의 ISSCO
② 구축 목적 : 다중언어 말뭉치의 구축과 다중언어의 문자, 음성 말뭉치의 설계, 수집, 출판 지원
③ 구축 규모 : 9천8백만 단어의 ECI/MCI 말뭉치 구축
④ 대상 언어 : 주요 유럽어와, 터키어, 일어, 러시아어, 중국어, 말레이어 등
이뿐만 아니라, 최근에는 인근 아시아 국가인 중국에서도 중국어와 다른 언어의 병렬 말뭉치 구축 및 관련 기술 개발에 대한 관심도가 높아지고 있다. 따라서 병렬 말뭉치의 구축과 가공, 활용 및 이를 지원하는 관련 프로그램의 개발에서 괄목할만한 성과를 거두고 있다. 중국은 일본과의 국제적인 협력을 통해 중 ? 일 병렬 말뭉치의 구축과 활용에서 활발한 연구를 진행하고 있는 것도 주목할만한 일이다.
? The Babel English-Chinese Parallel Corpus(중국어 : 영어)
① 구축 기관 : 중국 베이징(北京)대학교 계산언어학연구소
② 구축 규모 : 약 20만 문장의 문장 단위 정렬 말뭉치 구축
③ 구축 기간 : 2001년 ~ 2004년
④ 구축 목적 : 뉴스 도메인의 중영 기계번역기의 번역 메모리(Translation Memory)지원.
⑤ 관련 프로그램 : PreEncoder(원시 말뭉치의 텍스트 포맷 변환, 노이즈 제거 등의 전처리기), Encoder(원시 말뭉치 마크업 보조기), Checker(원시 말뭉치의 검수 및 통계 프로그램), PASAligner(단락 및 문장 단위 자동 정렬기), Convertor(XML 포맷 변환기), CN_segtag(XML 포맷의 중국어 말뭉치의 형태소 분석기), EN_tokenLemma(XML 포맷의 영어 말뭉치에 대한 tokenization 및 lemmatization), Concordancer(병렬 말뭉치에 대한 검색, 통계, 정렬 및 결과 보여주기)
? 英???平行?料?(영중 이개어 평행 말뭉치)
① 구축 기관 : 중국 샤먼(厦門)대학교 언어기술센터 제1 연구실
② 구축 규모 : 131,523문장의 문장 정렬 말뭉치를 구축. 이중 영어 말뭉치의 규모는 1,248,345 단어, 중국어는 2,085,742자의 한자 포함
③ 구축 목적 : 영어와 중국어의 어휘 및 문법의 대조 분석 연구
④ 관련 프로그램 : 웹기반 영중 용례 및 대역 문자 검색기
⑤ 중심 연구 분야 : 중영 대주 분석 연구
? 중 ? 일 병렬 말뭉치(중국어 : 일본어)
① 구축 기관 : 중국 베이징외국어대학교(일본 국립국어연구소 협력)
② 구축 규모 : 2천만자의 중일 병력 말뭉치 구축(세계 최대 규모의 중일 병렬 말뭉치)
③ 구축 기간 : 2000-2003 
④ 관련 프로그램 : 단어, 구, 문형 및 그 대역문의 검색기 
⑤ 중심 연구 분야 : 중 ? 일 언어의 대조 분석, 중 ? 일 번역 연구 
? 중 ? 영 병렬 말뭉치 (중국어 : 영어) 
① 구축 기관 : 중국 베이징외국어대학교 
② 구축 규모 : 3천만자의 중일 병렬 말뭉치 구축(세계 최대 규모의 중영 병렬 말뭉치) 
③ 구축 기간 : 2000-2003 
④ 관련 프로그램 : 중영 자동 문장 정렬기, 단어, 구, 문형 및 그 대역문의 검색기 
⑤ 중심 연구 분야 : 중 ? 영 언어의 대조 분석, 중 ? 영 번역 연구 
위와 같은 선진 외국의 개발 상황과, 기계 번역 산업계나 연구계가 자력으로는 병렬 말뭉치를 구축하지 못하는 국내의 현 상황을 고려할 때, 세종 병렬 말뭉치의 개발은 필수적이다. 그러나 세종 병렬 말뭉치는 아직까지 한 ? 영과 한 ? 일 병렬 말뭉치만을 대상으로 개발되고 있는 실정이며, 더욱이 한 ? 일 병렬 말뭉치의 경우 구축 시작 시기가 늦었던 만큼 한 ? 영 병렬 말뭉치에 비해 상대적으로 구축량의 증가가 더 필요하다고 할 수 있다. 또한, 국제적 언어 정보의 교류를 위해서는 이개어 병렬 말뭉치에서 다국어 병렬 말뭉치로의 확장이 고려되어야 한다. 3단계 2차년도에는 병렬 말뭉치의 구축량을 균형 있게 증가시키면서 향후 다양한 대응어의 병렬 말뭉치 개발을 위한 시험 말뭉치 구축 연구가 이루어져야 한다. 
국어 자료의 데이터베이스 구축 작업에서 역사 자료의 말뭉치 구축 작업은 특히나 중요하다. 국어의 발달 변천사나 방언론과 같은 국어 연구와 국어 교육, 그리고 어문 생활의 발전을 기하기 위해서는 역사 자료들의 정보화가 필요한 것이다. 그것은 훈민정음이라는 우리의 세계적 문화유산을 보존하고 더욱 드높이는 길이기도 하다. 고어와 방언에 대한 이해는 이해 그 자체에 그치는 것이 아니라 현대국어의 근원을 파악할 수 있게 해주고, 현대의 어문 생활의 길잡이가 된다는 점에서도 중요하다. 최근 해외의 말뭉치 구축 사업의 동향도 현대어 이외의 고어와 방언을 포괄하는 방향으로 확산되고 있음은 그 필요성을 잘 말해주고 있다. 
현대 국어의 올바른 언어 분석을 위해서는 역사적인 언어 정보에 토대를 두지 않으면 안 될 것이며, 역사 자료는 국어 연구와 교육뿐 아니라, 사전편찬학, 우리 문화의 정보화 ? 국제화의 기반을 이루게 될 것이다. 
1단계에서부터 꾸준히 구축해 온 역사 자료 말뭉치를 실제 연구에 이용하기 위해서는 역사 자료를 적절한 언어단위로 분석하고 형태소 분석 작업을 수행하는 것이 필수적이다. 역사 자료의 형태소 분석 말뭉치를 개발하는 데에 있어서 가장 큰 문제점은 띄어쓰기의 구분이 없다는 자료 자체의 특성이다. 띄어쓰기의 구분이 없고 자료에 포함되어 있는 한자음, 방접 등의 요소를 동시에 고려해야 하기 때문에 역사 자료에 자동적으로 형태소 분석 표지를 부착하거나 검색하는 것은 거의 불가능하다. 따라서 형태소 분석 표지를 부착할 대상이 되는 언어 단위를 결정하고 역사 자료의 특성을 그대로 드러낼 수 있는 태그의 셋을 정하는 등의 기초 연구부터 단계별로 형태소 분석의 작업을 진행하기로 한다. 
4. 연구내용 및 결과물 
당해연도의 세부 과제별 연구 내용 및 결과물은 다음과 같다. 
<당해년도 연구 목표와 내용>
1. 현대 국어 구어 전사 말뭉치 개발 
? 분량 : 총 83만 어절 
원시 말뭉치 55만 어절 
형태소 분석 말뭉치 28만 어절 
? 내용 : 한국어의 일상적인 발화를 대표할 수 있도록 최대한 다양한 구어 전사 말뭉치를 개발하고, 세종 계획을 통해 구축될 기초 말뭉치 전체 
구성에서 문어 자료와 균형을 이루는, 구어 형태 주석 말뭉치를 구축한다. 이 자료는, 3단계에 순차적으로 구어 통합 말뭉치의 형태로 배포할 수 있도록 하여, 국민의 언어 생활 연구와 언어 정책 수립에 필요한 기초 자료를 개발함과 동시에, 관련 연구 기술 개발 분야의 기초 자료를 제공하는 데에 목표를 둔다. 이를 통하여, 말뭉치를 기반으로 한 국어 연구, 사전학, 담화 분석, 실험음성학 등 구어에 대한 언어학적 연구와 언어 교육, 언어 병리학, 구어의 분석과 활용 기술 개발과 관련된 공학 분야 등에서의 실질적인 연구 및 활용에 기여할수 있도록 한다. 
2.한 ? 영 병렬 말뭉치 개발 
? 분량 : 총 72만 어절 
원시 말뭉치 50만 어절 
형태소 분석 말뭉치 22만 어절 
? 내용 : 1) 자연 언어 처리, 기계 번역 등 언어지식 정보 기반 구축 분야와 언어 교육, 사전 편찬, 대조언어학 연구 등에서 실질적 연구 및 응용을 위해 활용할 수 있는 한국어-영어 병렬 말뭉치의 원시 말뭉치와 형태소 분석 말뭉치를 구축한다. 
2) 지금까지 구축된 한 ? 영 병렬 말뭉치의 장르별 구성비와 내용을 재검토하고 정비하여 ‘연구 ? 배포용 한 ? 영 병렬 말뭉치 샘플’을 구성한다. 
3.한 ? 일 병렬 말뭉치 개발 
? 분량 : 총 29만 어절 
원시 말뭉치 20만 어절 
형태소 분석 말뭉치 9만 어절 
? 내용 : 한 ? 일어의 대조 연구와 기계 번역, 언어 교육 등의 분야에 널리 활용될 수 있는 한국어 ? 일본어 병렬 말뭉치와 2단계의 기초 연구를 토대로 한 형태소 분석 말뭉치를 개발한다. 특히, 2004년도까지 구축한 말뭉치의 장르 및 구축량을 망라한 말뭉치 지도를 참고로 균형성이 떨어진 부분(장르, 구축량, 원본/대역본 비율 등)을 보완한다. 
4. 북한 및 해외 한국어 말뭉치 개발 
? 분량 : 총 111만 어절 
북한 및 해외 한국어 원시 말뭉치 80만 어절 
형태소 분석 말뭉치 31만 어절 
? 내용 : 남북한 및 중국, 독립국가연합 등의 한국어 통합을 위한 연구와 정책 수립에 기초가 되는, 문헌자료의 원시 말뭉치를 균형있게 구축하고, 이들에 대한 형태소 분석 말뭉치를 개발한다. 
5. 역사 자료 말뭉치 개발 
? 분량 : 총 55만 어절 
원시 말뭉치 50만 어절 
형태소 분석 말뭉치 5만 어절 
? 내용 : 디지털 한글 박물관의 자료 가운데 15세기 미입력 문헌 자료, 한자음 자료, 사전 등의 입력을 통하여 원시말뭉치를 구축하고자 한다. 또한 역사 자료들의 형태소 분석 작업을 통하여 형태소 분석말뭉치를 구축할 것이다. 형태소 분석 말뭉치의 구축 대상은 15세기 문헌 자료 5만 어절이다. 
6. 전문 용어 말뭉치 개발 
? 분량 : 총 100만 어절 

원시 말뭉치 100만 어절 
? 내용 : 전문 용어의 형태와 목록을 추출할 수 있도록, 균형성과 정보성이 고려된 전문분야 도서와 자료들을 선정하여 전문분야 말뭉치를 구축 한다. 
<특수 자료 구축 소분과 총괄 결과물>
1. 특수 자료 구축 결과 보고서 책자 200부 
2. 결과 보고서 파일(CD-ROM 형태로 10장) 
3. 말뭉치 결과물(CD-ROM 형태로 10장, 총 450만 어절) 
(1) 연구 결과물은 유니코드 텍스트 파일 또는 ?글 2002 이상으로 구축한다. 
(2) 표준화 지침에 따라 각종 문서 정보를 기입하고, 최종 오류율이 0.1% 이내가 되도록 한다. 
(3) 각 과제별 말뭉치 결과물의 양은 다음과 같다. 
① CD 구어 전사 자료 83만 어절 구축 
(원시 말뭉치 55만 어절+형태소 분석 말뭉치 28만 어절)
② 한 ? 영 병렬 말뭉치 72만 어절 구축 
(원시 말뭉치 50만 어절+형태소 분석 말뭉치 22만 어절)
③ 한 ? 일 병렬 말뭉치 29만 어절 구축 
(원시 말뭉치 20만 어절+형태소 분석 말뭉치 9만 어절)
④ 북한 및 해외 한국어 말뭉치 111만 어절 
(원시 말뭉치 80만 어절+형태소 분석 말뭉치 31만 어절)
⑤ 역사 자료 말뭉치 55만 어절 
(원시 말뭉치 50만 어절+형태소 분석 말뭉치 5만 어절) 
@ 전문용어 말뭉치 100만 어절 
(원시 말뭉치 100만 어절) 
4. 저작권 승인을 받은 저작권 양의 각서 일체(원본)
(1) 현대 국어 구어 전사 말뭉치 
(2) 한 ? 영 병렬 말뭉치 
(3) 한 ? 일 병렬 말뭉치 
(4) 전문용어 말뭉치 
5. 말뭉치 원자료 사본 
(1) 현대 국어 구어 전사 말뭉치 : 녹음 자료 사본 일체(오디오 ? 비디오 테이프 또는 CD-ROM ? DVD-ROM 형태의 음성 파일)
(2) 한 ? 영 병렬 말뭉치 - 자체 보관 
(3) 한 ? 일 병렬 말뭉치 - 자체 보관 
(4) 북한 및 해외 한국어 말뭉치 - 자체 보관 
(5) 역사 자료 말뭉치 
(6) 전문용어 말뭉치 
5. 연구결과의 활용 
본 연구의 성과는 이후의 기초 언어 자료 구축 연구에 계속 반영될 것이며, 적절한 과정을 거쳐 전문연구기관, 학자, 정보 산업체 및 국어 연구 교육 분야에 보급됨으로써 국어 정보화의 전사회적 역량을 증진하는 데 기여하도록 한다. 
결과물의 보급은 자료의 특성과 저작권 등의 사항을 고려하여 다음의 두 가지 경로를 통해 이루어지도록 한다. 
1) 세종 계획 홈페이지와 국어 정보화 종합 처리실 
? 현재 운영되고 있는 세종 계획 홈페이지는 국어 정보화 사업인 ‘21세기 세종 계획’의 홍보와 함께 저작권 등의 일반 보급에 문제가 없는 자료들을 일반에 공개하고 있다. 기초자료뿐 아니라 세종 계획의 다른 분과의 결과물도 일부 제공되고 있다. 
? 결과물 센터에서는 2002년도에 ‘국어 정보화 종합 처리실’을 개장해 ‘21세기 세종 계획’의 모든 결과물(공개 ? 비공개)을 검색할 수 있도록 하고 있다. 
2) 전문기관 연구용 배포 
? 매년 세종 계획을 통해 구축되는 자료들은 주관기관(국립 국어연구원)이 판단하여 전문기관에 한정적으로 배포하고 있다. 
? 이 자료들은 사업의 평가나 세종 계획 내 분과간 협력 등의 목적으로 이용되고 있다.
제작일 2005-12-13
발행년도 2005년

연구결과 평가 및 활용보고서

과제정보
평가결과서 미등록
활용결과 보고서 ※ 등록되지 않았습니다. (영 제52조에 따라 연구 종료 후 6개월 이내 등록)

공공누리 정보

공공누리
저작물
민간이용 동의
비동의 사유

연구결과 만족도

연구결과 만족도
참여인원 : 0명 점수: 0
연구결과 만족도 평가정보
no data found.

만족도 평가

연구결과 만족도 평가정보
*비밀번호