국립국어 연구원의 세종말뭉치에 대한 쓴소리
21세기 세종계획


일단, 세종계획 말뭉치를 알게된 것은 논문 주제로 삼고있는 '한국어 문장경계 인식'에 대한 학습 말뭉치를 얻기 위함이었는데, 국내에는 한국어 문장경계에 관한 학위논문이 거의 전무한 상태였고, 학회지 논문에는 한 건이 있었다.
그 논문에서 언급된 ETRI 및 KAIST 말뭉치를 구하고 싶었으나, 이리저리 수소문 해보아도 구하기가 힘들었다.
해당 논문을 쓰셨던 분께도 연락을 드려보았으나, 논문을 쓸 당시의 프로그램 및 코퍼스는 찾기가 힘들다고 하시더라...
그러시면서 차라리 세종계획 말뭉치를 사용하는게 어떠냐는 말씀을 듣고, 이리저리 찾아본 결과 학문적인 용도로 사용한다는 것에만 동의한다면 누구나 CD를 구할 수 있다는 사실도 알게 되었다.

국립국어연구원에 전화를 통하여 문의하고 CD를 요청하였는데, 의외로 간단한 절차와 친절한 담당자분이 계셔서 빠른 시일 내에 구할 수 있었다.
그러나...

내가 필요로 하는 부분은 문장의 경계가 표현된 tagged corpus였는데, 받고 보니 실상은 정말 참담했다.
문제점을 요약해보면 다음과 같다.

  1. 인코딩이 EUC-KR
    iconv로 변환하면 되지만, 이것도 일이다
    하지만 깨진 문서 및 문장이 많아서 skip하지 않으면 안된다
  2. 형태소분석 및 태깅오류
    기본적인 특수문자 등도 한국어가 분석이 안되면 Unknown으로 분석
    분석결과의 마지막의 태그가 없는 문제점
  3. 형태소오분석 및 깨진라인 문제점
    깨진문자 및 필요없는 특수문자 등이 존재
    중복된 분석결과가 존재
    시작인용 부호 및 종료 인용부호가 규칙없이 사용되거나, 잘못 사용됨
    시작인용부호는 있지만, 종료 인용부호가 없는 경우
  4. 기본적인 Chunking 단위가 없음
    구두점 (. ! ? 등)으로 무조건 잘라서 형태소 분석을 수행
    마침표가 있으면 무조건 다음 sentence로 넘어가서 분석됨
    심지어 영문자의 약자에 사용되는 점이 있어도 잘라서 분석함

내가 하려고 하는 한국어 문장경계 학습을 위한 말뭉치로 써는 바로 사용하기는 불가능 이었으며, 수작업으로 하기에는 말뭉치의 크기가 너무 컸다. 그렇다고 지금와서 다른 말뭉치를 구하기도 힘들 뿐더러, 검증하기 힘든 웹문서나 신문기사 등을 사용하는 것도 무리가 있다. 지금와서 논문 주제를 바꾸기에도 너무 늦었다고 생각된다....

'진퇴양난'이라는 표현을 이런 때에 사용하는 것이 적절하지 싶다.


일단 해보자 라고 생각하고 덤벼들었는데, 정말 산너머 산이요, 강건너 강이더라... 처음에는 어느정도 규칙을 적용하여 변환 및 보정하여 사용하려고 했는데, 문장경계를 위한 가장 중요한 정보인 End of sentence를 구분할 만한 방법이 없었다.

그래서 인용부호의 오류를 수정하는 프로그램 및 각종 깨진 문자 등을 제거하기 위한 프로그램을 별도로 짜는데에만 거의 한 달 이상 작업을 진행중이다. 오늘도 날밤을 까면서, 이렇게 말뭉치 정재작업을 하고 있다. (계속 해야할지 자꾸 의문이 든다...)


혹시 현재는 위에서 나열한 잘못된 부분을 패치한 CD를 제공하고 있을지도 모른다. 하지만 그렇게 비싼 돈을 들여서 만든 초기 결과물이 이 정도 밖에 되지 않는다는 것에 분개할 뿐이다. 솔직히 문장경계에 대한 정보를 떠나서 형태소 분석을 위한 말뭉치로 활용하기에도 많이 부족하다.

추측하기로는 대략 분야별로 문서를 모으고, 형태소분석기를 돌려서 나온 결과물을 적당히 사람이 수작업으로 보정한 듯 한데... 너무한다 정말... 이번 작업을 하면서 얼마나 마음 고생이 심했는지... 연말에 회사일도 바쁘고, 마지막 학기지만 수업은 수업대로 듣고, 둘째 출산.. 게다가 논문까지 쓰려니 정말 눈물로 밤을 새운지 어언 몇 개월째...쿨럭


많은 분들이 이 프로젝트에 참여하였고, 고생도 하셨겠지만, 이왕 할거면 제대로 해서 많은 사람들이 유용하게 사용할 수 있었으면 좋으련만, 이렇게 다시 수작업을 하게할 거면, 왜 배포를 해서 고생을 하게 하는건지....

" 늦게 배포하더라도 제대로 된 것을 하거나 이르게 배포해야만 한다면,
  제대로 된 일부만 배포하게 하여 두 번 작업을 하는 것은 없어야 한다고 생각한다 "

솔직히 두 번 작업이 아니라 이 CD를 받으신 사람 수 만큼이나 작업을 거치는게 아닌가 하는 생각도 들었다.
설마 세종프로젝트가 이번 것으로 끝나는 것은 아니겠지?

이렇게 보면, 너무 안좋은 점들만 나열한 것 같아서, 좀 씁쓸하긴 하지만, 이러한 자료라도 없었더라면
" 한국어 언어처리 관련 일을 시작하기도 힘들었을 것이다. 그러한 점에서는 감사하고 있다. 단지 좀 더 낳은 결과물이 있었더라면 하는 아쉬움에 이런 글을 쓴다 "


This article written by springnote.

by psyoblade | 2008/01/01 04:28 | 정보검색 - 논문 | 트랙백(1) | 덧글(11)
트랙백 주소 : http://psyoblade.egloos.com/tb/3556811
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Tracked from data mining .. at 2008/07/05 07:10

제목 : 기계학습 기법을 이용한 문장 경계 인식
와~ 너무 오랜만에 블로그로 다시 돌아온 이 느낌~ 나름 고향에 돌아온 느낌이 듭니다. 그래도 와 주셨던 분들께 '또 그대로네..' 했던 것 같아 많이 부끄럽습니다. 어쨌거나, 최근 두 달간 논문을 준비하느라, 정신줄을 잠시 놓았더니.. 블로그가 황폐해진 느낌입니다. -_-;;; 작년에 했던 실험들을 바탕으로 올 초에 논문 디펜스를 하고, 정리하면 여유로워 질 것이라 생각했는데, 디펜스 할 때에 대박 깨지고, 논문에 대한 큰 줄기가 바뀌는 덕분......more

Commented by 양주일 at 2008/01/08 19:49
참으로 안타까운 일이지요. 우리나라 프로젝트라는게 때우기에 급급하니... 그래도 예전보단 형편이 나아졌다고 생각합니다. 10년전엔 말뭉치라는게 뭔지 모르고 그걸 구하기 위해 출판사들 돌면서 구걸했었으니까요. 그나마 요즘엔 인식이 깨인편이라 도움을 받을 순 있지요.
Commented by psyoblade at 2008/01/09 05:08
양주일님:
네 예전에 비하면 정말 많이 좋아진 것 같습니다. 하지만 여전히 아쉽긴 합니다. -_-;;; 그런데, 출판사를 돌면서 구하는 정도였군요, 와~ 장난이 아니었네요.
솔직히 저는 학부 전공이 도시공학이어서 학부때 구청, 시청에 가끔씩 관련자료 구걸(?)을 위해 다녔었는데, 정말 정말 서러운 적도 많고 그랬더랬습니다.
앞으로는 이러한 것들도 많이 개선되어서 한국어 언어처리 분야가 더욱 발전했으면 하는 바램입니다. Fighting Korea!?
Commented by 두줄 at 2008/01/23 22:19
오, 지나가다 우연히 글을 남깁니다. 그 말뭉치 저도 쓰고 있는데요, 문말의 마침표는 태그가 SF 고, 다른 마침표는 SP인데, 구분이 안되나용? 허허, 전 기호는 다 필요없어서 제거해버리고 쓰긴 합니다만, 도움이 됐으면 하는 마음으로~~
Commented by psyoblade at 2008/01/24 08:25
두줄님: 네~ 맞습니다. 전부 그렇다는 얘기가 아니구요, 일부 깨진 문장들이 많아서, cleaning 과정 또는 refine 과정이 없이는 그냥 쓰기 어려울 정도라는 의미였습니다.

의견 주셔서 감사합니다. ~~복 많이 받으세요...
Commented by egloos at 2008/02/01 01:20
웹에서 검색하다 이 곳까지 오게 됐네요. psyoblade님의 글을 잘봤습니다. 저도 수년동안 세종말뭉치를 사용하면서 많은 안타까움을 느끼면서도 한 편으로는 이 정도의 성과만으로도 참 고맙다는 생각을 하였습니다.
근 10년동안 진행된 세종 프로젝트가 사실 위의 양주일님께서 말씀하셨던 것처럼 초창기에는 전자텍스트를 구하는 거 자체부터 큰 어려움이 있었습니다. 출판사에서 쿽 파일을 받아 인코딩 전환하고 그걸 다시 오류수정하고 다듬는 과정은 비교적 양호한 편이었으며, 실제로 상당수의 텍스트는 직접 책을 구해서 입력하는 형태로 구축된 걸로 알고 있습니다. 그 당시 양질의 형태소분석기가 없는 상태에서 기계적으로 먼저 형태주석을 달고, 그걸 수십명의 국어학 전공자들이 돌아가며 일일히 후보정하였습니다. 제 주변에 그 프로젝트에 참여한 사람들이 있었기에 많은 고생을 했다는걸 누구보다 잘 알고 있습니다.
고생했다고 해서, 오류가 많은 결과물까지 합리화 할 수는 없지만, 수년동안 많은 사람들이 다듬고 다듬고 다듬어 그래도 이정도의 결과까지 나온 것에 너무나 가볍게 생각한다면 잔인한 일이라 생각합니다. 저는 아주 안좋은 버전의 세종말뭉치에서 최근 공개된 세종말뭉치까지 계속 다뤄보면서 눈물겹게 고맙더라구요.
얼마나 많은 시간을 말뭉치 정제에 쓰셨는지는 모르겠지만, 제 생각에 지금정도의 수준만 되더라도 자연어처리 연구에 사용하시기에는 큰 무리가 없다고 보여집니다. 말뭉치 규모가 상당히 크므로, 통계적으로 보정가능한 수준이라 생각하기 때문입니다.
(저도 개인적인 연구를 위해 근 몇달을 말뭉치 정제에만 쏟다가 어느 선에서 타협을 본 경험이 있어서 그 심정은 충분히 이해가 갑니다.) 그리고, 개인의 특정 주제를 위한 세부적인 말뭉치 튜닝은 어차피 개인의 몫이라고 생각이 듭니다.

언제나 시스템에 100%클렌징된 인풋만이 존재 하지는 않지요..

참고로 지난해 말에 공개한 버전을 쓰시나요? DVD4장으로 배포한..
거기에 있는 말뭉치 중에 형태의미주석말뭉치가 가장 깨끗한(?) 편입니다. 인코딩은 UTF-16으로 되어있습니다. <= 이 버전이 아니라면.. 확실히 욕먹을 만한 버전들 일 것입니다.
Commented by psyoblade at 2008/02/01 04:13
egloos님: 네 정말 그런 것 같습니다.. 솔직히 이러한 말뭉치가 공개된 것만으로 충분히 감사할 일이지요 ^^;; 저도 어림잡아 두어달을 시간을 투자하고 어느정도(?) 타협을 본 것 같습니다.

그리고 예상하신 대로 CD 두 장에 담겨진 EUC-KR 버전의 말뭉치 입니다.
DVD 4장으로 배포한 버전이 있는건가요? 모르고 있었습니다. 작년 연말에 세종프로젝트가 마무리되면서 한번 메일이 왔었는데, 그 때에 배포가 되었나보군요.. 솔직히 평일에 개최하고 오전부터 진행되었던 행사인지라 참석은 못해 보았고요...

좋은 정보감사합니다 다시한번 문의해서 받을 수 있다면 좋겠네요 ^^
Commented by 락끄 at 2008/03/19 20:32
안녕하세요.

문장 경계 인식을 주제로 하신다고 하셨는데, 사실 전 형태소 분석하면서 이같은 작업을 일부 했습니다. 영어와는 달리 한글의 경우 일부에 대해서는 종결형 어미로 끝나는 부분을 문장의 경계라고 인식 할 수 있습니다. 물론 최근에는 ~다는... 식으로 일본식 표현도 많이 나오고, "정말 별로" 라고 서술 부를 생략해버리는 경우도 많지만, 기본적으로 우리말은 종결형 어미를 사용하기에 형태소 분석에서 종결형 어미로 분석이 되는 것을 활용해서 일부를 문장 경계를 분석할 수 있습니다. 안긴 문장, 안은 문장까지 다 적용하면 어려워지고, 문맥도 고려하면 어렵지만, 형태소 분석으로 일부 해결가능하다는 점을 말씀드리고 싶네요. ^^
Commented by psyoblade at 2008/03/23 00:42
락끄님: 네 답변 감사드립니다.

약간 더 첨언을 드리자면, 형태소분석기를 통해서 문장경계를 찾는다기 보다는, 형태소분석기 또는 자연어처리 등의 전처리 과정으로 문장경계 인식이 이루어지는게 맞는 것 같습니다.

자연어처리든 형태소 분석이든지 간에 문장을 기준으로 대화 또는 컨텍스트가 바뀐다고 보여지기 때문입니다. 대부분의 형태소분석기는 어절을 기준으로 분석이 이루어지는 경우가 많을텐데요, 보다 명확한 분석이 이루어지기 위해서는 문장을 보는 것이 맞겠지요.

감사합니다.
Commented by 폴리스 at 2008/04/18 11:27
그 작업하신 데이터를 공개해주시는 것은 어떨까요.

iconv가 문제가 좀 있었던가요. 대신 펄을 사용하세요.

perl -Mencoding=cp949,STDOUT,utf8 -pe1 < file1.txt > outfile.txt
Commented by 폴리스 at 2008/04/18 11:28
참, 논문 내용이 궁금하네요. ^^
Commented by psyoblade at 2008/07/05 06:23
폴리스님: 너무너무 늦은 답변 죄송합니다. 최근 논문 마무리 때문에 잠시 정신을 놓고 있었네요~ 그리고 이글루스 블로그를 요즘은 잘 관리를 못하고 있어서 말입니다.

이제 정신이 들고나니 2008년도 반이 지나가 버렸네요... 펄이 좀 더 나은가 보군요, 조만간 동일한 테스트를 해봐야 되겠습니다. 좋은 정보 감사드립니다.

논문은 제가 최근 티스토리로 블로깅을 다시 시작했습니다. 그 쪽에 올릴 예정이구요, 폴리스님 블로그 방명록에 글 올려두겠습니다.

즐거운 하루 되시기 바랍니다. 감사합니다.

:         :

:

비공개 덧글

◀ 이전 페이지 다음 페이지 ▶



information retrieval
by psyoblade
Calendar
카테고리
전체
기계학습 - 육동석
데이터 마이닝
디지털 신호처리 - 김동현
라이프로그 - 가족
리눅스 VS 유닉스
인공지능 - 임해창
자료구조론 - 이성환
정보검색 - 논문
정보검색 - 루씬
정보검색 - 알고리즘
취미생활 - 게임
컴퓨터 구조 - 박명순
프로그래밍 - C
프로그래밍 - Python, Ruby
음성신호처리 - 김승일
인터페이스 설계 - 류현정
정보검색론 - 임해창
자료구조 & 알고리즘
잡다한 일상들
차세대 네트워크 - 김선형
알고리즘
자기계발
미분류
라이프 로그
대한민국 진화론
대한민국 진화론

C++ 기초 플러스
C++ 기초 플러스

마이 북 로그 파스칼이 들려주는 확률론...
파스칼이 들려주는 확률론...

Introduction ...
Introduction ...

Refactoring
Refactoring

Extreme Programming Installed
Extreme Programming Installed

예제로 배우는 XSLT
예제로 배우는 XSLT

COM+ Programming
COM+ Programming

이글루 링크
erehwon.LAB
영화와 함께, 음악과 함께
까모의 룰루랄라~
좋은 회사 만들기
My Words, Your Mem..
지루박
검색엔진 루씬 Lucene..
임근준(이정우) | lefto..
Tell Me Something I D..
Purgatorium
Nativity in Black
쾌속고양이의 게임 일기
sjjung's blog: 慢之作
까나리의 심술보
질풍 17주의 머브러브 라..
from __future__ impor..
세가사탄의 세가새턴 해라!..
imaginary code
All about IT Trends
styrtan
에리의 아트리에
snowcat blog
전도서에 바치는 장미
까먹지말자!
한글이 꿈틀
◐제목없음◑
위로..위로..위로..
A2공간 - 도움되는 글을..
투명인간의 혼자놀기용 ..
고무루피 자유구역 2008
gimmesilver's blog
when september go..
Beyond Web
성렬's log - 한RSS an..
Jania's Blog
■블루빈의작업장■
Destructive and Inn..
소프트웨어 이야기
결론에 가보기
華怡價帽가 하늘을 바라..
Gerald 의 프로그래밍
ENAVI 검색시스템!!!
Life of Erik
art.oriented
하얀눈길의 검색엔진 이야기
日本語の勉強
PR 2.0: Juny's Interact..
중요한건 언어가 아니랍..
Python Developer
최근 등록된 덧글
그렇군요. 기존 NTFS..
by ... at 08/02
폴리스님: 너무너무 늦은..
by psyoblade at 07/05
참, 논문 내용이 궁금..
by 폴리스 at 04/18
그 작업하신 데이터를 ..
by 폴리스 at 04/18
야야야 웃긴 동영상 올려 ..
by wd58999 at 03/29
락끄님: 네 답변 감사드..
by psyoblade at 03/23
안녕하세요. 문장 경계..
by 락끄 at 03/19
egloos님: 네 정말 그런 ..
by psyoblade at 02/01
미병님: 개인적인 일이 ..
by psyoblade at 02/01
웹에서 검색하다 이 곳까..
by egloos at 02/01
최근 등록된 트랙백
Airline discount phili..
by Airline ticket to jfk.
Buy cheap xanax wi..
by No prescription xan..
Wellbutrin.
by Wellbutrin xl.
Valium.
by Valium dosage.
Soma prescription me..
by Soma.
Xanax.
by Xanax addiction.
Adrenaline levels afte..
by Percocet 7.5 generic.
Natural herb reverse ..
by Generic propecia.
Soma sen arizona.
by Cheap soma.
Honest faxless pay..
by Payday loan yes.
이글루 파인더
rss

skin by zodiac47