국립국어 연구원의 세종말뭉치에 대한 쓴소리
21세기 세종계획


일단, 세종계획 말뭉치를 알게된 것은 논문 주제로 삼고있는 '한국어 문장경계 인식'에 대한 학습 말뭉치를 얻기 위함이었는데, 국내에는 한국어 문장경계에 관한 학위논문이 거의 전무한 상태였고, 학회지 논문에는 한 건이 있었다.
그 논문에서 언급된 ETRI 및 KAIST 말뭉치를 구하고 싶었으나, 이리저리 수소문 해보아도 구하기가 힘들었다.
해당 논문을 쓰셨던 분께도 연락을 드려보았으나, 논문을 쓸 당시의 프로그램 및 코퍼스는 찾기가 힘들다고 하시더라...
그러시면서 차라리 세종계획 말뭉치를 사용하는게 어떠냐는 말씀을 듣고, 이리저리 찾아본 결과 학문적인 용도로 사용한다는 것에만 동의한다면 누구나 CD를 구할 수 있다는 사실도 알게 되었다.

국립국어연구원에 전화를 통하여 문의하고 CD를 요청하였는데, 의외로 간단한 절차와 친절한 담당자분이 계셔서 빠른 시일 내에 구할 수 있었다.
그러나...

내가 필요로 하는 부분은 문장의 경계가 표현된 tagged corpus였는데, 받고 보니 실상은 정말 참담했다.
문제점을 요약해보면 다음과 같다.

  1. 인코딩이 EUC-KR
    iconv로 변환하면 되지만, 이것도 일이다
    하지만 깨진 문서 및 문장이 많아서 skip하지 않으면 안된다
  2. 형태소분석 및 태깅오류
    기본적인 특수문자 등도 한국어가 분석이 안되면 Unknown으로 분석
    분석결과의 마지막의 태그가 없는 문제점
  3. 형태소오분석 및 깨진라인 문제점
    깨진문자 및 필요없는 특수문자 등이 존재
    중복된 분석결과가 존재
    시작인용 부호 및 종료 인용부호가 규칙없이 사용되거나, 잘못 사용됨
    시작인용부호는 있지만, 종료 인용부호가 없는 경우
  4. 기본적인 Chunking 단위가 없음
    구두점 (. ! ? 등)으로 무조건 잘라서 형태소 분석을 수행
    마침표가 있으면 무조건 다음 sentence로 넘어가서 분석됨
    심지어 영문자의 약자에 사용되는 점이 있어도 잘라서 분석함

내가 하려고 하는 한국어 문장경계 학습을 위한 말뭉치로 써는 바로 사용하기는 불가능 이었으며, 수작업으로 하기에는 말뭉치의 크기가 너무 컸다. 그렇다고 지금와서 다른 말뭉치를 구하기도 힘들 뿐더러, 검증하기 힘든 웹문서나 신문기사 등을 사용하는 것도 무리가 있다. 지금와서 논문 주제를 바꾸기에도 너무 늦었다고 생각된다....

'진퇴양난'이라는 표현을 이런 때에 사용하는 것이 적절하지 싶다.


일단 해보자 라고 생각하고 덤벼들었는데, 정말 산너머 산이요, 강건너 강이더라... 처음에는 어느정도 규칙을 적용하여 변환 및 보정하여 사용하려고 했는데, 문장경계를 위한 가장 중요한 정보인 End of sentence를 구분할 만한 방법이 없었다.

그래서 인용부호의 오류를 수정하는 프로그램 및 각종 깨진 문자 등을 제거하기 위한 프로그램을 별도로 짜는데에만 거의 한 달 이상 작업을 진행중이다. 오늘도 날밤을 까면서, 이렇게 말뭉치 정재작업을 하고 있다. (계속 해야할지 자꾸 의문이 든다...)


혹시 현재는 위에서 나열한 잘못된 부분을 패치한 CD를 제공하고 있을지도 모른다. 하지만 그렇게 비싼 돈을 들여서 만든 초기 결과물이 이 정도 밖에 되지 않는다는 것에 분개할 뿐이다. 솔직히 문장경계에 대한 정보를 떠나서 형태소 분석을 위한 말뭉치로 활용하기에도 많이 부족하다.

추측하기로는 대략 분야별로 문서를 모으고, 형태소분석기를 돌려서 나온 결과물을 적당히 사람이 수작업으로 보정한 듯 한데... 너무한다 정말... 이번 작업을 하면서 얼마나 마음 고생이 심했는지... 연말에 회사일도 바쁘고, 마지막 학기지만 수업은 수업대로 듣고, 둘째 출산.. 게다가 논문까지 쓰려니 정말 눈물로 밤을 새운지 어언 몇 개월째...쿨럭


많은 분들이 이 프로젝트에 참여하였고, 고생도 하셨겠지만, 이왕 할거면 제대로 해서 많은 사람들이 유용하게 사용할 수 있었으면 좋으련만, 이렇게 다시 수작업을 하게할 거면, 왜 배포를 해서 고생을 하게 하는건지....

" 늦게 배포하더라도 제대로 된 것을 하거나 이르게 배포해야만 한다면,
  제대로 된 일부만 배포하게 하여 두 번 작업을 하는 것은 없어야 한다고 생각한다 "

솔직히 두 번 작업이 아니라 이 CD를 받으신 사람 수 만큼이나 작업을 거치는게 아닌가 하는 생각도 들었다.
설마 세종프로젝트가 이번 것으로 끝나는 것은 아니겠지?

이렇게 보면, 너무 안좋은 점들만 나열한 것 같아서, 좀 씁쓸하긴 하지만, 이러한 자료라도 없었더라면
" 한국어 언어처리 관련 일을 시작하기도 힘들었을 것이다. 그러한 점에서는 감사하고 있다. 단지 좀 더 낳은 결과물이 있었더라면 하는 아쉬움에 이런 글을 쓴다 "


This article written by springnote.

by psyoblade | 2008/01/01 04:28 | 정보검색 - 논문 | 트랙백(1) | 덧글(12)
지금 내게 있어서 소중한 것들...
마지막날에 쓰는 글...

잠시 잠들었다... 2008년이 왔구나 하는 생각을 하기도 전에 벌써 와버린 느낌
뭐랄까 2007년 한 해도 벌써 가버린 건가 하는 생각보다는 어이없이 지나가버린 느낌? 조금은 허전함...
소원이를 재우고, 나도 같이 잠들었다가 좀 더 자고 새벽에 일어날까 생각하는데... 문득 벌써 2008년인가?
올해도 재야의 종소리는 못 들었군 하는 생각이 드니 문득 다른 분들은 어떻게 지내나 하는 생각에 컴퓨터를 킨다..

배란다에 있는 바나나 하나를 뽑아들고 책상에 앉았는데, gimmesilver님의 포스팅을 보고 ... 트랙백을 걸어본다
2007년은 뭐랄까 많은 아쉬움을 던져주는 해 였다는 생각이 든다. 무언가 많은 노력을 한 듯 보이지만, 그렇지도 않은 것 같고
많은 변화가 있었던 듯 하지만, 꼭 그렇지만도 않은 것 같고....

  1. 월, 새로운 회사에 갈 생각과 기존 회사에서의 마무리로 정신없는 한 달을 보냄
  2. 월, 새로운 회사에서의 적응과 더불어 대학원 3학기 시작
  3. 월, 아직은 어색한 회사 분위기와 무언가 해야하지 않나 하는 불안감 엄습
  4. 월, 이제 조금 적응하고 있나 하는 생각과 더불어 중간고사 폭탄
  5. 월, 중간고사 폭탄을 겨우 피하고, 논문 준비와 더불어 기계학습에 관심을 둠
  6. 월, 입사 후 5개월째 돌입, 무언가 정신없이 걸어왔던 듯, 블로그 포스팅도 이 시점을 기준으로 거의 없고, 뭐 했지?
  7. 월, 다시 기말고사와 더불어 논문에 대한 불안감 엄습, 논문 주제를 클러스터링에서 문장경계인식으로 전환
  8. 월, 방학은 도래하였으나 논문을 어떻게 쓸지 고심... 열심히 웨이트 트레이닝 하고있음...
  9. 월, 뭘 하고 있었는지 당췌 기억나지 않음.... 무언가 열심히 하긴 했던거야?
  10. 월, 흐흐흐 중간고사 마지막 학기라 그런지, 정말 대충 공부하는구나...
  11. 월, 벌써 연말 분위기인지, 술렁술렁 마음도 싱숭생숭 정신차리자구... 응?
  12. 월, 기말고사 종료, 정규 대학원 수업은 종료 논문에 대한 압박의 가중 둘째의 건강한 출산~~

아무래도 회사 외적인 부분에 대해서만, 쓰다보니 어색하기 그지 없군, 그냥 놀고먹는 결혼한 대학원생 정도로 보이는 것이.. 참내 중간-기말-중간-기말 이걸로 한 해가 끝나는 것 같아~~
솔직히 회사에 대해서 쓴다고 하여도 그닥지 쓸만한 거리는 없는 것 같고 -_-;;
한 해를 돌아보면서, 정말 소중한 무언가를 위하여 어떤 노력을 했는지에 대한 고민을 하게 된다.


엊저녁에도 소원이에게 '토끼와 거북이'에 대한 책을 읽어주고, 한참을 소원이와 티격태격 했다.

거북이가 싫다는 거다 왜 싫으냐 물었더니 대충 내용은 자기는 토끼가 좋아 책을 보았는데, 토끼가 거북에게 지는게 싫었던 모양이다. 그렇게 토끼가 게을렀고, 거북은 열심히 한거니 거북이 잘못한 건 없다.
만일 소원이가 거북이라면 어떠하겠냐는 둥... 한참을 얘기를 하다보니 '내가 거북이라면 이기는 것도 좋지 뭐...'  하는데 거북이라고 생각해보면, 이기는 것도 나쁘지는 않은 모양이다.

여튼 결론은 이기고 싶다는 거다.... 이런 소원이 모습을 보면서 많이 컸구나 하는 생각이 문득 들었다.
강이는 (둘째 아기의 태명, 아직 이름을 못 지었음...) 큰 방에서 곤히 자고 있는데 언제 소원이 만큼 크나 하는 생각도 들고..

그냥 문득 자신을 바라보면서, 거북이 같다는 생각을 좀 했다.
아주 느리지만, 조금씩 정진하는 모습이 비슷해서 말이다. 하지만 반대로 현실도 과연 그럴까? 하는 생각이 들었다.
올 한해는 조금 아쉬웠다... 회사 일도 그러하고, 대학원도 그러하고, 가정에도 그러하고, 논문도 그러하고...
하지만 한 가지는 배웠다고 생각한다.
" 정말 소중한 것이 있고 바라고 있다면 목숨을 걸고 한다. "

뭐랄까 스스로를 바라보는 눈을 가졌다고 할까, 그러한 노력을 한다고 할까... 그리고 좀 더 깡다구가 좋아졌다고 할까...
그리고 운동을 본격적으로 시작하고 몸도 많이 좋아진 것도 칭찬 받을만 한 것 같다.
또한 대학원 정규수업 나쁘지 않은 성적으로 마친 것도 그러하고, 새로운 회사에 와서 많은 좋은 분들을 만난 것도 좋았다.
그리고 무엇보다도 우리가족이 건강하게 지내온 것도 감사하고, 둘째 출산도 그러하다 (고마워 그리고 사랑해 영미상~~)

누구나 마찬가지 이겠지만, 어렵고 힘든 상황에 많이 처해보고, 극복해본 사람들 만이 더 강해지고, 현명해질 수 있다고 생각한다.
그리고 항상 그러한 위험을 기회로 만드는 것은 자신의 생각에 달려있다고 생각한다. 2008년은 더욱 많은 어려움이 왔으면 하고 생각한다. 그리고 그러한 상황을 만들어내고 이겨낼 수 있을 것이라 생각한다.

그리고 한 가지 더 중요한 것을 생각해 보자면, 열정과 노력도 중요하지만 방향이 더 중요한 것 같다.
" 전략적인 생각과 올바른 방향... 노력과 열정 그리고 스스로에 대한 사랑 "

신년계획을 몇 가지 키워드로 정해보았다.
전략적사고
논문
검색서비스

데이터마이닝
멋진개발자
남편, 아빠 그리고 남자


by psyoblade | 2008/01/01 04:15 | 라이프로그 - 가족 | 트랙백 | 덧글(0)
드디어 둘째 출산 두둥 --;

지난 12월 18일 둘째 아이를 낳았습니다. 짝짝짝!!!

경황이 없어서, 이제서야 블로그에 글을 올리는데, 축하해주세요 ^^;


10개월이라는 기간이 우리에게는 정말 길고 소중한 시간 이었습니다.


또 다른 나를 보게해 주었고, 나를 성장하게 해주었으니까요... 앞으로 더 많은 것들이 놓여있으리라 생각됩니다만, 잘 해쳐나갈 수 있으리라 생각합니다.


아직 이름은 정하지 않았고, 태명만 '강' 이라고 부르고 있습니다. (건강하라고 강이라고 지었구요...--;)

거의 7주일 간을 휴가를 내고 집에서 가사일만(?)을 도맡아 하다보니 주부가 다 되어갑니다.
밥부터 해서 청소, 빨래 장보기, 애보기, 첫째와 놀아주기 등등

이제는 반찬이랑 국거리도 제법 맛이나는 것 같습니다. (내가 생각할 때는 말이죠, 사실 와이프도 조금은 인정했습니다.)


내일 부터는 출근이네요... 훗~ 2007년 한 해도 이렇게 마무리가 되어갑니다.

모두들 건강하시고요, 복 많이 받으시고, 행복한 2008년 되시길 바랍니다.


This article written by springnote.

by psyoblade | 2007/12/30 23:55 | 라이프로그 - 가족 | 트랙백 | 덧글(8)
◀ 이전 페이지 다음 페이지 ▶



information retrieval
by psyoblade
Calendar
메모장
카테고리
전체
기계학습 - 육동석
데이터 마이닝
디지털 신호처리 - 김동현
라이프로그 - 가족
리눅스 VS 유닉스
인공지능 - 임해창
자료구조론 - 이성환
정보검색 - 논문
정보검색 - 루씬
정보검색 - 알고리즘
취미생활 - 게임
컴퓨터 구조 - 박명순
프로그래밍 - C
프로그래밍 - Python, Ruby
음성신호처리 - 김승일
인터페이스 설계 - 류현정
정보검색론 - 임해창
자료구조 & 알고리즘
잡다한 일상들
차세대 네트워크 - 김선형
알고리즘
자기계발
미분류
라이프로그
대한민국 진화론
대한민국 진화론

C++ 기초 플러스
C++ 기초 플러스

파스칼이 들려주는 확률론...
파스칼이 들려주는 확률론...

Introduction ...
Introduction ...

Refactoring
Refactoring

Extreme Programming Installed
Extreme Programming Installed

예제로 배우는 XSLT
예제로 배우는 XSLT

COM+ Programming
COM+ Programming

이글루링크
erehwon.LAB
영화와 함께, 음악과 함께
까모의 룰루랄라~
좋은 회사 만들기
My Words, Your Mem..
지루박
검색엔진 루씬 Lucene..
임근준(이정우) | lefto..
Tell Me Something I D..
Purgatorium
Nativity in Black
쾌속고양이의 게임 일기
sjjung's blog: 慢之作
까나리의 심술보
질풍 17주의 머브러브 라..
from __future__ impor..
세가사탄의 세가새턴 해라!..
ㅂㄱㅅㄴㄷ
All about IT Trends
꽃에 빠지다* _ in NY
Atelier
snowcat blog
전도서에 바치는 장미
까먹지말자!
한글이 꿈틀
◐제목없음◑
위로..위로..위로..
A2공간 - 도움되는 글을..
투명인간의 혼자놀기용 ..
☆亡★고무루피 자유구역 2..
gimmesilver's blog
when september go..
Beyond Web
성렬's log - 한RSS an..
Jania's Blog
■블루빈의작업장■
Destructive and Inn..
소프트웨어 이야기
결론에 가보기
華怡價帽가 하늘을 바라..
Gerald 의 프로그래밍
ENAVI 검색시스템!!!
art.oriented
하얀눈길의 검색엔진 이야기
日本語の勉強
PR 2.0: Juny's Interact..
중요한건 언어가 아니랍..
Python Developer
최근 등록된 덧글
프로그램 카운터는 현재..
by 김상은 at 10/15
잼나네여
by flower at 07/16
xor이 없어요
by xor at 06/17
컴퓨터아키텍처 공부하..
by wissn at 06/10
지나가다- 그래도 언어 ..
by ssoo at 12/14
자료 비공개로 담아서 ..
by 뭘까요 at 09/22
그렇군요. 기존 NTFS..
by ... at 08/02
폴리스님: 너무너무 늦은..
by psyoblade at 07/05
참, 논문 내용이 궁금..
by 폴리스 at 04/18
그 작업하신 데이터를 ..
by 폴리스 at 04/18
최근 등록된 트랙백
"free medication assi..
by Charles Myrick/Ameri..
purchase soma
by soma
purchase nexium
by nexium
Generic soma.
by What does generic s..
"back pain" "heniate..
by Alternative to Back S..
"medicine" "prescript..
by American Consultant..
"medicine" "prescript..
by American Consultant..
"cheap medicine" "c..
by Americans Provided ..
Adderall side effects.
by Adderall dosage.
"free prescription as..
by American Consultant..
이글루 파인더
rss

skin by zodiac47