|
21세기 세종계획
일단, 세종계획 말뭉치를 알게된 것은 논문 주제로 삼고있는 '한국어 문장경계 인식'에 대한 학습 말뭉치를 얻기 위함이었는데, 국내에는 한국어 문장경계에 관한 학위논문이 거의 전무한 상태였고, 학회지 논문에는 한 건이 있었다. 그 논문에서 언급된 ETRI 및 KAIST 말뭉치를 구하고 싶었으나, 이리저리 수소문 해보아도 구하기가 힘들었다. 해당 논문을 쓰셨던 분께도 연락을 드려보았으나, 논문을 쓸 당시의 프로그램 및 코퍼스는 찾기가 힘들다고 하시더라... 그러시면서 차라리 세종계획 말뭉치를 사용하는게 어떠냐는 말씀을 듣고, 이리저리 찾아본 결과 학문적인 용도로 사용한다는 것에만 동의한다면 누구나 CD를 구할 수 있다는 사실도 알게 되었다. 국립국어연구원에 전화를 통하여 문의하고 CD를 요청하였는데, 의외로 간단한 절차와 친절한 담당자분이 계셔서 빠른 시일 내에 구할 수 있었다. 그러나... 내가 필요로 하는 부분은 문장의 경계가 표현된 tagged corpus였는데, 받고 보니 실상은 정말 참담했다. 문제점을 요약해보면 다음과 같다.
내가 하려고 하는 한국어 문장경계 학습을 위한 말뭉치로 써는 바로 사용하기는 불가능 이었으며, 수작업으로 하기에는 말뭉치의 크기가 너무 컸다. 그렇다고 지금와서 다른 말뭉치를 구하기도 힘들 뿐더러, 검증하기 힘든 웹문서나 신문기사 등을 사용하는 것도 무리가 있다. 지금와서 논문 주제를 바꾸기에도 너무 늦었다고 생각된다.... '진퇴양난'이라는 표현을 이런 때에 사용하는 것이 적절하지 싶다.일단 해보자 라고 생각하고 덤벼들었는데, 정말 산너머 산이요, 강건너 강이더라... 처음에는 어느정도 규칙을 적용하여 변환 및 보정하여 사용하려고 했는데, 문장경계를 위한 가장 중요한 정보인 End of sentence를 구분할 만한 방법이 없었다.그래서 인용부호의 오류를 수정하는 프로그램 및 각종 깨진 문자 등을 제거하기 위한 프로그램을 별도로 짜는데에만 거의 한 달 이상 작업을 진행중이다. 오늘도 날밤을 까면서, 이렇게 말뭉치 정재작업을 하고 있다. (계속 해야할지 자꾸 의문이 든다...) 혹시 현재는 위에서 나열한 잘못된 부분을 패치한 CD를 제공하고 있을지도 모른다. 하지만 그렇게 비싼 돈을 들여서 만든 초기 결과물이 이 정도 밖에 되지 않는다는 것에 분개할 뿐이다. 솔직히 문장경계에 대한 정보를 떠나서 형태소 분석을 위한 말뭉치로 활용하기에도 많이 부족하다.추측하기로는 대략 분야별로 문서를 모으고, 형태소분석기를 돌려서 나온 결과물을 적당히 사람이 수작업으로 보정한 듯 한데... 너무한다 정말... 이번 작업을 하면서 얼마나 마음 고생이 심했는지... 연말에 회사일도 바쁘고, 마지막 학기지만 수업은 수업대로 듣고, 둘째 출산.. 게다가 논문까지 쓰려니 정말 눈물로 밤을 새운지 어언 몇 개월째...쿨럭 많은 분들이 이 프로젝트에 참여하였고, 고생도 하셨겠지만, 이왕 할거면 제대로 해서 많은 사람들이 유용하게 사용할 수 있었으면 좋으련만, 이렇게 다시 수작업을 하게할 거면, 왜 배포를 해서 고생을 하게 하는건지...." 늦게 배포하더라도 제대로 된 것을 하거나 이르게 배포해야만 한다면, 제대로 된 일부만 배포하게 하여 두 번 작업을 하는 것은 없어야 한다고 생각한다 " 솔직히 두 번 작업이 아니라 이 CD를 받으신 사람 수 만큼이나 작업을 거치는게 아닌가 하는 생각도 들었다. 설마 세종프로젝트가 이번 것으로 끝나는 것은 아니겠지? 이렇게 보면, 너무 안좋은 점들만 나열한 것 같아서, 좀 씁쓸하긴 하지만, 이러한 자료라도 없었더라면 " 한국어 언어처리 관련 일을 시작하기도 힘들었을 것이다. 그러한 점에서는 감사하고 있다. 단지 좀 더 낳은 결과물이 있었더라면 하는 아쉬움에 이런 글을 쓴다 " This article written by springnote.
|
Calendar
카테고리
전체기계학습 - 육동석 데이터 마이닝 디지털 신호처리 - 김동현 라이프로그 - 가족 리눅스 VS 유닉스 인공지능 - 임해창 자료구조론 - 이성환 정보검색 - 논문 정보검색 - 루씬 정보검색 - 알고리즘 취미생활 - 게임 컴퓨터 구조 - 박명순 프로그래밍 - C 프로그래밍 - Python, Ruby 음성신호처리 - 김승일 인터페이스 설계 - 류현정 정보검색론 - 임해창 자료구조 & 알고리즘 잡다한 일상들 차세대 네트워크 - 김선형 알고리즘 자기계발 미분류 라이프 로그
![]() 대한민국 진화론 ![]() C++ 기초 플러스 마이 북 로그 ![]() 파스칼이 들려주는 확률론... ![]() Introduction ... ![]() Refactoring ![]() Extreme Programming Installed ![]() 예제로 배우는 XSLT ![]() COM+ Programming 이글루 링크
erehwon.LAB영화와 함께, 음악과 함께 까모의 룰루랄라~ 좋은 회사 만들기 My Words, Your Mem.. 지루박 검색엔진 루씬 Lucene.. 임근준(이정우) | lefto.. Tell Me Something I D.. Purgatorium Nativity in Black 쾌속고양이의 게임 일기 sjjung's blog: 慢之作 까나리의 심술보 질풍 17주의 머브러브 라.. from __future__ impor.. 세가사탄의 세가새턴 해라!.. imaginary code All about IT Trends styrtan 에리의 아트리에 snowcat blog 전도서에 바치는 장미 까먹지말자! 한글이 꿈틀 ◐제목없음◑ 위로..위로..위로.. A2공간 - 도움되는 글을.. 투명인간의 혼자놀기용 .. 고무루피 자유구역 2008 gimmesilver's blog when september go.. Beyond Web 성렬's log - 한RSS an.. Jania's Blog ■블루빈의작업장■ Destructive and Inn.. 소프트웨어 이야기 결론에 가보기 華怡價帽가 하늘을 바라.. Gerald 의 프로그래밍 ENAVI 검색시스템!!! Life of Erik art.oriented 하얀눈길의 검색엔진 이야기 日本語の勉強 PR 2.0: Juny's Interact.. 중요한건 언어가 아니랍.. Python Developer 최근 등록된 덧글
그렇군요. 기존 NTFS..by ... at 08/02 폴리스님: 너무너무 늦은.. by psyoblade at 07/05 참, 논문 내용이 궁금.. by 폴리스 at 04/18 그 작업하신 데이터를 .. by 폴리스 at 04/18 야야야 웃긴 동영상 올려 .. by wd58999 at 03/29 락끄님: 네 답변 감사드.. by psyoblade at 03/23 안녕하세요. 문장 경계.. by 락끄 at 03/19 egloos님: 네 정말 그런 .. by psyoblade at 02/01 미병님: 개인적인 일이 .. by psyoblade at 02/01 웹에서 검색하다 이 곳까.. by egloos at 02/01 최근 등록된 트랙백
Airline discount phili..by Airline ticket to jfk. Buy cheap xanax wi.. by No prescription xan.. Wellbutrin. by Wellbutrin xl. Valium. by Valium dosage. Soma prescription me.. by Soma. Xanax. by Xanax addiction. Adrenaline levels afte.. by Percocet 7.5 generic. Natural herb reverse .. by Generic propecia. Soma sen arizona. by Cheap soma. Honest faxless pay.. by Payday loan yes. 이글루 파인더
| ||||