이글루스 추천글 검색 베타 분석기

언젠가 부터 아래에 버튼들이 있어서 별로 신경 안쓰고 있었는데 미병님 포스팅을 보고 몇 번 꾹꾹 눌러봤다.
음... 눌러보다 보니 이거 어떻게 만들었나 궁금해져서리 흐흐흐


일단 현재까지 분석한 결과는 이렇습니다. 절대로 정확한 내용이 아닙니다. 단지 제 추측일 뿐임을 밝힙니다.
그리고 저는 중복문서 탐색과 정보검색에 조금 관심을 가지고 있을 뿐이고요...

  1. 입력된 문자열의 제한은 단순히 입력된 글의 숫자입니다. 정확하게 100바이트 (공백포함)
    공백만 100개 넣고 테스트 하셔도 에러 안납니다. 결과는 없지만요 --+;
  2. 앞의 100바이트 만을 색인 대상으로 하기 때문에 뒤에 중요한 글을 적으시는 분들의 포스팅은 탐색의 대상이 안될 수 있습니다. 색인량의 수준을 맞추기 위함이라 생각됩니다.
    단, 글 초반에 관련링크 및 연계된 정보등을 넣으시는 분들은 자신의 포스팅 보다 다른 포스팅으로 연결되는 왜곡된 결과를 받을 수도 있을 것 같습니다.
  3. 대략 2006년 8월자 말경부터 색인을 잡기 시작한 모양입니다. 그 이전 포스팅은 검색이 안되는 군요.
    점점 색인의 범위를 늘리시는 것인지도 모르겠네요.. 오늘 테스트 한 결과는 그렇다는 것입니다.
  4. 제공되는 RSS Feed XML과는 전혀 무관합니다. 어떻게 보면 당연하겠군요. 데이터베이스에 다 있는데 굳이 수집이 필요없겠네요. 예를들어 미병님 index.xml에는 "이글루스 추천글 베타" 포스트가 아직 없지만, 검색은 되더군요. 데이터베이스에 저장된 원본 문서를 이용하나 봅니다.
  5. 색인시에 문자열 단위로 해시를 통한 기법을 사용하는 듯 합니다. 예를들어 'A C' 라는 문자열로 검색이되는데, 'A' 로는 안되고 'C'로도 안되고 새로운 단어 B가 들어가는 경우 'A B C'로도 안됩니다. 즉, 어떠한 키워드의 나열을 하나의 해시키로 잡아서 색인 후 탐색하는 방식 으로 접근 하는 것 같습니다.
     
이 논문은 제가 최근에 보았던 논문 중에 하나인데, 구현 방식이 흡사해서 잠시 정리해보았습니다.

이것 저것 다른 논문도 같이 보고 있는 중이라 약간 다를 수는 있습니다. ㅠㅠ;

Scalable Document Fingerprinting - Nevin Heintze
  • 문서에서 대략 100바이트에 대한 정규화된 키워드들을 저장
  • 해당 키워드들을 유니코드 순으로 정렬한 다음 Fingerprinting을 저장 (MD5, SHA 1 활용)
  • 결과값인 해시 킷값과 문서번호를 색인 (B/B+Tree or Trie)
  • 이용자가 작성하는 문자열을 유사한 방식으로 정규화 및 해시를 통하여 킷값을 생성
  • 킷값을 통하여 우선순위에 따라서 검색결과 노출

비슷하지 않나요 ? 재밋네요 ^^

p.s) 이 글을 다 적고 추천글 열어보니 전혀 다른 포스팅이 검색됩니다.. 아무리 눈씻고 찾아봐도 모르겠네요.
       동일한 키워드는 '제한' 이라는 하나의 문자열인데... 그거 빼니까 검색안되는군요. 흘..
       아무래도 정규화 과정에서 너무 많은 키워드를 필터해버리면 그러 현상이 생길 수도 있겠네요 ^^

이 글과 관련있는 글을 자동검색한 결과입니다 [?]

by psyoblade | 2006/12/20 13:33 | 정보검색 - 논문 | 트랙백(1) | 덧글(2)
트랙백 주소 : http://psyoblade.egloos.com/tb/2886544
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Tracked from [Smle] and c.. at 2006/12/20 15:57

제목 : 2006-12-20 블로그클리핑 - 국내, 미국 웹..
오늘은 사내행사가 있으니 미리 올리고 갑니다 -_--------------------------------------------제 목 : Welcom To Hatena출 처 : http://hatena.co.kr/entry/Welcom-To-Hatena 드디어 다녀오셨군요 하테나...사무실 분위기가 참... 자유스럽네요... 제 목 : 이대 오니 - 돈코츠 라멘 출 처 : http://blog.naver.com/laputaa/6003202125......more

Commented by 미친병아리 at 2006/12/24 01:52
오~ 이렇게 심오한 분석이~
Commented by psyoblade at 2006/12/25 01:43
미병님 : 요즘 이런 쪽분야에 많이 관심이 있어서 점심먹고 잠도오고 해서리 이것 저것 눌러보다가 대략 이렇지 않을가 생각해보았습니다. 재미있지 않나요 ? ^^

:         :

:

비공개 덧글

◀ 이전 페이지 다음 페이지 ▶



information retrieval
by psyoblade
Calendar
메모장
카테고리
전체
기계학습 - 육동석
데이터 마이닝
디지털 신호처리 - 김동현
라이프로그 - 가족
리눅스 VS 유닉스
인공지능 - 임해창
자료구조론 - 이성환
정보검색 - 논문
정보검색 - 루씬
정보검색 - 알고리즘
취미생활 - 게임
컴퓨터 구조 - 박명순
프로그래밍 - C
프로그래밍 - Python, Ruby
음성신호처리 - 김승일
인터페이스 설계 - 류현정
정보검색론 - 임해창
자료구조 & 알고리즘
잡다한 일상들
차세대 네트워크 - 김선형
알고리즘
자기계발
미분류
라이프로그
대한민국 진화론
대한민국 진화론

C++ 기초 플러스
C++ 기초 플러스

파스칼이 들려주는 확률론...
파스칼이 들려주는 확률론...

Introduction ...
Introduction ...

Refactoring
Refactoring

Extreme Programming Installed
Extreme Programming Installed

예제로 배우는 XSLT
예제로 배우는 XSLT

COM+ Programming
COM+ Programming

이글루링크
erehwon.LAB
영화와 함께, 음악과 함께
까모의 룰루랄라~
좋은 회사 만들기
My Words, Your Mem..
지루박
검색엔진 루씬 Lucene..
임근준(이정우) | lefto..
Tell Me Something I D..
Purgatorium
Nativity in Black
쾌속고양이의 게임 일기
sjjung's blog: 慢之作
까나리의 심술보
질풍 17주의 머브러브 라..
from __future__ impor..
세가사탄의 세가새턴 해라!..
ㄴㅇㄱ ㅂㄹㄱ
All about IT Trends
꽃에 빠지다* _ moved
Atelier
snowcat blog
전도서에 바치는 장미
까먹지말자!
한글이 꿈틀
◐제목없음◑
위로..위로..위로..
A2공간 - 도움되는 글을..
투명인간의 혼자놀기용 ..
☆亡★고무루피 자유구역 2..
gimmesilver's blog
when september go..
Beyond Web
성렬's log - 한RSS an..
Jania's Blog
■블루빈의작업장■
Destructive and Inn..
소프트웨어 이야기
결론에 가보기
華怡價帽가 하늘을 바라..
Gerald 의 프로그래밍
ENAVI 검색시스템!!!
art.oriented
하얀눈길의 검색엔진 이야기
日本語の勉強
PR 2.0: Juny's Interact..
중요한건 언어가 아니랍..
Python Developer
최근 등록된 덧글
mips의 mfc0 명령어를 찾..
by 황군 at 01/18
요즘 한국어 문장분리기..
by 뽕 at 11/10
프로그램 카운터는 현재..
by 김상은 at 10/15
잼나네여
by flower at 07/16
xor이 없어요
by xor at 06/17
컴퓨터아키텍처 공부하..
by wissn at 06/10
지나가다- 그래도 언어 ..
by ssoo at 12/14
자료 비공개로 담아서 ..
by 뭘까요 at 09/22
그렇군요. 기존 NTFS..
by ... at 08/02
폴리스님: 너무너무 늦은..
by psyoblade at 07/05
최근 등록된 트랙백
fiddler crab careshe..
by http://stonebymiccoli..
picture citrus
by http://peterboroughch..
kelly blue book vaul..
by http://marcovanbelle..
black doctor picture
by http://darkmaskfilms...
german months work..
by http://bosmereschoo..
blank art cards
by http://kaminregler.de/..
sprint pcs connection
by http://lpda.co.uk/s..
Chevy truck accesso..
by Truck accessories.
united states gover..
by us government grant ..
"free medication assi..
by Charles Myrick/Ameri..
이글루 파인더
rss

skin by zodiac47