IENDEV.KR Since 2001 Login | Register

Development View


IS Web Crawler Ver.0.1


IS Web Crawler Ver.0.1


검색엔진 개발을 위한 웹사이트 크롤링 엔진입니다. 사실 완성된 프로그램이라기 보다는 예제라고 하는게 맞을 듯 합니다. C# (닷넷 프레임워크 4.0 이상)으로 개발한 소스 코드를 함께 포함하였으니, 실제 개발하시는데 도움이 되시길 바랍니다.


일반적으로 웹크롤러는 HTML 파일을 읽어와 내부에서 링크를 찾아내고, 그 링크에 해당하는 HTML에서 또 다른 링크를 찾아내고.. 를 반복하며 무한의 HTML 페이지를 찾아내는 과정을 거칩니다. 그리고, 가져온 HTML 내용 중 유의미한 부분만 간추려서 형태소 분석을 거쳐 인덱싱(어떤 주소 페이지에 어떤 단어가 들어가는지 정리)을 하며, DB에 저장합니다.


주요 기능

- 특정 웹사이트 주소의 HTML중 유의미한 부분만을 가져옵니다.

- 링크 태그(A HREF)를 분석하여 파생된 주소를 찾아냅니다.

- 가져온 내용을 바탕으로 형태소 분석을 실행하여, 특정 형태소의 시작 지점과 길이, 그리고 반복도를 찾아냅니다.

- 기본 UTF8 인코딩 외 HTML내에 선언된 기타 인코딩도 지원합니다.


앞으로 개발해야 할 부분

- 주소와 형태소를 바탕으로 DB에 넣는 작업을 해야 합니다.

- 웹사이트 HTML 분석 로직 개선이 필요합니다.

- 물론 검색 엔진 웹사이트를 만드는 것은 별개의 작업입니다. 


프로그램 버그나 제안/문의는 커뮤니티 게시판을 이용해 주시기 바랍니다.


#소스 #C# #검색엔진 #엔진 #크롤링


20 Like it  |   0 Comment   |  10 Download


댓글 남기기


로그인후 입력하실 수 있습니다.