글쎄요..
하도 이쪽은 해본지가 오래되어서 지금은 어떨지 모르겠지만
IEparser가 파싱하나는 기가막히게 잘 해 주더군요.
HTML을 거의 다단계로 다 구분하고 HTML태그를 없애주거나 하는 것등은 기본적으로 있습니다.
아마도 그것 때문에 속도가 굉장히 떨어지고 리소스도 많이 잡아 먹는 모양입니다.
로봇구현에서는 보통 속도개선을 위해서는 ICS나 INDY로 HTML을 받아온 후
별도의 가벼운 HTML 파서를 이용해서 하더군요.
HTML 파서는 직접 제작하거나 여기저기 굴더다니는 것중 하나를 쓰는데
제가 봤을때는 쓸만한 것이 없었습니다.
만들자니 시간이 아깝고 갖다 쓰자니 그지같고.. 그렇더군요.
(만들어서 공개한 분들한테는 미안하지만 :))
보통 자기가 필요해서 만들기 때문에 그런것 같습니다.
이메일 주소를 긁어오는 스파이더류의 것은 컴포넌트화 되어 있는 것도 있더군요.
그 중 분석하면 쓸만한 것이 있을껍니다.
수퍼페이지에서 본 것 같네요.
근데 로봇이 가장 문제되는게 Windows계열에서는 장시간 돌리면
왜 이렇게 리소스관리가 안되는지...
제 능력이 안되서 그런지 대충 만들어서 돌리니까 오래가면 뻗어버리더군요.
하여간 간단한 것들은 Free source들로 조립 합체해서 괜찮은 것을 만들 수 있다고 봅니다.
요즘 이메일주소 판다고 하거나 이메일광고 대행하는 업체들 많이들 이렇게 만들었다고 알고 있습니다.
박정모 님이 쓰신 글 :
:
: 속도도 빠르고 기능도 빠방한... 게다가 Free source로...
: 욕심이 너무 심한가... ㅠㅠa;;
:
:
|