본문 바로가기

Screen Scraping

개요

자동으로 시스템에 접속해 데이터를 화면에 나타나게 한 후 필요한 자료만을 추출해 가져오는 기술입니다.

특징

  • - “스크린 스크래핑”에 꼭 필요한 기능을 함수(또는 클래스)로 구현하여 동적 링크할 수 있도록 제공
  • - 스크래핑 개발자의 요구에 따라서 별도의 함수(또는 클래스)를 개발하여 추가 가능
  • - 자체적인 “스크립트”를 이용하여 신규사이트의 추가나 변경된 사이트의 유지보수를 간편하게 처리
  • - 독립 어플리케이션으로 별도의 편집 화면을 제공하며, 자체 컴파일, 디버깅 기능 제공
  • - 성능의 핵심인 스크래핑 처리가 Protocol 방식으로 이루어지므로 타사에 비해 우월함

Protocol 방식이란?

  • - IE등의 Browser를 기동하지 않고 HTTP 통신상에서 송/수신되는 데이터의 Scrapping을 수행하는 방식
  • - Scrapping이 수행되는 Machine의 Resource를 적게 사용
  • - Low Layer에서 Scraping을 수행하게 되므로 속도가 빠름
  • - 다른 Utility나 Application등의 종속성이 없어 Screen Scrapping의 다양한 기술 중 재활용성이 가장높은 기술

스크래핑과 Protocol 방식간의 비교

Protocol방식,Browser방식간의 비교 및 평가
구 분 Protocol 방식 Browser 방식 평가
Performance 통신 프로토콜 상의 송/수신 데이터를 HTTP 통신 모듈을 통해 직접 스크래핑 프로토콜 상의 데이터 송/수신을 위해 브라우저를 기동하고 브라우저가 디스플레이 하는 데이터를 스크래핑 Protocol 우수
Resource 활용 HTTP 통신 이외 별도의 Resource 비용 없음. Browser 방식에 비해 80% 이상 Resource 절약됨 HTTP통신 1건 당 Browser 하나씩 기동. Browser 기동에 따른 Resource 소비가 큼. Multi-Processing 시 더욱 문제됨 Protocol 우수
Client 환경에의 종속성 Browser의 버전 및 Browser의 환경설정 등에 독립적임 Client에 설치된 Browser의 버전 및 Browser의 환경설정 등에 종속적임 Protocol 우수
유지보수의 편리성(분리성) UI와 분리된 스크래핑 개발 및 유지보수로 Application의 변경 없이 스크래핑 유지보수 가능 UI 및 엔진과 통합된 스크래핑 방식으로 잦은 스크립트 유지보수 시 Application의 변경을 병행 해야 함 Protocol 우수

구축사례

  • 대량거래내역 조회 시스템의 경우(삼성카드에 적용한 예)
    - 총 250여개 계좌(향후 450여개까지 확대예정), 계좌당 일 평균 3,000~5,000건(최대 1만건)의 거래내역을 2시간 주기로 자동조회 처리하고 있음.
    - 현재는 Desktop용 PC 한 대로 처리하고 있는데, 서버를 증설 운영하거나 시스템 사양을 늘리게 되면 보다 탁월한 성능의 효과를 가져올 수 있음
  • 집금이체 시스템의 경우(대한통운에 적용한 예)
    - 총 300여개 계좌, 일 평균 1,000여건의 계좌이체 처리(집금업무이므로 처리건수는 적음)를 담당자가 수동기능을 이용해 처리하고 있음
    - 스케쥴 작업으로 처리하게 되면 시간당 360여건의 계좌이체 처리를 충분히 소화할 수 있음
  • SK Telecom Family Site인 MONETA에 구축한 시스템 및 네트워크 대역폭
    - Compaq DL360 30EA운영, 1200MHz CPU, 2GB RAM, 100Mbps회선 사용
    - 조회 및 이체 거래시 성능이 PC 급에 비해 월등히 높음