Simple Crawler

Print

Робот, търсещ по шаблон текст в уеб страници. Поддържа се откриване на абсолютни адреси към други страници в кода на текущата страница. При евентуално открити нови адреси, те се добавят в списък на предстоящо посещение, който се състои от 2 основни компонента: Компоненти на списъка за предстоящо посещение Опашка за предстоящо посещение, която се използва за определяне на текущата страница, която да бъде посетена Хеш таблица, реализираща бързо търсене в списъка за предстоящо посещение. Поддържа функционалност – запаметяване на тези адреси във файлове, като при евентуално следващо стартиране на програмата с тези настройки, тя не добавя тези адреси наново в списъка за предстоящо посещение. Особености на шаблона за търсене Шаблона за търсене може да съдържа символа * (звезда), който се интерпретира от алгоритъма за търсене, като какъвто и да е текст. Например шаблонът “ *@*.* “ допуска откриването на запис “ This e-mail address is being protected from spambots. You need JavaScript enabled to view it ”. Поддържат се и частните случаи – търсене на точно съвпадение (без *) и сканиране на целия текст (само със *) Използвана среда за програмиране: Microsoft Visual C++ 9.0 Express Edition