Як написати робота архів - форум про інтернет-маркетингу

Що повинен робити робот?
Робот повинен індексувати сайти. У мене сущсествует ряд пропозицій з цього приводу.

1.2 заносяться всі слова, які тільки зможеш знайти. За слово вважати
безперервну послідовність припустимих символів. Допустимими вважати англійський алфавіт, цифри, український алфавіт і деякі спец. знаки (напр. тире). Тобто навіть "a", "але" або "варумпік-стрівомнлунс" вважати за слова.

xm я б порекомендував наступну структуру БД (краще щоб вона була реляційної, але можна і без цього):

таблиця "словник":
id (index) | word (string)

таблиця "сторінки":
id (index) | URL (string) | expiration (datetime) | visited (boolean)

таблиця "слова" (основна):
id (index) | word_id (index from "словник") | page_id (index from
"Сторінки") | count (integer)

Припустимо що було розраховано нижче в таблиці "словник"
накопичилося 450000 записів. Нехай, на среднестатічтіческом сайті знаходиться 1000 сторінок, а на кожній сторінці в середньому по 500 неповторяющихся слів. Т.ч. отримуємо, що на кожен сайт ми отримуємо по 500000 записів в таблиці "слова". Це вже серйозне навантаження, але для індексування тільки власного сайту цілком піддається реалізації. Крім того ти можеш відсікати загальновживані вигуки, які б становили 10-30% цього навантаження типу "але", "а" і т.д. Для цього потрібно було б ще в таблицю словник додати поле "заборонено" типу boolean. Цим ти можеш знизити навантаження.

"Класифікатора" написали, тепер робота пишемо. bl:

Схожі статті