httrack — работа из консоли

Автор: Aport Пятница, Январь 30th, 2015 Нет комментариев

Рубрика: Разное

Задался я целью, выкачать себе на диск несколько локальных сайтов и попробовав wget, понял что он мне не подходит.

Все подробности опишу ниже, а пока что хочу показать варианты настроек, после чего у Вас в папке окажется сайт оптимизированный под поисковые системы.

Скачиваем сайт arch.multilocal.ru

httrack -qiC1%P0x%q0u655350%s%u%I0dH0%kf2o0%c10#L10000000%f#f -N «%h%p/%[genre_id:/:::]%[country_id:/:::]%[page:/:::]%[year:/:::]%[char:/:::]%[director_id:/:::]%[what:/:::]%[id:/:::]Film.%t» -F «Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)» -%F «» -%l «ru, en, *» http://arch.multilocal.ru/ -O1 «C:\\local\\arch\\files» +*.css +*.js -mime:application/foobar -*.mov -*.mpg -*.mpeg -*.avi -*.asf -*.mp3 -*.mp2 -*.rm -*.wav -*.vob -*.qt -*.vid -*.ac3 -*.wma -*.wmv -*.zip -*.tar -*.tgz -*.gz -*.rar -*.z -*.exe +*.gif +*.jpg +*.png +*.tif +*.bmp -*.mp4 -*.mkv

Скачиваем сайт anime.mega-files.ru

httrack -qiC1%P0x%q0u655350%s%u%I0dH0%kf2o0%c10#L10000000%f#f -N «%h%p/%[action:/:::]%[show:/:::]%[gid:/:::]%[an_id:/:::]%[id:/:::]%[len:/:::]%[page:/:::]Anime.%t» -F «Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)» -%F «» -%l «ru, en, *» http://anime.mega-files.ru/ -O1 «C:\\local\\anime\\files» +*.css +*.js -mime:application/foobar -*.mov -*.mpg -*.mpeg -*.avi -*.asf -*.mp3 -*.mp2 -*.rm -*.wav -*.vob -*.qt -*.vid -*.ac3 -*.wma -*.wmv -*.zip -*.tar -*.tgz -*.gz -*.rar -*.z -*.exe +*.gif +*.jpg +*.png +*.tif +*.bmp -*.mp4 -*.mkv

Скачиваем сайт games.multilocal.ru

httrack -qiC1%P0x%q0u655350%s%u%I0dH0%kf2o0%c10#L10000000%f#f -N «%h%p/%[page:/:::]%[m:/:::]%[order:/:::]%[query:/:::]%[x:/:::]%[y:/:::]Game.%t» -F «Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)» -%F «» -%l «ru, en, *» http://games.multilocal.ru/ -O1 «C:\\local\\games\\files» +*.css +*.js -mime:application/foobar -*.mov -*.mpg -*.mpeg -*.avi -*.asf -*.mp3 -*.mp2 -*.rm -*.wav -*.vob -*.qt -*.vid -*.ac3 -*.wma -*.wmv -*.zip -*.tar -*.tgz -*.gz -*.rar -*.z -*.exe +*.gif +*.jpg +*.png +*.tif +*.bmp -*.mp4 -*.mkv

Скачиваем сайт camelot.userlan.ru

httrack -qiC1%P0x%q0u655350%s%u%I0dH0%kf2o0%c10#L10000000%f#f -F «Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)» -%F «» -%l «ru, en, *» http://camelot.userlan.ru/ -O1 «F:\\local\\camelot\\files» +*.css +*.js -mime:application/foobar -*.mov -*.mpg -*.mpeg -*.avi -*.asf -*.mp3 -*.mp2 -*.rm -*.wav -*.vob -*.qt -*.vid -*.ac3 -*.wma -*.wmv -*.zip -*.tar -*.tgz -*.gz -*.rar -*.z -*.exe +*.gif +*.jpg +*.png +*.tif +*.bmp -*.mp4 -*.mkv

Скачиваем сайт video.userlan.ru

httrack -qiC1%Px%q0u655350%s%u%I0dH0%kf2o0%c10#L10000000%f#f -N «%h%p/%[flm_mode:/:::]%[genre_id:/:::]%[film_id:/:::]%[image_id:/:::]%[director:/:::]%[year:/:::]%[actors:/:::]film.%t» -F «Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)» -%F «» -%l «ru, en, *» http://video.userlan.ru/films.php -O1 «C:\\local\\video\\files» +*.css +*.js -mime:application/foobar -*.mov -*.mpg -*.mpeg -*.avi -*.asf -*.mp3 -*.mp2 -*.rm -*.wav -*.vob -*.qt -*.vid -*.ac3 -*.wma -*.wmv -*.zip -*.tar -*.tgz -*.gz -*.rar -*.z -*.exe +*.gif +*.jpg +*.png +*.tif +*.bmp -*.mp4 -*.mkv

Скачиваем сайт video.multilocal.ru

httrack -qiC1%P0x%q0u655350%s%u%I0dH0%kf2o0%c10#L10000000%f#f -N «%h%p/%[mode:/:::]%[name:/:::]%[order:/:::]%[year:/:::]%[actor:/:::]%[page:/:::]%[director:/:::]%[act:/:::]%[CODE:/:::]Film.%t» -F «Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)» -%F «» -%l «ru, en, *» http://video.multilocal.ru/ -O1 «C:\\local\\video2\\files» +*.css +*.js -mime:application/foobar -*.mov -*.mpg -*.mpeg -*.avi -*.asf -*.mp3 -*.mp2 -*.rm -*.wav -*.vob -*.qt -*.vid -*.ac3 -*.wma -*.wmv -*.zip -*.tar -*.tgz -*.gz -*.rar -*.z -*.exe +*.gif +*.jpg +*.png +*.tif +*.bmp -*.mp4 -*.mkv

как альтернативу, для создания красивых урл, можно применить такую регулярку:

%[genre_id:/:::]%[country_id:/:::]%[orderby:/:::]%[page:/:::]%[year:/:::]%[char:/:::]%[director_id:/:::]%[id:/:::]%[what:/:::]%[where:/:::]

Параметры — то, что применяется после httrack

Опишу их в последовательности их применения на примере сайта video.multilocal.ru:

-q — говорим о том, что дальше идут параметры

i — continue an interrupted mirror using the cache

C — create/use a cache for updates and retries (C0 no cache,C1 cache is prioritary,* C2 test update before)

%P — стараться определять все URL (даже в неопознанных тегах/скриптах)

%P0 — НЕ стараться определять все URL (даже в неопознанных тегах/скриптах)

%q *include query string for local files (information only) (%q0 don’t include)

u655350 — Wait time (сколько времени ждать, пока сервер ответит)

%s использовать различные хаки, чтобы избежать повторной передачи при обновлении

%u check document type if unknown (cgi,asp..) (u0 don’t check, * u1 check but /, u2 check always) (—check-type[=N])

%I make an searchable index for this mirror (* %I0 don’t make) (—search-index)

d — оставаться на одной и той же основной домен

H — debug HTTP headers in logfile (—debug-headers)

kf2o0 -

%cN — maximum number of connections/seconds (*%c10) ( количество одновременных соединений )

#L Maximum number of links (-#L1000000)

%f *use proxy for ftp (f0 don’t use) (—httpproxy-ftp[=N])

#f Always flush log files

Не используемые, но интересные параметры:

-B URL
—base=URL
При чтении URL из файла (-F) определяет URL, добавляемый к относительным адресам файла, указанного параметром -i.

l — остаться на том же домене (например,.com)

-F
—force-html
При чтении URL из файла, включает чтение файла как HTML. Для предотвращения ошибок в случае локального файла HTML добавьте в файл «<base href=»url»>» или введите параметр командной строки —base.

x replace external html links by error pages

Обновление:

C  create/use a cache for updates and retries (C0 no cache,C1 cache is prioritary,* C2 test update before)
X *purge old files after update (X0 keep delete)
%s  update hacks: various hacks to limit re-transfers when updating (identical size, bogus response..) (—updatehack)
—update   update a mirror, without confirmation (-iC2)

*R1 количество попыток, в случае тайм-аута или не фатальные ошибки (*R1) (—retries[=N]) пример: HTTrack http://ya.com-O / TMP / shoesizes-R5
D *можно только спуститься в подкаталогах
a *пребывание на тот же адрес
l остаться на том же домене (например,.com)
cN количество одновременных соединений (*c8)
—update обновление зеркала без подтверждения (-iC2) пример:httrack -%L linkfile -O /tmp/shoesizes -B —update
—max-rate[=1048576] неизвестно как применять

Статья получилась сырая, зато с примерами, если будут вопросы, пишите в комментариях, попробую помочь, удачки!

 

Источник: yapro.ru

Оставить комментарий

Чтобы оставлять комментарии Вы должны быть авторизованы.

Похожие посты