Создайте планировщик загрузок с небольшим навыком программирования
Мы все любим скачивать вещи из интернета, и есть куча отличных инструментов менеджера загрузок, которые мы можем использовать для планирования наших загрузок. Возможно, будет проще использовать менеджер загрузок, но нет ничего плохого в том, чтобы изучить инструменты, которые уже поставляются с нашей Ubuntu, и в полной мере использовать его..
В этой статье мы покажем вам встроенное программное обеспечение в Ubuntu, которое мы можем использовать для загрузки материалов из Интернета, используя Wget. Кроме того, мы покажем вам, как запланировать загрузку с помощью Cron..
Скачать с помощью Wget
Wget - это бесплатный программный пакет для извлечения файлов с использованием HTTP, HTTPS и FTP, наиболее широко используемых интернет-протоколов. Это неинтерактивный инструмент командной строки, поэтому его легко вызывать из сценариев, заданий cron, терминалов без поддержки X-Windows и т. Д..
Откройте свой терминал и давайте рассмотрим, как мы можем использовать wget для загрузки материалов из сети. Основной синтаксис загрузки с помощью wget следующий:
wget [опция]… [URL]…
Эта команда загрузит руководство wget на ваш локальный диск
wget http://www.gnu.org/software/wget/manual/wget.pdf
Linux Cron
Ubuntu поставляется с демоном cron, который используется для планирования задач, выполняемых в определенное время. Crontab позволяет указать действия и время их выполнения. Вот как вы обычно планируете задачу, используя инструмент командной строки.
Откройте окно терминала и введите crontab -e.
Каждый из разделов в crontab разделен пробелом, а последний раздел содержит один или несколько пробелов. Запись cron состоит из минуты (0-59), часа (0-23, 0 = полночь), дня (1-31), месяца (1-12), дня недели (0-6, 0 = воскресенья), команды. Третья запись в вышеуказанном crontab загружает wget.pdf в 2 часа ночи. Первая запись (0) и вторая запись (2) означают 2:00. С третьей по пятую запись (*) означает любое время дня, месяца или недели. Последняя запись - это команда wget для загрузки wget.pdf с указанного URL.
Это основное на wget и как работает Cron. Давайте рассмотрим пример из реальной жизни о том, как запланировать загрузку.
Планирование загрузки
Мы собираемся загрузить Firefox 3.6 в 2 часа ночи. Поскольку наш провайдер предоставляет только ограниченный объем данных, нам нужно остановить загрузку в 8 часов утра. Вот как выглядит установка.
Проигнорируйте первые 2 записи в вышеуказанном crontab. Третья и четвертая команда - это только две команды, которые вам нужны. Третья команда устанавливает задачу, которая загрузит Firefox в 2 часа ночи:
[код]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/код]
Параметры -c означают, что wget должен возобновить существующую загрузку, если она не была завершена.
Четвертая команда остановит wget в 8 часов утра. Killall - это команда unix, которая убивает процессы по имени.
[код]
0 8 * * * killall wget
[/код]
Wget killall говорит Ubuntu прекратить загрузку wget в 8 часов утра.
Другие полезные команды wget
1. Указание каталога для скачивания файла
[код]
wget -output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/код]
опция -output-document позволяет вам указать каталог и имя файла, который вы загружаете
2. Скачивание сайта
Wget также способен загружать веб-сайт.
[код]
wget -m http://www.google.com/profiles/zainul.franciscus
[/код]
Приведенная выше команда загрузит всю мою веб-страницу профиля Google. Опция '-m' указывает wget загрузить 'зеркальное' изображение указанного URL.
Другой важный вариант - указать wget, сколько ссылок следует перейти при загрузке веб-сайта..
[код]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/код]
Приведенная выше команда wget использует две опции. Первая опция -r указывает wget рекурсивно загружать указанный сайт. Второй параметр '-l1' указывает wget получать ссылки первого уровня только с указанного веб-сайта. Мы можем установить до трех уровней '-l2' и '-l3'.
3. Игнорирование входа робота
Веб-мастер поддерживает текстовый файл с именем Robot.txt. «Robot.txt» поддерживает список URL, который сканер веб-страниц, такой как wget, не должен сканировать. Мы можем указать wget игнорировать «Robot.txt» с опцией «-erobots = off». Следующая команда сообщает wget загрузить первую страницу моего профиля Google и игнорировать файл Robot.txt..
[код]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/код]
Еще одна полезная опция - -U. Эта опция маскирует wget как браузер. Учтите, что маскировка приложения как другого приложения может нарушить срок и услугу поставщика веб-услуг..
[код]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/код]
Заключение
Wget - очень старый, но взломанный пакет программ GNU, который мы можем использовать для загрузки файлов. Wget - это интерактивный инструмент командной строки, который означает, что мы можем запускать его на нашем компьютере в фоновом режиме без запуска какого-либо приложения. Проверьте страницу руководства wget
[код]
$ man wget
[/код]
чтобы понять другие варианты, которые мы можем использовать с wget.
связи
Руководство по Wget
Как объединить два загруженных файла, когда wget не работает в середине
Linux QuickTip: загрузка и распаковка за один шаг