Индексатор веб-страниц и файлов 3.3
17 октября 2003 года
Адрес: http://vaddya.far.ru
E-mail: vaddya@far.ru
Введение
Программа служит для создания файла содержания к находящимся в заданной
папке веб-страницам. Это может быть необходимо в тех случаях, когда
веб-страницы сохранялись с какого-либо сайта и являются тематически
связанными, но индексного файла, с которого можно начать обзор, у них
нет. В самом простом случае, запустите Индексатор, укажите ему нужную
папку и нажмите кнопку "Индексировать". Будет создан гипертекстовый
документ, который и содержит ссылки на Ваши веб-страницы. С помощью
многочисленных настроек программы - их количество увеличивается от
версии к версии - можно задавать различные параметры индексации для
удовлетворения всех Ваших пожеланий.
Описание вкладок
Типы файлов
- Кроме веб-страниц программа может индексировать любые другие типы
файлов. Выберите опцию "Другие типы
файлов" и укажите через точку с запятой нужные расширения. Подробнее о
параметрах указания других расширений смотрите ниже.
Документ HMTL
- Опции вкладки позволяют более гибко настроить индексацию
Документов HTML. Подробнее о работе с вкладкой смотрите ниже.
Параметры папки
- На вкладке программе указывается папка для
индексации. С помощью настроек этой вкладки можно указать программе
проиндексировать папки, вложенные в основную. Можно сделать индексный
файл фреймовым - тогда в левой части экрана будет файл со ссылками, а в
правой - соответствующие этим ссылкам Ваши веб-страницы.
- При сохранении веб-страниц полностью, картинки, скрипты и прочие
файлы сохраняются в папки с названием *_files или *.files, которые при
индексировании вложенных подпапок занимают много места. Установив
соответствующую галочку, вы исключите из индексного файла ссылки на
содержимое этих папок.
- Также, при индексировании с подпапками, визуально можно свернуть
всё содержимое папок до размера ссылок на них. При нажатии на "+",
ссылки разворачиваются и представляют для просмотра свое содержимое.
Настройка индексного файла
- Вкладка позволяет задать имя и путь индексного файла с помощью
одноименной опции. Если указано только имя файла, программа создаст его
в индексируемой папке. Если же
указано имя файла с полным путем доступа, индексный файл будет создан
именно в заданном месте. Это может быть полезно, например, при
индексации содержимого компакт-диска.
- В программе можно задать расстояние между ссылками, для чего
используется опция "Разделитель между ссылками". Выбор кнопки "Абзац"
позволяет начинать каждую новую ссылку с нового абзаца, что дает
увеличенное расстояние между ними. При выборе кнопки "Строка", каждая
ссылка начинается со следующей строки, что уменьшает расстояние между
ссылками.
Сортировка ссылок
- Вкладка позволяет задать, каким образом будут отсортированы
ссылки в пределах одной папки. Существует несколько вариантов
сортировки: оставить набор ссылок без изменения и выводить их в файл по
мере нахождения, отсортировать ссылки по тегу TITLE (только для
документов HTML), отсортировать ссылки по имени файла и по дате файла.
Настройка программы
- На вкладке "Настройка программы" находится пока единственная
опция "Добавить в контекстное меню". При ее установке в контекстное
меню
папок и файлов типа Документ HTML добавляется пункт "Индексировать".
При выборе этого пункта будет запущен Индексатор с уже установленным
путем для индексации; попутно
можно установить опцию "Закрыть программу после индексации" главного
окна программы.
Индексация файлов с разными расширениями
При выборе опции "Другие типы файлов" вкладки "Типы файлов"
пользователю предоставляется возможность самостоятельно задать типы
файлов для индексации, разделенные точкой с запятой. В выражении можно
использовать стандартные подстановочные знаки Windows: "?" и "*". Также
становится доступной опция "Индексировать HTML по тегу", которая при
нахождении в списке указанных пользователем типов файлов расширения
HTML, индексирует найденные файлы также, как и при стандартной
индексации Документов HTML.
Следует обратить внимание, что в списке индексируемых файлов
пользователю можно задать не только сами расширения, но и подпапки
основной индексируемой папки с нужным расширением. То есть сработают не
только выражения типа "*.htm;*.jpg", но и
"Lessons\*.htm;MyPictures\*.jpg", при котором подпапки Lessons и
MyPictures будут искаться в папке, указанной на вкладке "Параметры
папки".
Параметры индексации Документов HTML
В случае выбора типа файла "Документ HTML", настройки для индексации
задаются на одноименной вкладке, которая вложена во вкладку "Типы
файлов". Вообще, менять настройки этой вкладки рекомендуется
пользователям, знающим основы языка HTML и уверенным в правильности
своих действий, так как настройки вкладки глубоко проникают в процесс
индексации. Но в любом случае, всегда можно вернуться к настройкам по
умолчанию, нажав соответствующую кнопку.
Необходимо отметить, что в подавляющем большинстве случаев нет
необходимости менять стандартные настройки. В случае, если у всех
файлов
HTML одинаковый тег TITLE, на вкладке "Типы файлов" нужно задать
"Другие
типы файлов", указать *.htm* и снять галочку "Индексировать HTML по
тегу". Текст для ссылки будет взят из имени файла.
Но бывает, что и содержимое тега TITLE одинаково, и имена файлов ничего
не значащие file01.htm, file02.htm. Тогда можно поэкспериментировать с
этими настройками. Но прежде всего нужно проанализировать подлежащие
индексации веб-страницы, открыв их в любом текстовом редакторе.
Требуется найти такой отрывок, который уникален для всех файлов,
характеризует всю веб-страницу и, самое главное, текст которого
подходит
для ссылки в индексном файле. Это может быть содержимое парного
заголовочного тега <H1>, текст первого абзаца, начинающееся с
<P> и многое другое - в каждом случае по-разному, универсальных
советов нет. Впрочем, отрывок не обязательно должен быть заключен в
теги, он может окаймляться какой-либо фразой: лишь бы она была
одинаковой для всех веб-страниц.
После нахождения подобного отрывка нужно вписать в поля ввода "от" и
"до", начиная с какого места брать ссылку и до какого продолжать. В
поле
"Нахождение номер" вводится порядковый номер фразы, заданной в поле
"от", после которого программа начнет создавать ссылку. Его стоит
менять, если фраза поля "от" встречается не раз, а для ссылки нужно
взять не первое включение фразы; номер фразы можно определить через
поиск.
Если поле "до" пусто, программа возьмет для ссылки начальное содержимое
текста, следующего после поля "от". Если же поле "от" пусто или
содержимое поля "от" с нужным номером в документе не найдено,
индексация
произойдет стандартно по тегу TITLE.
Отметив опцию "Исключить входящие теги", можно избежать засорения
ссылки содержащимися во фразе тегами HTML; опция не актуальна при
стандартной индексации по тегу TITLE.
Удаление программы
В ходе работы программа делает записи в реестре о своем состоянии.
Перед удалением программы для очистки реестра на вкладке "Настройка
программы" следует нажать соответствующую кнопку. Также очистку реестра
следует производить в случае неправильного сохранения предыдущего
состояния или некорректности запуска программы из контекстного меню.
Отличия от предыдущих версий
версия 3.3 [17.10.2003]
- Возможность различных вариантов сортировки ссылок в пределах
одной папки,
- Возможность указать разделитель между ссылками (абзац или строка),
- Выбор папки при нажатии на кнопку "..." начинается с прошлой
папки,
- Программа добавляет себя в контекстное меню папок,
- Исправлены мелкие недочеты.
версия 3.1 [30.03.2003]
- Запуск индексирования в отдельном потоке, индексацию можно
отменить,
- Исправлено неправильное формирование ссылок при задании пути для
индексного файла.
версия 3.0 [02.03.2003]
- Переход на универсальный интерфейс,
- Возможность перечисления расширений вместе с их подпапкой,
- При перечислении
расширений возможно индексирование Документов HTML по тегу TITLE,
- Возможность задания пути для создания индексного файла,
- Указание тега для индексации Документов HTML вручную (не только
TITLE).
версия 2.3 [22.11.2002]
- Исправление ошибок работы с реестром,
- Корректная работа при запуске из контекстного меню,
- Возможность исключения из индексного файла папок *_files,
- Сворачивание проиндексированных папок до ссылок на них.
версия 2.1 [07.10.2002]
- Исправлена ошибка при выходе из программы в Windows 9x/Me,
- Расширения также разделяются переводом строки (без ";" или с ним).
версия 2.0 [05.08.2002]
- Возможность индексирования нескольких расширений,
- Изменение интерфейса.
версия 1.85 [01.06.2002]
- Устранение утечек памяти в алгоритме программы,
- Добавление пункта "Безопасное удаление программы" в системное
меню.
версия 1.8 [14.04.2002]
- Сканирование подпапок на наличие индексируемых файлов.
версия 1.7 [20.03.2002]
- Добавление программы в контекстное меню документов HTML,
- Возможность создания фреймового файла индексации.
версия 1.5 [02.03.2002]
- Переход на технологию WinAPI. Существенно уменьшен размер файла,
- Исправлены ошибки в алгоритме поиска файлов,
- Гибкая обработка различных вариантов тега <TITLE>.
версия 1.2 [23.02.2002]
- Базовая по функциональности версия, выложенная в Интернет.