Индексатор веб-страниц и файлов 3.3

17 октября 2003 года

Адрес: http://vaddya.far.ru
E-mail: vaddya@far.ru

Введение

Программа служит для создания файла содержания к находящимся в заданной папке веб-страницам. Это может быть необходимо в тех случаях, когда веб-страницы сохранялись с какого-либо сайта и являются тематически связанными, но индексного файла, с которого можно начать обзор, у них нет. В самом простом случае, запустите Индексатор, укажите ему нужную папку и нажмите кнопку "Индексировать". Будет создан гипертекстовый документ, который и содержит ссылки на Ваши веб-страницы. С помощью многочисленных настроек программы - их количество увеличивается от версии к версии - можно задавать различные параметры индексации для удовлетворения всех Ваших пожеланий.


Описание вкладок

Типы файлов

Документ HMTL

Параметры папки

Настройка индексного файла

Сортировка ссылок

Настройка программы


Индексация файлов с разными расширениями

При выборе опции "Другие типы файлов" вкладки "Типы файлов" пользователю предоставляется возможность самостоятельно задать типы файлов для индексации, разделенные точкой с запятой. В выражении можно использовать стандартные подстановочные знаки Windows: "?" и "*". Также становится доступной опция "Индексировать HTML по тегу", которая при нахождении в списке указанных пользователем типов файлов расширения HTML, индексирует найденные файлы также, как и при стандартной индексации Документов HTML.
Следует обратить внимание, что в списке индексируемых файлов пользователю можно задать не только сами расширения, но и подпапки основной индексируемой папки с нужным расширением. То есть сработают не только выражения типа "*.htm;*.jpg", но и "Lessons\*.htm;MyPictures\*.jpg", при котором подпапки Lessons и MyPictures будут искаться в папке, указанной на вкладке "Параметры папки".


Параметры индексации Документов HTML

В случае выбора типа файла "Документ HTML", настройки для индексации задаются на одноименной вкладке, которая вложена во вкладку "Типы файлов". Вообще, менять настройки этой вкладки рекомендуется пользователям, знающим основы языка HTML и уверенным в правильности своих действий, так как настройки вкладки глубоко проникают в процесс индексации. Но в любом случае, всегда можно вернуться к настройкам по умолчанию, нажав соответствующую кнопку.
Необходимо отметить, что в подавляющем большинстве случаев нет необходимости менять стандартные настройки. В случае, если у всех файлов HTML одинаковый тег TITLE, на вкладке "Типы файлов" нужно задать "Другие типы файлов", указать *.htm* и снять галочку "Индексировать HTML по тегу". Текст для ссылки будет взят из имени файла.
Но бывает, что и содержимое тега TITLE одинаково, и имена файлов ничего не значащие file01.htm, file02.htm. Тогда можно поэкспериментировать с этими настройками. Но прежде всего нужно проанализировать подлежащие индексации веб-страницы, открыв их в любом текстовом редакторе. Требуется найти такой отрывок, который уникален для всех файлов, характеризует всю веб-страницу и, самое главное, текст которого подходит для ссылки в индексном файле. Это может быть содержимое парного заголовочного тега <H1>, текст первого абзаца, начинающееся с <P> и многое другое - в каждом случае по-разному, универсальных советов нет. Впрочем, отрывок не обязательно должен быть заключен в теги, он может окаймляться какой-либо фразой: лишь бы она была одинаковой для всех веб-страниц.
После нахождения подобного отрывка нужно вписать в поля ввода "от" и "до", начиная с какого места брать ссылку и до какого продолжать. В поле "Нахождение номер" вводится порядковый номер фразы, заданной в поле "от", после которого программа начнет создавать ссылку. Его стоит менять, если фраза поля "от" встречается не раз, а для ссылки нужно взять не первое включение фразы; номер фразы можно определить через поиск.
Если поле "до" пусто, программа возьмет для ссылки начальное содержимое текста, следующего после поля "от". Если же поле "от" пусто или содержимое поля "от" с нужным номером в документе не найдено, индексация произойдет стандартно по тегу TITLE.
Отметив опцию "Исключить входящие теги", можно избежать засорения ссылки содержащимися во фразе тегами HTML; опция не актуальна при стандартной индексации по тегу TITLE.


Удаление программы

В ходе работы программа делает записи в реестре о своем состоянии. Перед удалением программы для очистки реестра на вкладке "Настройка программы" следует нажать соответствующую кнопку. Также очистку реестра следует производить в случае неправильного сохранения предыдущего состояния или некорректности запуска программы из контекстного меню.


Отличия от предыдущих версий

версия 3.3 [17.10.2003]

версия 3.1 [30.03.2003]

версия 3.0 [02.03.2003]

версия 2.3 [22.11.2002]

версия 2.1 [07.10.2002]

версия 2.0 [05.08.2002]

версия 1.85 [01.06.2002]

версия 1.8 [14.04.2002]

версия 1.7 [20.03.2002]

версия 1.5 [02.03.2002]

версия 1.2 [23.02.2002]