Оценки эффективности работы электронной библиотеки

Главная       Учебники - Компьютеры      Электронная информатизация и электронные ресурсы

 поиск по сайту     

 

 

 

 

 

 

 

 

 

 

содержание   ..  70  71  72  73  74  75  76  77  78  79  80  ..

 

 

8.4. Оценки эффективности работы электронной библиотеки

Улучшение качества работы библиотек и информационных центров может оказать позитивное воздействие на окружающий мир, помогая созданию общества 2020 г., в котором правительства, частные компании и отдельные липа осознают первостепенную важность информации. Основой контроля качества и научного управления является, прежде всего, формулирование приоритетов. В этом смысле американский подход отличается от европейского. На недавней конференции ИФЛА немецкий специалист Дейл Аски (Dale Askey) отметил: «Американские библиотеки ориентированы на обслуживание читателей, в то время как в центре внимания немецких библиотек находятся фонды. В целом американские библиотеки, не заботясь о пополнении своих фондов за счет государства или спонсоров, превратились в организации, чьей постоянной целью стал поиск новых путей в улучшении качества услуг, предоставляемых читателям». Российские требования в основном касаются выполнения количественных показателей по комплектованию, книговыдаче и т. п.

Приведем главные международные стандарты оценки качества работы библиотек, а именно:

• Стандарт ISO 2789 International Library Statistics (международная библиотечная статистика);

• Стандарт ISO 11620 Library' Performance Indicators (показатели качества работы библиотек);

• Стандарт ANSI/NISO Z39.7—1995: Library’ Statistics (библиотечная статистика).

Для обеспечения единого подхода к оценкам качества работы сайтов был разработан норматив «Учет использования сетевых электронных ресурсов» (Counting Online Usage of Networked Electronic Resources — COUNTER) с учетом записей и обмена данными относительно использования базы данных и полно-текстовых журналов. Компания Elsevier объявила, что фирменный продукт компании Science Direct будет совместим с требованиями COUNTER. Ранее о своей поддержке проекта заявило подписное агентство Blackwell/Swets. Регистрация других желающих участвовать в международном проекте может проводиться по адресу некоммерческой организации COUNTER www.projectcounter.org.

В 2004 г. были разработаны и после широкого обсуждения введены новые национальные стандарты обслуживания в массовых (публичных) библиотеках Великобритании (Public Library Service Standards — PLSS). В стандартах зафиксированы нормативы, описывающие:

• близость библиотек к своим читателям;

• часы обслуживания:

• доступ к Интернету, к другим онлайновым каталогам;

• количество новых книг и других материалов, приобретенных за год:

• оценки публикой качества работы библиотеки;

• удовлетворенность пользователей и др.

Утвержденные десять основных стандартов заменят ныне действующие 26 стандартов, что были введены в 2001 г. Вновь введенные стандарты и нормативы для 3600 публичных библиотек Великобритании действовали до 2006 г. Мы приводим данные стандарты в приложении 3 к настоящей книге и советуем сотрудникам публичных библиотек с ними ознакомиться. Дело в том. что движение «от многих показателей к важным показателям», продемонстрированное в Великобритании, будет полезным и в наших условиях. Разработанный в России «Модельный стандарт деятельности публичных библиотек», принятый на Конференции Российской библиотечной ассоциации в 2001 г. (г. Саратов) намного объемнее английских стандартов (7 разделов, занимающих 22 страницы текста). Часть показателей, например максимальная удаленность публичной библиотеки от пользователя, практически совпадает в обоих стандартах. Однако в российском стандарте подробно расписаны требования к библиотечным помещениям; в английских стандартах, во-первых, не один раз упоминаются средства современных информационно-коммуникационных технологий и, во-вторых, дважды формулируются требования по уровню удовлетворенности пользователя — как детей, так и взрослых. Разница достаточно выразительная!

Что измеряется и что может быть измерено? Библиотечный персонал должен располагать надежным и стандартизованным источником сведений об использовании электронных ресурсов, что нашло свое отражение в ряде проектов, в частности методе использования лог-файлов.

Предлагаемый метод основан на использовании файлов регистрации (лог-файлов), которые автоматически формируются
веб-сервером, а значит, данные о них легко доступны библиотеке, имеющей сервер. Заметим также, что этот метод можно назвать нереактивным в том смысле, что пользователь не ощущает того, что его поведение в Сети как-то подвергается автоматизированному мониторингу.

Анализ поведения пользователей с помощью лог-файлов — это количественный метод опенки использования сайта. Наиболее простой способ анализа — статистика заходов на определенные страницы сайта. Этим методом можно оценить, какие именно страницы сайта, когда, как часто и на какое время посещаются пользователями. Важная характеристика — количество посещений, которые явились результатом работы поисковой машины. Ввиду того что поисковые машины и роботы нельзя считать аналогом визита настоящего пользователя, правильно будет исключать такого рода заходы на сайт из общего числа посещений.

Дополнительной целью использования данной методики является получение технической информации о количестве правильно выполненных актов пересылки сетевых страниц и количестве допущенных ошибок (послание об ошибке «error 404» — гиперсвязь не работает), а также другой специфической информации о работе сервера. Лог-файлы позволяют определить тип компьютерного оборудования (аппаратные и программные средства) посетителя сайта.

Информация, касающаяся содержания, также может быть извлечена из сообщения о предпоследнем сайте, то есть из данных «откуда пришли». Имеется возможность видеть переходы посетителя внутри вашего сайта от одной страницы к другой, первую страницу, на которую посетитель «пришел», и последнюю. с которой он «ушел» от вас. Анализ послания «Query strings» позволяет судить об интересах пользователя (его ожиданиях относительно содержания искомых страниц), узнать, какие поисковые термины применяет пользователь при работе с вашей страницей и при необходимости корректировать содержание сайта.

Генерирование лог-файла. Каждый веб-сервер формирует лог-файл, в котором записывается соответствующая информация о каждом посещении, то есть о соединении с Интернетом
по протоколу HTTP. Запись представляет собой текстовый файл обычно в так называемом обшем формате (Common Log File Format — CLF Format). В табл. 54 показан пример общей (CLF) и расширенной (ECLF) записи лог-файла, а ниже дан образец ее расшифровки.
Например, запись в лог-файле:

123.456.78.9 - [08/Мау/2003:13:45:56= D500| Get XY.html НТТР/1.0 200 2050 Z. html Mozilla /5|Win95]

означает, что:

• посетитель пришел на сайт с 1Р-адреса 122.456.78.9 8 мая 2003 г. и запросил страницу XY.html:

• документ был успешно передан (код 200) и полное количество байт составило 2050:
• пользователь проследовал по гиперсвязи (отсылке) на странице Z-html и использует систему Microsoft Internet Explorer с программой Windows 95.

Показатели активности веб-сайта. На рис. 39 приведены различные показатели активности веб-сайта: посетители, посещения, просмотренные страницы, просмотренные файлы. В прежних исследованиях при анализе лог-файлов подсчитывали количество хитов (hits) — количество просмотренных независимых, имеющих отдельный адрес компонентов страницы — и пытались на основании этих данных судить об активности сайта. Это неверно и приводит к колоссальным ошибкам, ибо лог-файл регистрирует любой (и каждый) файл в ходе реализации доступа. Если на сетевой странице, например, много графики и изображений, то каждое из них будет зарегистрировано. В результате окажется, что густо насыщенный вставками материал посещается чаше. Именно поэтому германское Общество контроля за интернет-рекламой, в которое входят несколько крупнейших национальных союзов по рекламе и мультимедиа-материалам, на сугубо профессиональной основе изучает этот вопрос, имея в виду установление расценок на сетевые объявления. Общество рекомендует два других показателя: «Просмотренные страницы» (Page impressions. Page Views) и «Посещения» (Visits). Эти рекомендации приняты и в настоящее время используются на практике.

Просмотренные страницы. Это показатель количества сетевых страниц на данном сервере, имеющих возможность размещения рекламы, на которые пользователь заходил (или которые вызывал, запрашивал). Здесь нужно сделать небольшое уточнение. Технология создания кадров (фрэймов) допускает вызов нескольких физических страниц сразу одним щелчком мыши, что может исказить картину и быть неправильно понято рекламодателями. Поэтому определение страницы в данном случае относится только к одному кадру, физически видимому на экране монитора. Второй рекомендованный показатель — посещение, визит.

Визит (сессия, посещение). Под визитом понимается связанная (единая) группа транзакций, осуществленная в Сети между каким-то IP-адресом и веб-сайтом. Это определение вовсе не столь тривиально, как кажется на первый взгляд. Дело в том, что связь между пользователем и сайтом прерывается после каждого единичного акта запрос/ответ. Это делается для того, чтобы не перегружать сеть (не занимать линию) при молчании партнеров. Таким образом, лог-файл, как правило, не может сам по себе определить, что же является «связанной группой транзакций». С этой точки зрения «визит» понимается как повторяющаяся с короткими интервалами серия заходов на данный сайт с одного и того же IP-адреса. Предполагается, что, наиболее вероятно, эти заходы относятся к сеансу связи с одним и тем же пользователем. Если в течение какого-то заранее установленного длительного периода времени с этого адреса не поступают запросы, то следующий сеанс уже засчитывается как новый. По умолчанию заранее установленный перерыв составляет 30 минут, но можно этот отрезок времени установить и по вашему желанию. Важно отметить, что идентификация посещений не позволяет делать какие-либо выводы относительно самого пользователя (то есть гарантируется анонимность) и что число посещений всегда будет меньше числа просмотренных страниц.

Пользователи/посетители. Цель изучения сетевого рынка — удостовериться в том, что вы работаете с реальным покупателем (пользователем), физическим лицом, пришедшим на ваш веб-сайт. Однако же идентификация посетителей, подсчет их точного количества являются сложной задачей в силу некоторых технических особенностей. Возможности идентификации определяются средствами контроля доступа и небольшими вспомогательными программами (cookies), которые автоматически записываются на жесткий диск посетителя. В последующем идентификация этого «помеченного» жесткого диска осуществляется при повторном заходе без всяких проблем.

Использование вспомогательных программ дает возможность регистрировать некоторые детали поведения пользователя, то есть выделить такие категории:

• первый заход пользователя;

• повторный заход пользователя;

• регулярный пользователь — тот, кто часто посещает сайт и работает с ним регулярно.

Можно также проводить персонализацию посетителя, по примеру действий известного интернет-продавца Amazon.com. Для того чтобы получить более детальные сведения о посетителях сайта, придется вводить регистрацию, раздавать регистрационные имена (логины) и пароли. Как показывает опыт, такие меры немедленно вызывают отток посетителей от сайта. Для университетских библиотек такие проблемы вообще не актуальны, поскольку студенческий коллектив так или иначе зарегистрирован.

Пределы аналитических возможностей лог-файлов. Несмотря на замечательную способность лог-файлов собирать данные и факты, все же статистику этого рода следует рассматривать как отражающие тенденции, а не как абсолютную данность. Имеются разнообразные источники систематических, структурных и иных ошибок, некоторые из них показаны в табл. 55.

 

Таблица 55

Источники ошибок и их направленность

 

Источник ошибок

Воздействие

Устранение или компенсация

Просмотр страниц с боль­шим количеством графики

Завышает

Учитывать расширение файла (например, gif...)

Прокси-сервер.

кэш-память

Занижает

Усилить контроль за обновлением

Динамические

1Р-алреса

Может как завышать, так и занижать

Настройка браузера, cookies, регистрация пользователей

Межсетевой защитный экран

Занижает

Настройка браузера, cookies, регистрация пользователей

Коллективные запросы с одного и того же компь­ютера

Занижает

Регистрация

пользователей

Роботы, автоматические подборщики информации

Завышает

Учитывать только заход с про­смотровой системы (браузера)

 



Прокси-серверы. В целях организации оптимальной эксплуатации Сети широко используются технологии прокси-серверов, которые снижают объем передаваемых данных за счет временного сохранения часто используемой информации. При этом отпадает необходимость многократной пересылки одних и тех же данных на полную дистанцию между сайтом и пользователем.

Когда пользователь запрашивает такую страницу от прокси-сервера, основной сервер «не ощущает» запроса и, конечно, не производит записи в лог-файле. Запись в лог-файл начнется только тогда, когда соответствующего материала (документа) не окажется в распоряжении прокси-сервера. В результате оказания такой «технической помощи» данные о спросе на материалы основного сервера будут неточными, причем чем интенсивнее идет работа, тем больше вероятность ошибки.

Вспомогательная память персонального компьютера пользователя (кэш браузера). Местная вспомогательная кэш-память системы просмотра сетевых материалов на компьютере индивидуального пользователя работает в общем так же. как и прокси-сервер. Для того чтобы ускорить загрузку сетевой страницы, они предварительно поступают в промежуточную кэш-память и регистрируются в лог-файле только один раз, хотя пользователь. быть может, обращается к ним многократно. Следовательно, происходит искажение точной картины поведения пользователя при неоднократном просмотре одних и тех же сетевых страниц.

Кнопки «Вперед» и «Назад». Когда пользователь щелкает по кнопкам «Вперед» или «Назад», страницы сохраняются в основной памяти компьютера (RAM) и не записываются в лог-файле, что также искажает общую картину.

Динамические IP-адреса. В целях экономии интернет-адресов многие поставщики телекоммуникационных услуг и интер-нет-службы (например, AOL или t-on-Iine и др.) присваивают динамические (на данный момент) интернет-адреса. Эта процедура влечет за собой два различных последствия. Первое состоит в том, что один и тот же сервис-провайдер способен обслужить многих клиентов, фактически используя один и тот же адрес, или второе — обслужить множество клиентов, располагая небольшим количеством IP-адресов. Как результат, влог-файле могут оказаться записанными несколько динамических адресов, которыми воспользовались многие посетители. Однако один и тот же пользователь в ходе сеанса может получить несколько различных IP-адресов, и тогда в лог-файле появятся, допустим, два адреса, хотя пользовался ими один и тот же клиент.

Межсетевой защитный экран. В целях безопасности многие компании применяют межсетевые защитные экраны. Экран изменяет внутренний IP-адрес сотрудника компании на единый для всей компании внешний адрес, который и будет записан впоследствии в лог-файле поставщика информации, даже если из компании заходили на данный веб-сайт многие сотрудники. Если, кроме того, используется прокси-сервер, входная информация еще более исказится как по подсчету количества посещений, так и по запросам пользователей, и итоговая картина не будет правдивой.

Роботы-пауки (подборщики информации). Как мы уже отмечали выше, лог-файл записывает и заход на данный сайт автоматизированных систем сбора информации — роботов-пауков и др., не различая их с физическими лицами. Исправить данные можно за счет корректировки их отправных точек, ибо количество автоматизированных поисковых систем и их сетевые адреса хорошо известны, поэтому нужно вычесть заходы с этих адресов из обшей суммы.

Знание приведенных факторов полезно при оценке точности ваших статистических наблюдений. Поскольку источником ошибок, как правило, являются системные, общие для всего сообщества причины, то какое-то сравнение результатов (а не только абсолютные замеры) может быть проведено и без дополнительной коррекции, лишь бы методики подсчета были едиными.

Усовершенствованные методы анализа. Если вы интересуетесь другими аспектами и более детальным анализом поведения пользователя, то необходимо записывать последовательность просмотра страниц вашего сайта (clickstreams). Эта методика называется «Анализ пути» (Path Analysis). Отдельно взятые посещения можно записывать в базу данных для последующего изучения, это уже начало методики сбора сетевой информации. Термин «сбор сетевой информации» (web mining) происходит от более раннего термина «сбор информации» (вообще] (data mining), появившегося в 1997 г. Инструменты подобного рода создавались вначале для поиска когерентности, соответствия в файлах какого-то конкретного предприятия (компании). В отличие от классических схем поиска в данном случае пользователь изначально еще не знает, что конкретно он ищет. Скорее всего, идет поиск любой интересной информации. С этой точки зрения сбор сетевой информации позволяет проследить особенности поведения пользователей, что важно для специалистов по компьютерным программам и для специалистов по обработке информации.