Логико-вероятностная модель пошаговой подсказки в интерфейсе пользователя поисковой системы по ключевому слову

Автор: Литвинов В.А.

УДК 004.5

В.А. ЛИТВИНОВ, С.Я. МАЙСТРЕНКО, И.Н. ОКСАНИЧ

ЛОГИКО-ВЕРОЯТНОСТНАЯ МОДЕЛЬ ПОШАГОВОЙ ПОДСКАЗКИ В ИНТЕРФЕЙСЕ ПОЛЬЗОВАТЕЛЯ ПОИСКОВОЙ СИСТЕМЫ ПО КЛЮЧЕВОМУ СЛОВУ

Анотація. Пропонується і досліджується модель покрокової підказки користувачеві у задачі пошуку за ключовим словом. Модель дозволяє оцінити суттєві характеристики інтерфейсу користувача в залежності від параметрів множини ключових слів, функції розподілу ймовірностей звертання до них та обсягу підказки. Наводяться результати імітаційного моделювання підказки. Ключові слова: інтерфейс користувача, пошук за ключовим словом, покрокова підказка, GOMS.

Аннотация. Предлагается и исследуется модель пошаговой подсказки пользователю в задаче поиска по ключевому слову. Модель позволяет оценить существенные характеристики интерфейса пользователя в зависимости от параметров множества ключевых слов, функции распределения вероятностей обращения к ним и объема подсказки. Приводятся результаты имитационного моделирования подсказки.

Abstract. A model of stepwise prompt to a user in the problem of keyword-based search is proposed and studied. The model allows us to evaluate essential characteristics of the user interface depending on parameters of the set of keywords, probability distribution function to access it, and the volume of prompt. The results of simulation modeling of the prompt are presented.

1. Введение

Один из наиболее распространенных быстрых способов доступа пользователя к информационным ресурсам заключается в задании ключевого слова (образца), с которым через некий базовый словарь (БС) связаны ключевые слова, индексы и ресурсы (в простейшем случае ресурсом может быть сам словарь, дополненный атрибутами, характеризующими каждое слово).

Типовым механизмом повышения эффективности интерфейса пользователя (ИП) является подсказка возможных вариантов ключевого слова A(a1,..., at,..., an) по мере ввода начальных символов a1,..., at, имеющих совпадающее начало с введенными символами. В

[1] рассмотрены модели пошаговой и прицельной подсказок, приводятся сравнительные оценки трудоемкости (производительности) соответствующих вариантов ИП на основе общей технологии GOMS-KLM [2] и уточняющих результатов [3, 4]. Отмечается возможность снижения трудоемкости ИП с пошаговой подсказкой на основе учета вероятностей (частот) обращений к словам БС.

Целью настоящей работы является обобщение модели пошаговой подсказки [1] на случай известного (заданного) распределения указанных вероятностей.

2. Логико-вероятностная модель механизма пошаговой подсказки (LP-модель)

Рассмотрим некий регистр, содержащий qn ячеек единичной длины, расположенных на прямой с номерами (координатами) 0 ^qn -1 (q - алфавит представления слов словаря, n - количество символов в ключевом слове al..an). Часть ячеек в количестве, обозначенном через N, является активной. Для активных ячеек сочетание значений al...an соответствует реально существующим словам БС.

Примем следующие базовые допущения:

1. Распределение активных ячеек среди всех ячеек регистра является случайным.

2. Для значений N, q, п выполняется N))1, Чп)) N .

Из принятых допущений вытекает, что вероятность г того, что произвольно взятая

ячейка словаря с параметрами N, q, п является активной, в пределе равна — и значение

Выделим одну из активных ячеек регистра как искомую активную ячейку ИА. Эта ячейка соответствует искомому слову БС при задании некоего ключевого слова.

Припишем каждой активной ячейке значение р . < 1, причем ^ р. = 1. Это значе3 }=1

ние имеет смысл вероятности того, что при произвольном обращении к словарю ячейка Аз является искомой.

При лексикографической упорядоченности словаря значения р . распределены

вдоль регистра случайным образом (рис. 1).

Упорядочим активные ячейки по убыванию р .

(рис. 2), условно перенося их на позиции ^, номера которых соответствуют номерам значений р . в упорядоченном по убыванию списке.

Аппроксимируем полученное дискретное распределение вероятностей р . непрерывной

функцией р(х) и выделим на оси х точку Ь = 4. Функция р(х) отвечает условию

| р( х)dх = 1.

Выделим на оси х (рис. 3) qn точек с координатой х, (,= 1,2,...,qn). Поставим в соответствие каждой точке число ж,, имеющее смысл вероятности того, что для произвольного словаря с параметрами N, q, п и произвольного обращения ячейка , является активной искомой ячейкой.

Рассмотрим многократно повторяемый пошаговый процесс вбрасывания шаров в некую урну «с узким отверстием» [1] для последующего их извлечения со следующими исходными условиями. В начале процесса имеется qn шаров, каждому из которых приписывается значение Р,. Из первоначального количества шаров случайным образом с вероятностью Р, выбирается “меченый шар”, соответствующий искомой активной ячейке.

р2 1 р5

| М | | | | | | | | МММ! | | | | | | | ЩИ | | 1 ММ|

гN-1 Ы

о А 4 4 А ИА А-1 А 4-1

Рис. 1. Реальное (гипотетическое) распределение вероятностей р3

I I I I I I II I I I I I I I I

О А А Аз А4 А,

Рис. 2. Упорядоченное распределение р.

Ш I I 1 I I I 1 I I I Ц

А«-1 А. 4 —1

= | р(х)^х

Т,Жр = | р(х № =1

0 Х1Х2..........................................VI I I I I I ■ ■

Рис. 3. Аппроксимация упорядоченного распределения вероятностей

На очередном шаге i ( = 1,2,...) из qn I+1 случайным равновероятным образом выбирается дп-1 -1 шаров. Меченый шар вкладывается в пресловутую урну заранее, а qn-, -1 шаров вбрасываются в урну. Любой из вбрасываемых шаров может попасть в урну с вероятностью г = п или не попасть с вероятностью (1 - г). Попадает в урну случайное ко/ q

личество шаров g, , так что после вбрасывания в урне оказывается т, = gi +1 шаров. Далее т, шаров упорядочиваются по убыванию значений Ж 9 , и из урны извлекается порция в количестве т шаров с наибольшими значениями Ж9. Порция соответствует предъявляемой пользователю странице текущего справочника [1]. Если в порции оказывается меченый шар, процесс закончен. Иначе i := i + 1, и описанный шаг процесса повторяется вплоть до нахождения в очередной порции меченого шара. Требуется определить распределение вероятностей значений ,, при которых процесс заканчивается.

Поскольку на каждом шаге описанного процесса набор вероятностей ж9 множества

мощностью gi формируется случайным образом из совокупности Ж1,...,Ж п, упорядочен(?

ное распределение ж9 на каждом шаге сужения области поиска будем аппроксимировать одной и той же исходной функцией р(х) (рис. 3). При этом введем понятие длины виртуальной порции, которую определим следующим образом:

XgI = ь1к ^,, т),

где к, т) - количество порций объемом т или менее (если gI (т -1) шаров каждая, содержащих в сумме g, + 1 шаров.

В соответствии с определением

к (gi , т )

g1 +1

для gi > т -1 для gi < т -1

Ь ■ т

--------- для g > т -1

gl +1

Ь для gi < т -1

Безусловные вероятности р1 ^) завершения процесса на шаге i равны

р)=р^, П(1 - Рч„ )• (1)

5 =1

где р - условные вероятности завершения процесса на шаге i при условии, что процесс

не был завершен на шагах 1, 2, ..., i -1.

Определяя вероятности р , примем следующие обозначения событий £, возмож8 i

ных при вбрасывании и извлечении шаров на шаге I:

£ - на шаге i процесс закончен;

£ (gI) - в урну попало g i случайных шаров из qn I -1;

£^^ - в порцию из т (или менее, если gI < т -1) шаров, извлекаемых из

gi +1 шаров, находящихся в урне, попал меченый шар.

Как вытекает из условий завершения процесса на шаге i,

£ = £(0)у £(1)у... V £(т - 1^ £(т)л £(^ £(т + 1)л £(% + 1)v...

V £^п-1 - 1)л £^т/г) = Ц£^ ^ Ц£^ )л £^^ +1}

Отсюда

1 п-1 1

т-1 q -1

р§1 = Хж(8, )+ Гж(8, Уж(ш18, ),

где ж(§, ) - вероятность того, что на шаге i при вбрасывании qn-I -1 шаров в урне оказалось gI шаров;

ж(т / gi) - вероятность того, что в порции объемом т наиболее вероятных шаров, извлекаемой из совокупности gI+1 шаров, оказался меченый шар.

В соответствии с известным соотношением модели испытаний Бернулли, описывающей процесс вбрасывания шаров в урну,

Ж(81 ) = С^-1 ■г ^(1-гУI-1-а = ^,^^ -1).

На основе введенного понятия виртуальной порции значение ж(т/ gi) определим через площадь, ограниченную абсциссами х = 0, х = £,% и кривой непрерывной функции р( х), аппроксимирующей реальное дискретное распределение (рис. 3):

ж(тЫ1)» | р(х.

С учетом того, что Хг = Ь для gi < т -1, окончательно получим

рц, = Г

р8, г, с-< -1> | р(х

Подстановка (2) в (1) для заданных с, п, N, т, в принципе, определяет искомое распределение вероятностей р(,) .

Однако вычисления по выражению (2) для реальных значений с, п, N представляют значительные сложности, связанные как с большим количеством слагаемых при малых

I, так и с неприемлемо большими значениями С

Для приближенных вычислений воспользуемся известным соотношением, определяющим среднее значение ^ :

дп-І -1

§, = I§, с;- -г (і-гГ&-&-§- = г-(<г -і),

В частности, положим:

(§і ) =

І і для § = г - д[0 для § Ф г - дп і

Обозначим новые приближенные значения р(і), р ., Х§і через р (і), рі, X соответственно:

-------------- для г -дп & > т - і

г - дп-& + і

Ь для г - дп-‘ < т - і

|р(х)іїх для г -дп & > т - і

і для г - дп-г < т - і

По мере увеличения I значение г ■ сп 1 убывает; ближайшее значение 1 = 1т, для

которого г ■ сп~г < т -1, и процесс в любом случае завершается, определяется неравенством

I > іоб = іоб

т О д Л Од т -1 т -1

Отсюда

Р(і ) =

Рі П (і-Рі ) для 1 < Іт-і

і- II (і Р і* ) для І = Іт

где 1т - ближайшее целое, большее или равное 1о§с - .

Полученные выражения для р., р(г) позволяют определить приближенные средние

значения количества введенных символов V и количества слов т , просмотренных в процессе подсказки до идентификации ключевого слова. В частности,

Iі- р(. у

т +1

(і -1)-т + ^ + Д^

-р(і) +

(Іт -1) - т + тр + Д^2

Р(іт ) •

В последнем выражении АЧ^ и А^ - эмпирические поправки, определяемые для конкретной функции р(х).

3. Аппроксимация распределения вероятностей обращений экспоненциальной функцией р(х)

Известный принцип Парето в приложении к описанию востребованности информационных ресурсов дает основание утверждать, что в любой информационной системе, как правило, наиболее активно используется сравнительно небольшая часть ресурсов. Так, например, большое количество пользователей Интернета часто посещают сравнительно небольшое количество сайтов [5]. Убывающую функцию плотности распределения вероятностей обращения к элементам множества информационных ресурсов, обладающую подобными свойствами, в рассматриваемой задаче удобно представить в виде непрерывной экспоненциальной функции

р(х) = а-А-ехр(- Ах).

Примечание. В [6] обосновываются общие преимущества использования для подобных целей именно экспоненциальной функции по сравнению с кривой Парето и логнормальной аппроксимацией.

Нормирующий множитель а учитывает возможность того, что значение р (д" ) ) 0 и определяется из условия

| p(x )dx

Отсюда

1exp(-Я- x)

1 - exp(- Я- qn)

1 - exp

-Яqn -m ^ &r-qn-1 +1

1 -ex

р(-Я qn)

для r-qn 1 >m-1. для r qn-i < m-1

Из (5) явным образом вытекает:

■ exp(- Я- qn) Отсюда

p(qn )_ 1exp(~1qn)

1 - exp

(Я-qn) P(0)

Выражения (5), (6) означают, что в принятой модели реальное дискретное распределение, подобное изображенному на рис. 3, аппроксимируется экспоненциальной функцией (5) с параметром Я, определяемым через отношение максимальной вероятности обращения p к минимальной p . Так, значение Я_ 10/ qn соответствует отношению

* лг j max ± j min 5 f -1 J

3 min

3 mln

2,3 -104

С целью проверки адекватности, границ применимости и уточнения ^Р-модели проведено имитационное моделирование процессов обработки БС и формирования пошаговой подсказки. В процессе моделирования исследовались базовые варианты сочетаний параметров («сигнатур»): т = 10, п = 8, 12; д = 32 (ТЕКСТ), д = 10(КОД), N = 106 -И02, А■ д" =А° = 0 (условно принято для равномерного распределения), 5, 10, 20.

В результате имитационного моделирования установлено следующее.

1.Сопоставление экспериментальных данных для т с предварительными расчетными данными, для г = 10-5, 10- N=1С6, 104) и принятыми «предварительными» значениями А^1 = 0, А¥2 = 0 показало, что относительные значения расхождений находятся в приемлемых границах (до 5%) лишь для N > 104 и А0 = 0. С уменьшением N и увеличением А0 относительная погрешность существенно растет. Эмпирические значения поправок, обеспечивающие более точное согласование расчетных данных для т с экспериментальными, составили

С „ о п п 3° Л

1п д - 2 0,12А°

I -1 1п д

Л¥, = 0.

2. Отклонения расчетных и экспериментальных данных в среднем тем больше, чем

меньше N и больше А°. В целом, для N > 103 относительное отклонение остается в пределах до 3 + 4% для значений V и до 5 + 6 % для значений т (с учетом принятых значений

Л^р Л¥2). Для N = 10 и менее погрешность ^Р-модели неприемлемо велика.

4. Приложение РР-модели к оценке производительности ИП с пошаговой подсказкой

Оценка производительности (трудоемкости) Н для ИП с результативной пошаговой подсказкой базируется на соответствующем общем выражении [1], определяющем для неопытного пользователя значение Н1 через V и т с учетом результатов [4]:

Н (с) »(т2 + к + Мз) v + т5 ■ "■т + (Р + ВВ)

где Р и ВВ - стандартные операторы ООМБ-КЬМ [2], а значения ц, к для д = 32 (ТЕКСТ) и д = 10 (КОД) приведены в [4].

Первое слагаемое (7) определяет затраты времени на ввод и визуальную верификацию символов ключевого слова, второе - на визуальный анализ страниц (порций) подсказок, третье - на выбор и подтверждение результата подсказки.

Результаты расчетов, отражающих зависимости Н, V, т от основных параметров ИП, приведены в табл. 1-3.

В табл. 1 сведены расчетные значения Н в зависимости от N, г, А0. Данные табл. 1 иллюстрируют возможные результаты сокращения трудоемкости ИП за счет учета и мониторинга востребованности элементов информационных ресурсов, связанных с ключевыми словами.

аблица 1. Расчетные значения трудоемкостей ИП в зависимости от N г, А0

Образец А0 N, г

1,1 ■ 103, 10-9 1,1 ■ 104, 10-8 1,1 ■ 105, 10-7 1,1 ■ 106, 10-6

ТЕКСТ д = 32, п = 8, т = 10 0 5,91 7,90 10,69 14,03

5 4,06 6,94 9,61 12,17

10 3,31 6,38 8,69 11,34

20 2,97 5,49 7,60 10,70

Продолж. табл.

КОД д = 10, п = 12, т = 10 0 10,61 16,48 22,44 28,41

5 8,33 13,85 19,75 25,71

10 6,78 12,00 17,84 23,79

20 5,11 9,88 15,63 21,56

Определенный интерес представляет факт, проиллюстрированный данными табл. 2, что значения V, т при заданных д, N, т и выполнении сформулированных ранее базовых

допущениях N << дп) практически не зависят от п и, соответственно, от г. Это свойство независимости V, т от п, г подтверждается расчетами и для других значений N.

Таблица 2. Значения Н, V, т в зависимости от п, г, Л0

Образец Л0 п г V т Н

ТЕКСТ д = 32 N = 1,1 • 104 т = 10 0 6 1,02 • 10 -5 2,11 15,67 6,49

8 1-10-8 2,11 15,68 7,90

10 9,77 • 10-12 2,11 15,68 9,25

10 6 1,02-10 -5 1,75 11,85 5,29

8 1-10-8 1,75 11,90 6,38

10 9,77-10-12 1,75 11,90 7,43

КОД 0 8 110 -4 2,96 24,80 11,86

д = 10 12 1-10-8 2,96 24,80 16,48

N и О 16 1-10-12 2,96 24,80 20,21

т = 10 10 8 110 -4 2,24 17,28 8,81

12 1-10-8 2,24 17,28 12,00

16 1-10-12 2,24 17,28 14,65

Как следует из данных табл. 3 (и аналогичных данных для других значений N), изменение т объема страницы подсказки производит двоякий эффект. Так, уменьшение т, с одной стороны, влечет за собой увеличение среднего количества введенных символов, а, с другой, - относительно более значительное уменьшение суммарного количества просматриваемых слов; в результате значение Н уменьшается. В частности, для т = 1 значение Н приближается к соответствующим оценкам прицельной подсказки [1].

Таблица 3. Значения Н, V, т в зависимости от т , г, Л0

Образец Л0 т V т Н

ТЕКСТ д = 32 N = 1,1-104 (г = 10-8) п = 8 0 1 3,14 2,93 3,78

5 2,55 9,87 6,01

10 2,11 15,68 7,90

15 1,96 18,94 9,01

10 1 2,39 1,83 3,04

5 1,88 6,31 4,42

10 1,75 11,9 6,38

15 1,65 14,8 7,38

КОД 0 1 4,38 4,35 6,83

5 3,46 14,72 11,55

10 2,96 24,85 16,48

Продолж. табл. 3

q = 10 15 2,82 32,40 20,31

0 N1 10 1 3,25 2,7 5,13

5 2,54 10,0б 8,44

r N О I 00 10 2,24 17,29 12,00

n = 12 15 2,0б 22,б1 14,б3

5. Заключение

Предложенная и экспериментально проверенная модель позволяет оценить средние значения количества введенных символов V , количества визуально анализируемых слов m и общего значения трудоемкости ИП с пошаговой подсказкой для заданных q, n, N, p(x), m и результативного поиска (наличия искомого ключевого слова в БС). В случае нерезультативного поиска функция p(x) теряет смысл, и значения v, m, H определяются соответствующими выражениями [1].

В целом, совокупные с [1] результаты расчетов и/или имитационного моделирования при проектировании ИП для конкретной системы поиска по ключевому слову дают информацию для принятия обоснованных решений относительно выбора видов подсказки (пошаговая или прицельная), целесообразности учета вероятностей обращений к словам БС, выбора объема предъявляемой текущей страницы.

СПИСОК ЛИТЕРАТУРЫ

1. Интеллектуализованный интерфейс пользователя информационно-поисковой системы в задаче поиска по ключевому слову («образцу») с упреждающей подсказкой / Г.Е. Кузьменко, В. А. Литвинов, С.Я. Майстренко [и др.] // Математичні машини і системи. - 2011. - № 1. - С. б1 - 71.

2. Kieras D. Using the Keystroke-Level Model to Estimate Execution Times [Електронний ресурс] / D. Kieras. - University of Michigan. - Режим доступу: ftp://www.eecs.umich.edu/people/kieras/ GOMS/KLM.pdf.

3. Кузьменко Г.Е. Декомпозиция ментальных операторов в моделях GOMS-KLM применительно к интерфейсу пользователя в задачах ввода и контроля данных / Г.Е. Кузьменко, В. А. Литвинов, И.Н. Оксанич // Девятая междунар. науч. конф. им. Т.А. Таран «Интеллектуальный анализ информации ИАИ-2009»: сб. труд. - Киев, 2009. - С. 212 - 218.

4. Оксанич И.Н. Модель декомпозиции ментальных операторов в проблемно-ориентированном интерфейсе пользователя и ее экспериментальное исследование / И.Н. Оксанич // Математичні машини і системи. - 2010. - № 1. - С. 105 - 112.

5.http://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD %D0%9F%D0%B0%

D1 %80%D0%B5%D 1 %82%D0%BE.

6. Мостовов Д.А. Распределение доходов населения: теория и статистические закономерности [Электронный ресурс] / Д.А. Мостовов. - Режим доступа: http://www.dissercat.com/content/ raspredeleniya-dokhodov-naseleniya-teoriya-i-statisticheskie-zakonomernosti.

Стаття надійшла до редакції 27.12.2010

ИНТЕРФЕЙС ПОЛЬЗОВАТЕЛЯ ПОИСК ПО КЛЮЧЕВОМУ СЛОВУ ПОШАГОВАЯ ПОДСКАЗКА goms

Другие работы в данной теме:

Подход к интеграции интеллектуального анализа данных в реляционную СУБД на основе генерации текстов хранимых процедур

Анализ алгоритмов нечеткого вывода при решении задачи подбора программного обеспечения в сфере образования

ШИФРУВАННЯ іНФОРМАЦії З ВИКОРИСТАННЯМ ПСЕВДОВИПАДКОВИХ ГАУСОВИХ ПОСЛіДОВНОСТЕЙ

Юзабилити информационных систем в образовании: основные понятия

МОДЕЛЬ ОЦіНКИ ПЛАГіАТУ ПРОГРАМНОГО КОДУ НА ОСНОВі СИСТЕМИ КОНТРОЛЮ ВЕРСіЙ

Алгоритм поиска оптимальных по Парето параметров кодирования видеокодеков на основе объективных метрик качества видео

МАТЕМАТИЧНА МОДЕЛЬ ВИТіКАННЯ КОНФіДЕНЦіЙНОї іНФОРМАЦії З УРАХУВАННЯМ ЛЮДСЬКОГО ЧИННИКА

Разработка моделей элементов гидроаэродинамических систем на основе средств интеллектуальной визуализации

Разработка методов спецификации информационных моделей средствами языка таблиц событий

Обзор аппаратных средств и API-сервисов определения времени в персональном компьютере

ГИС слежения за перемещением транспортных средств Pointer™

Применение программного модуля «Электронный план ликвидации аварии»

ГіБРИДНИЙ АЛГОРИТМ БРОКЕРА ДЛЯ NORDUGRIDARC 2.0 ДЛЯ ВИКОРИСТАННЯ В СЕГМЕНТі УНГ

Анализ применения технологий php и asp. Net при разработке программного обеспечения информационной системы

Об одной многокритериальной модели на гиперграфах