close

Вход

Забыли?

вход по аккаунту

?

Метод идентификации пользователей в сети Интернет с использованием компонентного профиля.

код для вставкиСкачать
На правах рукописи
Бессонова Екатерина Евгеньевна
МЕТОД ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЕЙ В СЕТИ ИНТЕРНЕТ С
ИСПОЛЬЗОВАНИЕМ КОМПОНЕНТНОГО ПРОФИЛЯ
Специальность: 05.13.19 – «Методы и системы защиты информации,
информационная безопасность»
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Санкт-Петербург - 2014
2
Работа выполнена в Санкт-Петербургском национальном исследовательском
университете информационных технологий, механики и оптики.
Научный руководитель
доктор технических наук, профессор,
Зикратов Игорь Алексеевич
заведующий кафедрой безопасных
информационных технологий НИУИТМО
Официальные оппоненты
доктор технических наук, профессор,
Гаскаров Вагиз Диляурович
профессор кафедры комплексного обеспечения
информационной безопасности
Государственного университета морского и
водного флота имени адмирала С.О.Макарова
кандидат технических наук,
Айвазян Владимир Борисович
доцент кафедры безопасности информационных
систем Санкт-Петербургского государственного
университета телекоммуникаций имени
проф.М.А.Бонч-Бруевича
Ведущая организация
Научно-исследовательский институт
измерительных приборов
ОАО «НИИ ЭЛЕКТРОМЕРА»
Защита состоится «17» декабря 2014 года в 15 час. 50 мин. на заседании
диссертационного совета Д.212.227.05 при Санкт-Петербургском национальном
исследовательском университете информационных технологий механики и
оптики (НИУ ИТМО) по адресу: 197101, Санкт-Петербург, Кронверкский пр.,
д.49.
С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского
национального исследовательского университета информационных технологий
механики и оптики.
Автореферат разослан «16» октября 2014 года.
Ученый секретарь
диссертационного совета
Д.212.227.05
кандидат технических наук,
доцент
Поляков В.И.
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность
Одной из важных задач в теории защиты информации является задача
идентификации пользователя в сети Интернет.
Идентификация – это присвоение субъектам и объектам доступа
идентификатора и (или) сравнение предъявляемого идентификатора с перечнем
присвоенных идентификаторов.
Идентификация является защитным механизмом автоматизированных
систем, который применяется в сфере обеспечения информационной
безопасности при взаимодействии пользователей и ИС. Она может быть
использована для предварительной настройки уровня политики безопасности в
системах информационной безопасности (ИБ): системах обнаружениях
вторжений, подсистемах управления идентификацией и доступом IAM (Identity
and Access Management) и имитационных ресурсах Honeypot.
Для web-ресурсов характерны ситуации, когда не предусматривается
процедура аутентификации, либо один пользователь может создавать
несколько идентификаторов, что является фактором, понижающим степени
достоверности при подсчете статистики посещения сайта или голосовании
пользователями. В этом случае уникальность пользователя определяется только
за счет идентификатора пользователя.
В современных автоматизированных системах, основанных на
компьютерных технологиях, известны методы идентификации, построенные на
хранении IP-адресов компьютеров и записи на компьютер пользователя данных
cookie.
Достоинством первого из указанных методов является глобальная
уникальность адреса. К недостаткам данного метода относится широкая
распространенность динамических IP-адресов, выделяемых из пула провайдера
в момент подключения пользователя, а также возможность использования в
сети прокси-серверов, анонимайзеров и механизма Network Address Translation
(NAT), что снижает степень достоверности идентификации пользователя.
Механизм cookie стал применяться на более поздних этапах и
представляет собой совокупность данных в определенном формате, которые
сервер оставляет на компьютере пользователя. Достоинством данного метода
является повышение удобства использования сайта за счет отслеживания
состояния сессии доступа и включения в cookie настроек профиля. Недостатки
данного метода основаны на привязке cookie к конкретному браузеру, что
снижает достоверность идентификации при использовании нескольких
браузеров. Низкая степень достоверности идентификации, основанной на
технологиях cookie, обусловлена также возможностью подмены и/или
уничтожения cookie либо отключением самого механизма.
Также известен способ идентификации, основанный на семантикосинтаксическом анализе. Результаты, основанные на данном методе, имеют
высокую степень достоверности, однако он имеет ряд недостатков, таких как
4
трудоѐмкость, высокие временные и экономические затраты, необходимость
поддерживать и актуализировать лингвистические базы данных.
Таким образом, для распространенных методов идентификации общим
недостатком является низкая степень достоверности идентификации либо
необходимость создания специализированных семантико-синтаксических и
морфологических анализаторов. Указанные недостатки привели к появлению
технологий идентификации, основанных на анализе рабочей среды
пользователя во время сеанса обмена данными между браузерами и webсервером. Идентификатором в данном случае является служебная информация,
которая, с одной стороны, представляет злоумышленнику
меньше
возможностей для искажений и/или подмены, а, с другой стороны, обладает
меньшей уникальностью по сравнению с механизмами cookie и IP, что
приводит к уменьшению степени достоверности идентификации. Поэтому
задача разработки метода идентификации с использованием компонентного
профиля, представляющего собой кортеж наиболее информативных данных о
рабочей среде пользователя, является актуальной.
Цель работы
Целью
работы
является
повышение
степени
достоверности
идентификации пользователя в сети Интернет за счет использования
вспомогательной информации о компьютере пользователя.
Научная задача
Научная задача состоит в разработке научно-методического аппарата,
позволяющего идентифицировать пользователя в сети Интернет посредством
анализа служебной информации, получаемой в процессе взаимодействия с webсервером.
Для достижения поставленной цели в работе решаются следующие
частные задачи:
1. Провести анализ предметной области, изучить существующие
подходы к идентификации пользователя, выявить перспективные направления.
2. Определить пространство доступных признаков из состава служебной
информации, характеризующей рабочую среду пользователя.
3. Определить наиболее информативные признаки для формирования
компонентного профиля пользователя.
4. Обосновать метод сравнения компонентных профилей с имеющимися
данными, обеспечивающий наиболее высокие показатели качества.
5. Провести вычислительный эксперимент.
В соответствии с заявленными целями и задачами работы объектом
исследования является идентификация пользователя в сети Интернет, а
предметом исследования — способы идентификации пользователя в сети
Интернет.
5
Основные положения, выносимые на защиту
На защиту выносятся следующие основные результаты:
1. Метод формирования
компонентного профиля пользователя,
обладающего наиболее информативными признаками из состава доступной
служебной информации, состоящий в применении и обосновании
статистически значимых коэффициентов при кортеже служебных данных.
2. Метод сравнения компонентных профилей с имеющимися данными,
позволяющий обеспечивать степень достоверности большую, чем у известных
методов.
3. Способ использования компонентного профиля пользователя в
качестве вспомогательного метода идентификации в системах защиты
информации, что позволит ввести дополнительную процедуру настройки
уровня политики безопасности.
Научная новизна работы
Научную новизну диссертации составляют:
1. Метод
выявления
наиболее
информативных
признаков,
характеризующих среду пользователя, отличающийся от известных
использованием линейной регрессионной модели на признаковом
пространстве.
2. Обоснованный метод сравнения компонентных профилей с
имеющимися данными, отличающийся наиболее высокими показателями
качества идентификации (быстродействием и надежностью) за счет алгоритма
прямого сравнения с эталоном.
3. Предложенный способ, позволяющий, в отличие от известных,
осуществлять предварительную настройку уровня безопасности СЗИ на
основании выявления пользователей с различными степенями доверия на
основе проверки статистических гипотез о принадлежности запроса к
ненадежному или надежному адресу.
Обоснованность и достоверность
Обоснованность и достоверность полученных результатов достигается
использованием апробированного математического аппарата; системным
анализом описания объекта исследований, учетом сложившихся практик и
опыта в области ИБ; проведением сравнительного анализа с существующими
методами, результатами экспериментов. Подтверждается непротиворечивостью
полученных результатов моделирования теоретическим положениям;
практической
апробацией
в
деятельности
научно-производственных
организаций и одобрением на научно-технических конференциях.
Практическая значимость работы
Практическая значимость работы состоит в следующих аспектах:
результаты исследований могут быть использованы для усовершенствования
6
систем информационной безопасности путем выставления адаптивного порога
проверки при обнаружении объекта, который был ассоциирован с
нарушителем.
Методологическая основа исследования
Методологическую основу исследования составляют работы в области
информатики и информационной теории идентификации: труды К.Шеннона,
Я.З.Цыпкина, а также проекты:Panopticlick, проведенный Electronic Frontier
Foundation,и TOR (свободное ПО, позволяющее при помощи «луковой
маршрутизации» устанавливать анонимное сетевое соединение), направленные
на вопросы идентификации пользователей в сети Интернет.
При решении частных задач использовались теоретические положения
теории вероятности, математической статистики, теории ИБ и методов защиты
информации.
Использованы энциклопедическая и справочная литература, материалы
периодической печати, Интернет-ресурсы.
Реализация результатов
Полученные модели и методы реализованы в рамках НИР, выполняемых
НИУ ИТМО по заказу Министерства образования и науки, а также в рамках
программы «Инфотекс Академия 2011».
Апробация работы
Основные результаты работы представлялись на следующих
конференциях:
VIII Всероссийская межвузовская конференция молодых ученых;
I Межвузовская научно-практическая конференция «Актуальные
проблемы организации и технологии защиты информации»;
Юбилейная XIIIСанкт-Петербургская международная конференция
«Региональная информатика (РИ-2012)»;
XLIIнаучная и учебно-методическая конференция НИУ ИТМО.
Публикации
По результатам диссертационного исследования опубликовано 6 работ,
из них статей в журналах, рекомендованных ВАК РФ –2.
Структура и объем работы
Диссертационная работа содержит введение, 3 раздела, заключение,
список литературы. Объем работы составляет 116 страниц.
7
СОДЕРЖАНИЕ
Во введении обоснована актуальность выбранной темы исследования;
определены цель, задача и вопросы исследования; раскрыты принципы
используемых подходов и методики; показана научная новизна и практическая
значимость диссертации, сформулированы положения, выносимые на защиту;
приведены сведения об апробации результатов исследования.
В первой главе проведен анализ современных методов идентификации,
основанных на хранении IP-адресов компьютеров посетителей и записи на
компьютер пользователя данных Cookie, выявлены достоинства и недостатки
данных методов.
Проведен анализ нормативно-методической документации.
Исследованы технологии, позволяющих собирать информацию,
характеризующую рабочую среду пользователя, рассмотрена возможность их
применения для решения задачи идентификации пользователя.
Во второй главе приведен анализ среды сеанса пользователя и способ
формирования признакового пространства, рассмотрена идентификация
пользователя на различных уровнях модели OSI, также определены возможные
подходы, модели и методы формирования компонентных профилей
пользователя и их сравнения с имеющимися данными, а также обоснован метод
идентификации пользователя.
С целью получения статистических характеристик признаков при
подготовке диссертации был осуществлен сбор экспериментальных данных,
который проводился в течение трех месяцев при помощи тестового сайта. Всего
за это время сайт посетило 3,5 млн.человек. Из них для следующего этапа были
отобраны те пользователи, которые посетили сайт не менее двух раз за
исследуемый промежуток времени. Рабочая выборка составила 620 тыс.
человек.
При помощи тестового сайта для каждого посещения пользователя
исследованы следующие данные:
- время посещения;
- эталонный (контрольный) идентификатор пользователя —
пользователь вводил логин и пароль;
- IP-адрес пользователя;
- строка-идентификатор User Agent;
- набор плагинов браузера, предоставляемый при помощи технологии
Javascript;
- информация о браузере и операционной системе, предоставляемая
при помощи технологии Javascript;
- информация о языке операционной системы, предоставляемая при
помощи технологии Javascript;
- разрешение экрана, предоставляемое при помощи технологии
Javascript;
8
список установленных шрифтов, собранный при помощи технологий
ActiveX и Flash.
В соответствии с проанализированными условиями и ограничениями
применения для каждой из технологий, позволяющих идентифицировать
пользователя, а также с недостатками современных существующих способов
идентификации, сделан вывод о необходимости разработки научнометодического аппарата, позволяющего идентифицировать пользователя в сети
Интернет посредством анализа служебной информации, получаемой в процессе
взаимодействия с web-сервером. Для этого необходимо в первую очередь
решить задачу выбора наиболее информативных данных, включаемых в
компонентный профиль пользователя, а также
обосновать метод
идентификации пользователя путем сравнения его полученного профиля с уже
имеющимися данными.
Использованы следующие методы для сбора и обработки статистических
данных и вычисления степени информативности признаков:
1. Метод экспертных оценок (метод Дельфи) на основе группового
мнения для получения качественных оценок и ранжирования признаков по
критерию «трудоемкость подмены».
2. Метод кластерного анализа для подсчета псевдорасстояний между
кортежами признаков, состоящих из категориальных данных.
3. Метод бинарного расстояния между кортежами и между признаками.
При полном совпадении двух признаков либо двух кортежей расстояние
принимается равным 0, иначе — равным 1.
4. Метод регрессионного анализа для выражения зависимости
расстояния между кортежами от расстояния между признаками.
Было приведено сравнение перечисленных методов, проанализированы
границы их применимости и адекватность конкретным условиям задачи.
В результате анализа был сделан вывод о целесообразности
использования регрессионного метода. Этот метод позволил определить вклад
отдельных независимых переменных в зависимую в виде коэффициентов
разложения.
Для
подбора
коэффициентов,
дающих
минимальное
среднеквадратичное отклонение от эталона, в регрессионном анализе
использован метод наименьших квадратов.
Множественный регрессионный анализ (МРА) предназначен для
изучения взаимосвязи одной переменной (зависимой) и нескольких других
переменных (независимых).
Метод регрессионного анализа был использован для вычисления меры
информативности каждого признака. В качестве зависимой переменной было
выбрано расстояние между кортежами, в качестве набора независимых —
набор бинарных расстояний между значениями признаков в отдельности.
Для вычисления меры информативности каждого признака в качестве
зависимой переменной Y было выбрано расстояние между кортежами, в
качестве набора независимых X — набор бинарных расстояний между
значениями признаков в отдельности. Полученные в результате применения
-
9
линейного регрессионного анализа коэффициенты при признаковых
расстояниях и были приняты за коэффициенты информативности для этих
признаков.
Исходным теоретическим положением линейного МРА является
возможность представления значений «зависимой» переменной Y через
значения «независимых» переменных
, ,..., , в виде линейного
уравнения:
(1)
где — свободный член,
..., - коэффициенты регрессии.
Здесь
- вектор размерности (m+1) неизвестных
параметров. Каждый коэффициент регрессии ,
отражает влияние
на условное математическое ожидание
зависимой переменной
Y объясняющей переменной
при условии, что все другие объясняющие
переменные модели остаются постоянными.
свободный член, определяющий значение в случае, когда все
объясняющие переменные равны нулю.
Если число измерений
, то существует бесконечно много
различных векторов параметров, при которых линейная формула связи между X
и Y будет выполняться абсолютно точно. Если число наблюдений n=m+1, то
вектор b рассчитывается единственным образом. При n>m+1 возникает
оценивания параметров
, при которых формула (1) дает наилучшее
приближение для имеющихся измерений.
В нашем случае уравнение регрессии имеет вид:
Наиболее распространенным методом оценки коэффициентов уравнения
множественной регрессии является метод наименьших квадратов (МНК).
Для экспериментальных данных выражение (1) в матричной форме имеет
вид:
Здесь
вектор-столбец значений зависимой
переменной,
вектор-столбец (размерности m+1)
неизвестных коэффициентов регрессии,
векторстолбец случайных отклонений, X-матрица размерности n×(m+1):
10
В этой матрице i-я строка
представляет измерение вектора
значений независимых переменных
; единица соответствует
переменной при свободном члене b_0.
Оценка для вектора b построена так, чтобы вектор оценок зависимой
переменной
минимально (в смысле квадрата нормы разности)
отличался от вектора Y заданных значений:
min
Решением задачи (4), если ранг матрицы X равен m+1, является оценка
Доказана справедливость теоремы Гаусса – Маркова:
В условиях справедливости требований МНК оценка (5) является
наилучшей (в смысле минимума дисперсии) оценкой в классе линейных
несмещенных оценок.
Таким образом, коэффициенты регрессии были вычислены методом
наименьших квадратов из системы из линейных уравнений в соответствии с
требованием (4).
Выходные параметры полученного регрессионного уравнения содержатся
в Таблице 6 Приложения А.
После вычисления регрессионных коэффициентов была осуществлена
проверка статистической гипотезы о значимости коэффициентов регрессии.
Основная гипотеза
об отсутствии линейной связи между Y и совокупностью
факторов X имеет вид
, т.е. это гипотеза об
одновременном равенстве нулю всех коэффициентов при независимых
переменных, кроме коэффициента b_0. Для ее проверки использован
статистический критерий:
так называемая F-статистика Фишера – Снедекора при
и
степенях свободы, где m-число оцениваемых параметров уравнения
регрессии, n-число наблюдений. Если наблюдаемое значение критерия F
меньше критического значения
, вычисленного при уровне значимости
α и степенях свободы
и , то есть
, то верна гипотеза
об
отсутствии линейной связи между зависимой и независимыми переменными.
Если же
, то гипотеза
отвергается и принимается альтернативная
гипотеза
- линейная связь значима на уровне α.
Произведенные расчеты показали: вероятность того, что вычисленное
значение F-критерия Фишера больше F-критического, найденного по таблице
критических точек, чрезвычайно мала.
11
Поэтому сделан вывод о том, что при уровне значимости α=0,05
существует статистически значимая линейная связь между Y и аргументами X.
Таким образом, коэффициенты линейной регрессии (1) являются статистически
значимыми и уравнением регрессии можно воспользоваться для вычисления
меры информативности каждого признака.
Малые величины в колонке «P-значение» (Таблица 6 Приложения А)
показывают, что вероятность сделать ложный вывод на основе регрессионного
уравнения близка к нулю.
Таблица 1 - Расчетная информативность.
Технология
ETag(кэш браузера)
Supercookie
Cookie
Java
IP
Flash
Javascript
ActiveX
CSS
TCP-протокол
Браузерные особенности
Java
Javascript
Javascript
Javascript
Javascript
User Agent
User Agent
Java
User Agent
CSS + History + JS
Javascript
Признак
Идентификатор
Идентификатор
Идентификатор
MAC
IP
Шрифты
Плагины
Шрифты
Параметры экрана
ОС
Браузер
Шрифты
Браузер
Параметры экрана
Часовой пояс
Язык
Браузер
ОС
ОС
Язык, кодировка
Посещенные ссылки
ОС
Информатив-ность
0,8876
0,7583
0,6921
0,5072
0,5054
0,3663
0,3205
0,3101
0,2307
0,1859
0,1181
0,1175
0,0818
0,0698
0,0637
0,0355
0,0290
0,0287
0,0214
0,0096
0,0065
0,0003
Таким образом, полученные в результате регрессии коэффициенты при
признаковых расстояниях были приняты за коэффициенты информативности
для этих признаков.
Для идентификации пользователя по его профилю путем сравнения его с
накопленной базой были проанализированы, сравнены по критериям
быстродействия и достоверности идентификации нижеперечисленные методы:
1. Метод байесовского классификатора
12
2. Метод расчета корреляции
3. Метод расстояния Левенштейна
4. Метод прямого сравнения с эталоном (за степень совпадения
принимается количество совпадающих признаков).
Из анализа результатов следует:
1. Метод
байесовского
классификатора
показал
наибольшую
достоверность из представленных методов, но вместе с тем и крайне
длительное время работы, которое с ростом базы пользователей будет
увеличиваться экспоненциально.
2. Метод расчета корреляции предполагает вычисление расстояния между
ближайшими точками объекта и эталона, из-за чего в конкретной задаче он
часто выдает ложные результаты, считая разность между значениями
различных признаков. Кроме того, он не применим в условиях чисто
категориальных данных.
3. Метод расстояния Левенштейна применим к категориальным
(строковым) данным, но показал малую степень достоверности по результатам
эксперимента.
4. Метод прямого сравнения с эталоном показал результаты, по
достоверности сравнимые с байесовским классификатором, при этом являясь
самым быстродействующим из представленных методов. Кроме этого, он
подходит для расчета бинарных расстояний между признаками. Именно он и
был использован при идентификации пользователей.
Используемое в качестве критерия идентификации пользователей
регрессионное уравнение для псевдорасстояния между двумя кортежами
признаков имеет вид:
где
и
— кортежи признаков,
ыми признаками из кортежей,
признака.
— бинарное расстояние между i-
— коэффициент информативности i-ого
За соответствующий эталону профиль принимается профиль с
минимальным значением Score (эталон, профиль). При этом установлен
эмпирический порог
=3,47, при превышении которого эталон
считается не подходящим ни к одному профилю. В этом случае создается
новый профиль.
Таким образом, во втором разделе диссертации на основании анализа
статистических данных и сравнения возможных методов получены следующие
результаты:
1. Разработан метод формирования компонентного профиля, основанный
на использовании коэффициентов регрессии в качестве показателей
13
информативности. Метод позволяет выбрать наиболее информативные
признаки из состава служебной информации.
2. Обоснован метод прямого сравнения с эталоном для идентификации
пользователя по его профилю путем сравнения его с накопленной базой,
обеспечивающий наиболее высокие показатели качества: быстродействия и
степени достоверности.
Полученные результаты подтверждены экспериментально.
В
третьей
главе
для
проверки
полученных
показателей
информативности был проведен вычислительный эксперимент.
Целью эксперимента являлось определение зависимости степени
достоверности идентификации от количества признаков, включенных в
профиль пользователя. Для эксперимента был взят полный кортеж признаков,
описанный в Таблице 1. При помощи этого кортежа проводилось сравнение
эталонов с пользовательскими профилями, полученными в результате сбора
статистики. После этого суммарная информативность уменьшалась за счет
удаления
из
кортежа
признаков
с
рассчитанной
наибольшей
информативностью, затем с наименьшей информативностью.
Эксперимент
показывает
зависимость
степени
достоверности
идентификации от количества и качественного состава признаков, включенных
в профиль пользователя.
По результатам эксперимента сделан вывод о том, что наиболее
информативными признаками следует считать идентификаторы, полученные с
помощью технологий ETag (информативность = 0,888), Supercookie
(информативность = 0,758). Как было указано ранее, для них характерна
высокая степень уникальности и трудоемкости подмены. Признаки с меньшей
информативностью — Cookie (информативность = 0,692), MAC-адрес
(информативность = 0,507) и IP-адрес (информативность = 0,505) — также
обладают высокой степенью уникальности, однако их подмена является менее
затратной для злоумышленника
Таким образом, можно считать целесообразным использование в кортеже
признаков восьми наиболее информативных: ETag, Supercookie, Cookie, MAC,
IP, шрифты через Flash, плагины, шрифты через ActiveX. По сравнению с
Cookie, данный кортеж обеспечивает в 6,3 раза большую степень достоверности
(4,35 против 0,69).
Для подтверждения достижения цели диссертации был проведен
сравнительный анализ разработанного метода идентификации с методом,
используемым Electronic Frontier Foundation, который также основан на анализе
служебной информации. Метод построен на вычислении количества энтропии.
Энтропия использована в указанном методе для оценки признаков
профиля пользователя. Значения энтропии отдельных признаков, которые
приводит исследование, сделанное Electronic Frontier Foundation, отображены в
таблице 2.
14
Таблица 2 - Количество энтропии информативных признаков по данным
Electronic Frontier Foundation
Наименование признака
Заголовок Http UserAgent
Список установленных
плагинов
Список установленных
шрифтов
Поддержка supercookies
Заголовок Http Accept
Временная зона
Включенность cookies
Энтропия, бит
10.0
15.4
13.9
2.12
6.09
3.04
0.35
Для сравнительного анализа методов, основанных на регрессионном
анализе и энтропийном подходе, был проведен эксперимент с целью
вычисления степени достоверности идентификации и времени работы. В
качестве результатов эксперимента получена оценка быстродействия работы
двух кортежей, а также зависимость количества идентифицированных
пользователей от уровня шума для обоих кортежей. Под шумом понимаются
намеренно или случайно искаженные данные, которые не могут служить
основой для идентификации.
Эксперимент показал, что полученное быстродействие обоих методов
отличается незначительно. При использовании признакового кортежа время
увеличивается на 2,9%. При внесенном шуме, составляющем 89%, оба подхода
показали одинаковую степень эффективности. Однако, при внесенном шуме
более 90% энтропийный подход резко ухудшает свои результаты и при 95%
шума может идентифицировать менее 10% пользователей, тогда как метод
идентификации, предложенный в работе, позволяет идентифицировать в 6 раз
больше пользователей и субъектов информационных процессов.
Таким образом, заключено, что для агрессивной среды более
подходящим для использования является предложенный нами метод, так как он
показал более высокую степень достоверности. Под агрессивной средой
понимается среда, где пользователи стремятся фальсифицировать
идентификацию или затруднено получение наиболее информативных
признаков. Для неагрессивной среды представляется возможным использовать
энтропийный подход, так как он более быстродействующий. Однако следует
учитывать, что разница в быстродействии подходов незначительна.
В качестве практической реализации приводится способ применения
результатов работы в качестве вспомогательного механизма в подсистемах
сбора данных ресурса Honeypot.
Honeypot (на примере ПО «Honeypot Manager») представляет собой
проактивное
средство
обнаружения
хакерских
вторжений
и
15
несанкционированного доступа к информации, основанное на имитации
данных и анализе обращений пользователей к имитируемым прикладным
программам и сетевым сервисам.
На данный момент идентификация потенциального нарушителя,
находящегося вне локальной сети производится по IP-адресу, что снижает
степень
достоверности
идентификации.
Модуль
идентификация
потенциального злоумышленника на основе использования компонентного
профиля пользователя может быть реализован в подсистеме генерации отчетов.
В дальнейшем информация, полученная системой генерации отчетов при
помощи модуля идентификации, может быть использована для дополнительной
настройки уровня политики безопасности в реальной системе, то есть вне
ресурса Honeypot.
При использовании имитационной системы Honeypot накапливается база
данных кортежей потенциальных злоумышленников. Далее, для того, чтобы
настроить уровень политики безопасности на реальном ресурсе, предлагается
использовать следующую модель.
Необходимо собрать статистику посещения для данного вида сайта.
Гипотезы, которые могут быть при поступлении данных из источника на вход
ИС:
Θ1 – запрос пришел из надежного источника
Θ2 – запрос пришел из ненадежного источника
Допустим, что из анализа функционирования сайтов известно, что
надежных источников – а%, ненадежных источников – b%. Для того, чтобы
отнести запрос к первой группе (доверенные источники), необходимо выбрать
критерий в соответствии с которым будет принято решение об отнесении
источника к той или иной группе. Например, для интернет-магазинов,
надежным источником можно считать пользователей, которые регулярно
делают покупки. Для социальных сетей: ненадежным источником можно
учетную запись пользователя, которая попадает в «бан» (черный список) по
причине подозрительной деятельности (например, рассылки спама).
Таким образом, вероятность того, что запрос пришел
из надежного источника:
из ненадежного источника:
Очевидно, что
16
Далее необходимо выделить совпадение либо несовпадение признаков у
запросов из надежных и ненадежных источников с кортежем, полученным при
сборе статистических данных системы Honeypot.
Каждый запрос имеет признаки, входящие в кортеж:
: ETag,
Supercookie, Cookie, MAC, IP, шрифты черезFlash, плагины, шрифты
черезActiveX.
Пример: кортеж признаков случайного пользователя.
– априорная вероятность того, что источник надежен, полученная
как отношение количества надежных источников к полному количеству
источников;
– соответственно, что источник ненадежен.
– априорная вероятность того, что j-ый признак совпадает с
honeypot-кортежем у ненадежного источника. Соответственно,
- у
надежного.
В качестве примера рассмотрим следующие численные значения
вероятностей (Таблица 3):
Таблица 3 - Численные значения вероятностей
1
2
=0.85
0,02
0,01
0,16
0,01
0,47
0,13
0,29
0,11
0,98
0,99
0,84
0,99
0,53
0,87
0,71
0,89
=0.15
0,17 0.83
0,03 0.97
0,34 0.66
0,01 0.99
0,52 0.48
0,14 0.86
0,28 0.72
0,11 0.89
x – вектор наблюдаемых значений, которые показывают
изменение
признаков. Используем формулу Байеса для двухклассовой классификации:
– потери от ошибочной классификации: пользователя из класса
надежного источника отнесли к классу ненадежных (false positive).
– потери от ошибочной классификации: пользователя из класса
ненадежного источника отнесли к классу надежных (false negative).
Величина в правой части выражения является постоянной и может быть
вычислена один раз для конкретной системы.
Для примера:
= 20
17
=100
Вычислим правую часть (пороговую величину):
Определим вероятность надежности источника, если у него совпадают c
кортежем, полученным при помощи ресурса Honeypot, 1,3,5 признаки:
Таким образом, вероятность составила 0,53.
Поскольку вычисленная вероятность не превосходит порог, можем
отнести источник к надежному.
Анализируя статистические данные, мы можем сделать вывод о
возрастании или убывании вероятности того, что источник надежен. Это
позволит оптимизировать время работы системы, так как можно будет
варьировать степень проверки нового запроса в зависимости от выставляемого
уровня безопасности.
Модуль идентификация потенциального злоумышленника на основе
использования компонентного профиля пользователя может быть реализован в
подсистеме генерации отчетов. В дальнейшем информация, полученная
системой генерации отчетов при помощи модуля идентификации, может быть
использована для дополнительной настройки уровня политики безопасности в
реальной системе, то есть вне ресурса Honeypot.
В заключении сформулированы полученные результаты.
18
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Применение приведенных методов позволяет увеличить степень
достоверности идентификации пользователя в сети Интернет, что дает
возможность использовать результаты для автоматизированной оптимизации
систем обнаружения вторжений при выставлении адаптивного порога
проверки, а также для выявления потенциального злоумышленника в сети
Интернет.
2. Исследованы технологии, позволяющие собирать информацию,
характеризующую рабочую среду пользователей, рассмотрена возможность их
применения для решения задачи идентификации пользователей.
3. Описан сбор экспериментальных данных с целью получения
статистических характеристик признаков.
4. Проанализированы условия и ограничения применения для каждой из
технологий.
5. Приведен анализ методов для сбора и обработки статистических
данных и вычисления информативности признаков.
6. Выбран метод выявления наиболее информативных признаков,
характеризующих среду пользователя, отличающийся от известных
использованием линейной регрессионной модели на признаковом
пространстве. С помощью применения данного метода были выбраны наиболее
информативные признаки, характеризующие рабочую среду пользователя.
7. Обоснован метод сравнения компонентных профилей с имеющимися
данными, отличающийся наиболее высокими показателями качества
идентификации (быстродействием и надежностью) за счет алгоритма прямого
сравнения с эталоном.
8. Приведен
сравнительный
анализ
разработанного
метода
идентификации с методом, используемым Electronic Frontier Foundation,
который также основан на анализе служебной информации.
9. Получены временные характеристики работы двух кортежей, а также
зависимость количества идентифицированных пользователей от уровня шума
для обоих кортежей.
10. Сформулированы полученные результаты и приведены основные
направления, где они могут быть использованы.
Даны рекомендации по
практическому применению метода идентификации пользователя на основе
анализа служебной информации в качестве вспомогательного механизма в
подсистемах сбора данных ресурса Honeypot.
19
СПИСОК ПУБЛИКАЦИЙ
Статьи, изданные в научных журналах, рекомендованных ВАК:
1. Бессонова Е. Е., Зикратов И. А., Колесников Ю. Л., Росков В. Ю. Способ
идентификации пользователя в сети Интернет // Научно-технический
вестник информационных технологий, механики и оптики. − 2012. −
Вып.3. − С. 133-137. – 0,3125 п.л. / 0,0781 п.л.
2. Бессонова Е. Е., Зикратов И. А., Росков В. Ю. Анализ способов
идентификации пользователя в сети Интернет // Научно-технический
вестник информационных технологий, механики и оптики. − 2012. − Вып.
6. − С. 128-129. – 0,125 п.л. / 0.0417 п.л.
Статьи, изданные в других научных журналах и изданиях:
1. Бессонова Е.Е. Формирование компонентного профиля для
идентификации пользователей в сети Интернет // Труды I межвузовской
научно-практической конференции ―Актуальные проблемы организации
и технологии защиты информации‖. - СПб: СПбНИУ ИТМО, 2011. –
С.35-38. – 0,25 п.л.
2. Бессонова Е.Е. Анализ способов идентификации пользователей в сети
Интернет // Труды II межвузовской научно-практической конференции
―Актуальные проблемы организации и технологии защиты информации‖.
- СПб: СПбНИУ ИТМО, 2012. – С.16-18. – 0,1875 п.л.
3. Бессонова Е.Е. Анализ способов идентификации пользователей в сети
Интернет // Сборник тезисов докладов конференции молодых ученых.
Вып. 1. – СПб: СПбГУ ИТМО, 2011. – С.193. – 0,0625 п.л.
4. Бессонова Е.Е. Анализ способов идентификации пользователя в сети
Интернет// Юбилейная XIII Санкт-Петербургская международная
конференция «Региональная информатика (РИ-2012)». Санкт-Петербург,
24-26 октября 2012 г.: Материалы конференции. \СПОИСУ. – СПб, 2012.
– с.28. - 0,0625 п.л.
Документ
Категория
Без категории
Просмотров
32
Размер файла
568 Кб
Теги
компонентной, метод, использование, сети, идентификация, профиль, интернет, пользователя
1/--страниц
Пожаловаться на содержимое документа