Министерство образования и науки Российской Федерации
Министерство образования Саратовской области
Национальный исследовательский Саратовский государственный университет имени Н.Г. Чернышевского
Саратовский областной институт развития образования
Комитет по информатизации Саратовской области
Комитет по образованию администрации муниципального образования «Город Саратов»
Автономная некоммерческая организация «Информационные технологии в образовании»
Автономная некоммерческая организация «Научно-исследовательский центр «Образование. Качество. Отрасль»»
IX Всероссийская (с международным участием) научно-практическая конференция
«Информационные технологии в образовании»
«ИТО-Саратов-2017»
2-3 ноября 2017 года, г. Саратов

Преподавание информационных технологий обработки больших данных (Data Mining, Machine Learning) студентам направлений подготовки, связанных с обработкой информации и данных

Авторы: Симонов Владимир Львович 1, Кандидат технических наук, Доцент, Медаль "За трудовую доблесть", Храпченко Марина Валерьевна 2, Мартишин Сергей Анатольевич 2, Кандидат физико-математических наук
1 Российский государственный социальный университет, 2 Институт системного программирования РАН
Рассмотрены основные методы и алгоритмы извлечения информации, включая статистические методы, искусственные нейронные сети, генетические алгоритмы, нечеткая логика и др. при изучении студентами тематики обработки больших данных (Data Mining, Machine Learning). Отмечена значимость обработки больших данных в цифровой экономике, электронной коммерции, централизованном кадровом делопроизводстве.

В последние годы фирмами, компаниями, предприятиями, поставщиками медиа-услуг, государственными службами и т.д. в связи со своей деятельностью накоплен значительный объем данных, подчас разнородных и неструктурированных, на разных типах носителей, с разными способами хранения, и т.д. При этом необходимо, чтобы накопленные данные приносили пользу, например, фирмам – прибыль, государственным службам, полиции – оперативные и архивные сведения различного характера, банковскому сектору – данные о возможности выдачи кредитов и т.п.

Предполагается, что накопленные данные уже содержат в себе полезную информацию, например, о «классическом портрете» кредитоспособного заемщика – частного лица, которая может быть получена путем анализа множества положительных кредитных историй. Такая информация необходима для последующей эффективной работы банков, однако её необходимо выявить из накопленных данных (среди которых есть и важные, и второстепенные). Указанное выявление («добыча») полезной информации из массы накопленных данных получило название «Data Mining».

Необходимость решения поставленной перед вузами задачи координации образовательных программ с запросами работодателей приводит к вводу в учебные дисциплины разделов знакомства с методами Data Mining, Machine Learning, актуальными для промышленности и работодателей. Указанное напрямую относится к таким направлениям подготовки и специальностям, как информационные системы и технологии, информатика и вычислительная техника, информационная безопасность, программная инженерия и ряду других.

Термин Data Mining часто переводится как «добыча» или «раскопка данных», что характеризует систему поиска закономерностей в данных и, возможно, прогнозирования тенденций их проявления. Чаще всего используется определение, данное одним из основоположников данного направления Г. Пятецким-Шапиро (G. Piatetsky-Shapiro): «Data Mining - это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности».

Синоним Data Mining – knowledge discovery in databases "обнаружение знаний в базах данных" - акцентирует внимание на необходимости не просто извлечения, но и анализа информации, содержащейся в базах данных. Заметим, что термин "сырые", характеризующий данные в определении, отражает не то, что данные не структурированы, а именно то, что из них не извлечена полезная информация, поскольку процесс извлечения и анализа информации является достаточно трудоемкими обычно требуется использование больших вычислительных мощностей.

Среди возможных областей применения: страхование и банковское дело (разработка тарифных планов и выявление мошенничества), медицина (для выявления закономерностей при постановке диагноза и назначении лечения), демография, анализ покупательской корзины и построение прогнозирующих моделей потребления. Сфера применения методов Data Mining не ограничена вышеуказанными областями, методы можно применять в любой области, где имеются данные.

Связанные друг с другом события (ассоциация), последовательность связанных друг с другом событий, классификация (отнесение объекта к некоторому классу), кластеризация (выявление однородных групп данных) и прогнозирование - стандартные типы закономерностей, выявляемые при помощи методов Data Mining.

Существуют различные алгоритмы, которые применяются в Data Mining, например, деревья решений, создающие иерархическую структуру правил вида "если ..., то...", алгоритмы ограниченного перебора, искусственные нейронные сети (ИНС), генетические алгоритмы, алгоритмы нечеткой логики и пр. [1].

Генетический алгоритм (простая модель эволюции в природе, реализованная в виде алгоритма) в основном используется для решения комбинаторных задач и задач оптимизации. Алгоритм состоит в поиске максимума некоторой целевой функции, в общем случае зависящей от нескольких переменных. В алгоритме используются как аналог механизма генетического наследования, так и аналог естественного отбора, а также биологическая терминология. Пусть особь - это некоторое решение задачи. Она считается тем более приспособленной, чем лучше соответствующее решение (чем больше значение целевой функции). Тогда, выбирая наиболее приспособленную особь в текущем поколении, можно получить не абсолютно точный, но близкий к оптимальному ответ. Особи наделяются хромосомами.

Алгоритм имитирует эволюцию популяции особей как циклический процесс отбора и скрещивания хромосом (вектор, содержащий набор значений) и смены их поколений, который продолжается до тех пор, пока не произойдет смена заданного числа поколений или не выполнится иной критерий остановки. В течение жизни популяции происходят случайные скрещиваний (операция кроссовера, при которой две хромосомы обмениваются своими частями) и мутации (случайное изменение одной или нескольких позиций в хромосоме) [2].

Искусственные нейронные сети, изучаемые студентами в ряде дисциплин, связанных с основами искусственного интеллекта, также могут быть с успехом применены для задач Data Mining. ИНС являются упрощенными моделями биологических нейронных сетей мозга живых существ, причем в указанных моделях с помощью большого числа параллельно работающих достаточно простых вычислителей «синапс (умножитель) - сумматор - пороговый элемент» с высокой скоростью решаются достаточно сложные задачи. Среди указанных задач - классификация, кластеризация, поиск закономерностей, ассоциаций и др. В частности, самоорганизующиеся карты (сети Кохонена) позволяют улучшить понимание структуры данных, что поможет эффективнее проводить разведочный анализ данных, обнаружение новых явлений и т.д. Другими примерами решаемых ИНС задач являются предсказание объемов продаж изделий, предоставление услуг, показатели биржевого рынка и т.д. [1].

Деревья решений (decision trees) являются одним из наиболее наглядных и мощных методов анализа данных в плане изучения взаимосвязи одной зависимой и несколькими независимыми переменными (предикторами). Этот метод позволяет устанавливать указанную взаимосвязь не при помощи прогнозного уравнения (в отличие от регрессионного анализа), а при помощи иерархической сегментации данных, образующих древовидную структуру. Деревья решений основаны на машинном обучении.

Основные типы деревьев решений по типу их применения следующие.

Дерево классификации используется для отнесения объектов к одному из заранее известных классов и возникает в том случае, когда прогнозируется вероятность значения категориальной зависимой переменной по соответствующим значениям предикторов.

Дерево регрессии возникает в том случае, когда необходимо спрогнозировать среднее значение количественной зависимой переменной по соответствующим значениям предикторов.

Для построения дерева берется весь обучающий набор данных, производится разбиение на два или более узлов таким образом, чтобы наблюдения, попавшие в разные узлы максимально различались по зависимой переменной [3]. В качестве правил разбиения, максимизирующих эти различия, выступают значения независимых переменных.

Для построения нижележащих узлов дерева (в случаечаще используемых нисходящих деревьев) необходимо в каждом узле данного уровня найти такой критерий разбиения множества статистических данных, связанных с этим узлом, чтобы получившиеся подмножества состояли из элементов одного класса. Качество разбиения оценивается при помощи статистических критериев. Процесс разбиения продолжается до появления терминальных узлов (узлов, не подлежащих разбиению в дальнейшем). Анализ терминальных узлов дерева позволяет найти оптимальный ответ.

Упомянутое выше машинное обучение, как часть Data Mining, используется в случаях, когда неизвестно, как конкретно описывается алгоритм для решения некоторой задачи. В машинном обучении разрабатываются методы построения алгоритмов, способных обучаться, на основе исследования решений множества сходных задач, поэтому здесь используются методы теории вероятностей, математической статистики, численные методы, методы оптимизации, теория графов, а также работа с данными, представленными в цифровой форме. Среди решаемых задач - обработка визуальной информации, распознавание речи и ряд других. В постановке задачи машинного обучения (например, обучение по прецендентам) имеется достаточно много общего с методами искусственных нейронных сетей («обучающие выборки», «обучение с учителем», «обучение без учителя» и др.).

Современные статистические пакеты предлагают различные элементы Data Mining, хотя и основываются на традиционных методах корреляционного, регрессионного и факторного анализа [4].

Обработка больших данных является необходимыми инструментом в эпоху Цифровой экономики. В работах Хицкова Е.А. рассматриваются вопросы развития образовательных систем в условиях глобализации. Особенное значение отдается цифровому образованию. Ключевым моментом является введение в терминологию ИТ таких понятий, как цифровая экономика, цифровое образование, цифровая культура и т.д. Хицков Е.А. дает следующее определение цифровой экономики:«Цифровая экономика – система общественных отношений включающих производство, распределение, обмен и потребление необходимых обществу цифровых благ, включая продукты и услуги» [5]. Исследования в области использования  методов Data Mining и их значимости для социально-экономических системы отражены в работах коллектива авторов Веретехина С.В., Медведева А.В., Карягина Т.В. [6]. В работах Медведевой А.В. рассматриваются риски применения технологий BigData [7, 8]. Проведены исследования в области выявления проблем вхождения населения в цифровое пространство и определения доверия населения к использованию интеллектуальных информационных систем в управлении [9]. 

Таким образом, изучение студентами информационных технологий обработки больших данных (Data Mining, Machine Learning) актуально и соответствует современной тенденции координации образовательных программ вуза с запросами работодателей.

Список использованных источников
  1. Свиридов А.П., Симонов В.Л., Алкадарский С.А. и др. Нечёткие и нейро-нечёткие системы и технологии. Учебное пособие. 2-е издание, дополн. и перераб. (гриф УМО) / М.: Изд. РГСУ, 2011. – 110 с.
  2. Кузюрин Н.Н., Мартишин С.А., Храпченко М.В., Генетические алгоритмы в задаче поиска часто встречающихся комбинаций, Труды института системного программирования РАН, том 6, 2004, с. 109-126.
  3. Груздев А.В.Прогнозное моделирование в IBM SPSS Statistics и R. Метод деревьев решений, Изд-во: "ДМК-Пресс", 2016 г., 276 с. ISBN: 978-5-97060-456-4.
  4. Управление знаниями. Технологии управления знаниями [Электронный ресурс]. URL: https://sites.google.com/site/upravlenieznaniami/tehnologii-upravlenia-znaniami/data-mining#TOC--4 (дата обращения: 22.09.2017).
  5. Бочков В.Е, Исаев С.Н, Хицков Е.А. Проекты массовых открытых он-лайн курсов как элемент глобальной конкуренции за человеческие ресурсы // Новые образовательные технологии в вузе. Сборник тезисов докладов участников конференции. редактор: А.В. Поротникова. 2014. С. 240-248.
  6. Веретехина С.В., Медведева А.В., Карягина Т.В. Социально-экономическое обоснование рынка систем электронного документооборота в регионах РФ // Конкурентоспособность в глобальном мире: экономика, наука, технологии. 2017. № 3-3 (34). С. 19-25.
  7. Медведева А.В. Электронная коммерция в предпринимательской деятельности // Диссертация на соискание ученой степени кандидата экономических наук. Москва. -2004. -136c.
  8. Шилкина А.А., Веретехина С.В., Медведева А.В. Централизация кадрового делопроизводства. Единая кадровая система // Интернаука: научный журнал. - 2017. - № 3-1 (7). С. 12-13.
  9. Eugene A. Khitskov, Svetlana V. Veretekhina, Alla V. Medvedeva, Olga L. Mnatsakanyan, Elena G. Shmakova, Andrew Kotenev. Digital Transformation of Society: Problems Entering in the Digital Economy // Eurasian J Anal Chem 2017;12(A Multidisciplinary Approach to science 5b):855–873.
Вид представления доклада  Публикация
Ключевые слова  ОБУЧЕНИЕ СТУДЕНТОВ; ОБРАБОТКА БОЛЬШИХ ДАННЫХ; DATA MINING, MACHINE LEARNING; АЛГОРИТМЫ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ

В статусе «Черновик» Вы можете производить с тезисами любые действия.

В статусе «Отправлено в Оргкомитет» тезисы проходят проверку в Оргкомитете. Статус «Черновик» может быть возвращен тезисам либо если есть замечания рецензента, либо тезисы превышают требуемый объем, либо по запросу участника.

В статусе «Рекомендован к публикации» тезис публикуется на сайте. Статус «Черновик» может быть возвращен либо по запросу участника, либо при неоплате публикации, если она предусмотрена, либо если тезисы превышают требуемый объем.

Статус «Опубликован» означает, что издана бумажная версия тезиса и тезис изменить нельзя. В некоторых крайне редких ситуацих участник может договориться с Оргкомитетом о переводе тезисов в статус «Черновик».

Статус «Отклонен» означает, что по ряду причин, которые указаны в комментариях к тезису, Оргкомитет не может принять тезисы к публикации. Из отклоненных тезис в «Черновики» может вернуть только Председатель программного или председатель оргкомитета.