Министерство образования и науки Российской Федерации
Министерство образования Саратовской области
Национальный исследовательский Саратовский государственный университет имени Н.Г. Чернышевского
Саратовский областной институт развития образования
Комитет по информатизации Саратовской области
Комитет по образованию администрации муниципального образования «Город Саратов»
Автономная некоммерческая организация «Информационные технологии в образовании»
Автономная некоммерческая организация «Научно-исследовательский центр «Образование. Качество. Отрасль»»
IX Всероссийская (с международным участием) научно-практическая конференция
«Информационные технологии в образовании»
«ИТО-Саратов-2017»
2-3 ноября 2017 года, г. Саратов

Технологии компьютерного зрения в научно-исследовательской работе студента: распознавание почерка

Авторы: Кустова Евгения Олеговна, Огнева Марина Валентиновна, Кандидат физико-математических наук
ФГБОУ ВПО "Саратовский государственный университет имени Н.Г. Чернышевского"

Кластеризация является одной из основных задач машинного обучения и  предназначена для разбиения совокупности объектов на однородные группы (кластеры). Если данные представить как точки, то задача кластеризации сводится к определению "сгущений точек" [1].

Кластеризация  дает возможность провести "разведочный" анализ с целью изучения "структуры" данных и используется для решения различных задач:

·               Выделение сегментов пользователей для проведения рекламных кампаний.

·               Использование кластеров в качестве предикторов (прогностический параметр, средство прогнозирования) в персональных рекомендациях

·               Снижение размерности в любой задаче машинного обучения.

·               Сличение товарных URL между различными интернет-магазинами с целью выявления среди них групп, соответствующих одному и тому же товару.

·               Компактная визуализация.

Кластеризация изображений распознает и анализирует образы,  что позволяет работать с нечеткими объектами. Это повышает эффективность сбора информации, а также позволяет упростить дальнейшую обработку данных и принятия решений [2]. В связи с тем, что в настоящее время данные все чаще переводят в цифровой формат, такой способ работы с информацией будет использоваться все чаще и чаще.

Специалисты по машинному обучению и анализу данных в настоящее время становятся все более востребованными, а, следовательно, есть необходимость во введении соответствующих дисциплин в учебный процесс при подготовке IT-специалистов [3].

На факультете компьютерных наук и информационных технологий Саратовского государственного университета изучение и исследование по данной тематике проходят в рамках курсовых работ и практик. Рассмотрим пример исследовательского проекта, который является частью курсовой работы, а в дальнейшем будет использоваться при проведении технологической практики по машинному обучению для студентов направления «Математическое обеспечение и администрирование информационных систем». Проект посвящен распознаванию почерка и выполняется с использованием средств языка Python. Покажем, как с данной задачей справился один из самых известных методов кластеризации – метод К-средних.

Идея данного метода заключается в разбиении данных на К кластеров путем выбора центроидов и соотнесения к этим центроидам ближайших по схожести данных.

Для анализа схожести почерка методом  К средних на языке Python понадобятся образцы букв разного почерка. В данном случае образцы букв принадлежат 6 людям, причем некоторые буквы написаны одним человеком по-разному.

  

Рисунок 1 – папка images c фотографиями букв.

Для начала возьмем одну букву «н», написанную 4 разными людьми, и методом К средних попробуем разделить на 4 кластера. Как видно на рисунке 2 получились точно 4 кластера и по ним хорошо видно, что почерки отличаются.

  

Рисунок 2 – кластеризация буквы н.

Теперь возьмем две разные буквы, написанных по-разному, и кластеризуем методом К средних на 2 кластера. В результате получили кластеры, отличающиеся только по признакам различия букв. Это значит, что метод определил центроидами именно типы букв, и в соответствии с ними распределил изображения (рисунок 3).

  

Рисунок 3 – кластеризация разных букв.

Усложним задачу. Возьмем только одну букву из всех имеющихся наборов, но зададим разное количество кластеров. На рисунке 4 показан результат кластеризации буквы «х», число кластеров = 2. 

  

Рисунок 4 – кластеризация буквы х, число кластеров =2.

Как видно, в итоге получились кластеры, содержащие буквы х, написанные разным способом. Но если мы оставим эту же букву, но поменяем количество кластеров (например, 5), то результат будет совершенно отличаться (рисунок 5).

  

Рисунок 5 – кластеризация буквы х, число кластеров = 5.

Это означает, что итоговый результат зависит от количества заданных изначально кластеров.

Приведенные примеры показывают, что метод К средних работает довольно точно, однако могут быть исключения. Приведем пример, когда метод К средних может давать погрешности. Возьмем близко похожие по написанию буквы «м» и «ш», зададим 2 кластера и получим результат (рисунок 6.а). 

  

Рисунок 6.а– кластеризация букв «м» и «ш».

Если сравнить буквы с исходными изображениями, то станет понятно, что во втором кластере есть одна буква «м» (рисунок 6.б).

  

Рисунок 6.б – кластеризация букв «м» и «ш».

То есть метод К средних определил ее не в тот кластер, потому что ее схожесть с буквами «ш» была ближе, чем с буквами «м».

Таким образом, метод К средних хорошо справляется с разделением на кластеры разных типов прописных букв, иными словами, - с задачей распознавания букв, написанных разным почерком.

Дальнейшее исследование заключается в рассмотрении других алгоритмов кластеризации для данной задачи и анализе полученных результатов.

Список использованных источников
  1. Задача кластеризации [Электронный ресурс]. – URL: http://www.intuit.ru/studies/courses/6/6/lecture/166?page=4. – Режим доступа: свободный. – Дата обращения: 14.12.2016.
  2. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. — М.: Фазис, 2006.
  3. Ионкин М. С., Огнева М. В. Основы интеллектуального анализа данных для школьников // Информационные технологии в образовании: материалы VIII Международной Научно-практ. конф. – Саратов: ООО «Издательский центр «Наука»», 2016 . – 486 с.
Вид представления доклада  Устное выступление и публикация

В статусе «Черновик» Вы можете производить с тезисами любые действия.

В статусе «Отправлено в Оргкомитет» тезисы проходят проверку в Оргкомитете. Статус «Черновик» может быть возвращен тезисам либо если есть замечания рецензента, либо тезисы превышают требуемый объем, либо по запросу участника.

В статусе «Рекомендован к публикации» тезис публикуется на сайте. Статус «Черновик» может быть возвращен либо по запросу участника, либо при неоплате публикации, если она предусмотрена, либо если тезисы превышают требуемый объем.

Статус «Опубликован» означает, что издана бумажная версия тезиса и тезис изменить нельзя. В некоторых крайне редких ситуацих участник может договориться с Оргкомитетом о переводе тезисов в статус «Черновик».

Статус «Отклонен» означает, что по ряду причин, которые указаны в комментариях к тезису, Оргкомитет не может принять тезисы к публикации. Из отклоненных тезис в «Черновики» может вернуть только Председатель программного или председатель оргкомитета.