Регистрация / Вход
Прислать материал

Обработка и анализ данных физического эксперимента на языке программирования R

Сведения об участнике
ФИО
Беляева Анна Дмитриевна
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Санкт-Петербургский государственный университет"
Тезисы (информация о проекте)
Область наук
Физика и астрономия
Раздел области наук
Физика конденсированных сред. Физическое материаловедение
Тема
Обработка и анализ данных физического эксперимента на языке программирования R
Резюме
В промышленности используются материалы, имеющие сложный фазовый состав. Так, при длительной эксплуатации стали происходит изменение её механических свойств, что отображается на структуре. Поэтому задача классификации изображений, полученных при АСМ, важна для понимания состояния исследуемого образца.
Для решения этой задачи были обработаны изображения, при использовании пакета R, выделены характеристики зёрен. Исходя из полученных данных построен классификатор изображений на основе логистической регрессии.
В итоге работы была получена таблица данных для исходных изображений, с помощью которой построен алгоритм машинного обучения для классификации образцов стали.
Ключевые слова
Атомно-силовая микроскопия, язык программирования R, классификация изображений, обработка изображений, машинное обучение, логистическая регрессия
Цели и задачи
Обработка средствами R сырых данных эксперимента в области электроники твёрдого тела.
Получение из него набора данных для последующего анализа статистическими методами.
Реализация простого алгоритма статистического обучения для оценки эффективности подхода.
Введение
  • Представление новых возможностей анализа изображений при их компьютерной обработке
  • Интерес к автоматическим анализаторам изображений
  • Обработки большого объема данных, полученных при АСМ
  • Знакомство с языком программирования R, специализированного для работы со статистическими данными, анализ его возможностей для решения прикладных задач в области физики
Методы и материалы
  • Исходные образцы – изображения стали, полученный при АСМ
  • Морфологический анализ изображений – математические методы анализа и интерпретации узнаваемых на изображении объектов
  • Фильтрация изображений – получение изображения «без шумов»
  • Сегментация изображений – выделение на изображении некоторых объектов (сегментов)
  • Обработка изображения при помощи пакета EBImage в среде R: последовательное применение операций normalize (нормализация изображения), opening (последовательное применение эрозии и дилатации), thresh (пороговая обработка изображения с адаптивным порогом в движущемся окне), bwlabel (подсчет количества объектов на изображении), computeFeatures.shape (подсчет геометрических характеристик каждого выделенного зерна), rmObjects (удаление объектов, относительно некоторого критерия), distmap (вычисление карты расстояний преобразований бинарного изображения), watershed (сегментация по водоразделам)
  • Создание классификатора – логистической регрессии – в среде R
  • Классификация изображений с помощью построенного классификатора
Описание и обсуждение результатов
  • Язык программирования R – специализированный язык для работы со статистическими данными, входит в первую двадцатку языков программирования TIOBE (по сост. на 2015 г.), имеет большое количество пакетов для решения разнообразных задач
  • При использовании R удалось успешно обработать данные, полученный при АСМ, а также построить классификатор для этих данных
  • Сегментация изображений, подсчет числа зерен на каждом из них, определение геометрических характеристик каждого выделенного на изображении зерна (площадь, периметр, средний радиус, стандартное отклонение радиуса, минимальный и максимальный радиусы зёрен) при использовании встроенного в R пакета EBImage
  • Оценка качества работы построенного классификатора: из 128 изображений, на которых классификатор обучался, он правильно определяет касс в 97% случаев
Используемые источники
1. Гонсалес Р., Вудс Р., Цифровая обработка изображений. М.: Техносфера, 2005.
2. Пытьев Ю. П., Чуличков А. И. Методы морфологического анализа изображений. М.: Физматлит, 2010.
3. Ульянов П. Г. Применение поверхностно-чувствительных методов для исследования морфологии и электронной структуры многокомпонентных материалов: автореф. дисс. канд. физ.-мат. наук - 01.04.07. СПбГУ, 2013.
4. Ng A. CS229 Lecture notes. 2015. http://cs229.stanford.edu/notes/cs229-notes1.pdf.
5. Oles A. et al. Package 'EBImage'. 2015. http://www.bioconductor.org/packages/3.3/bioc/manuals/EBImage/man/EBImage.pdf.
6. TIOBE Index for December 2015. http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html.
Information about the project
Surname Name
Belyaeva Anna
Project title
Processing and analysis of data on physical experiment in R programming
Summary of the project
Materials that are used in industry have complex phase composition. That's how mechanic characteristics of steal change after long explanation and this reflects on its structure. That's why the aim of classification of images, which scanned by AFM is important for understanding the condition of investigated sample.
To solve this problem images have been processed using packet R and grains characteristics have been distinguished.
Classifier of images is made out of received data based on logistic regression.
As the result of the work there's a data table for original images with the help of which an algorithm of machine learning for classification of steal samples is constructed.
Keywords
Atomic-force microscopy, the R programming language, classification of images, image processing, machine learning, logistic regression