오늘 공부한 내용은 크게 두 가지로 내용은 다음과 같다.
일정 | 내용 |
10:00 AM ~ 12:00 PM | 1. 생각 담아내기 |
13:00 PM ~ 17:00 PM | 2. Orange 3 실습 |
1. 생각 담아내기
- 주제: 생각 담아내기
- 내용: 생각하는 방법 배우기
교수님께서는 효율보다 효과를 중요 시 한다고 강조하시면서 강의를 시작하셨다.
아는 만큼 보이지만, 그 반대로 보는 만큼 알게 된다고 하셨다.
성공하기 위한 조건
1) 재료를 많이 만들어라: 무엇이든 자세히 관찰하기(input을 많이 쌓기)
2) 효과적으로 생각하라: 스스로 생각하는 방법 배우기
3) 생산하라: 쌓은 지식을 이용해 생산하기 (output 출력하기)
Framework 모델링의 중요성
모델링이란, 사람이 어떤 의도를 가지고 대상을 인식하여 형성된 최고의 심상을 적절한 매체를 통해 표현하는 과정이다.
모델의 공통점
1) 반드시 주체가 있다.
2) 제작 목적이 있다.
3) 무엇인가를 대표한다.
4) 모범(표준)이 될 만한 것이다.
5) 표현의 대상(객체)이 있다.
마지막으로, 'Herbert Simon'의 의사결정 모델과 'karl popper'의 three worlds를 framework의 예로 들어주셨다.
2. Orange 3 실습
Orange 3란, 데이터 시각화, 기계 학습, 데이터 마이닝을 위한 오픈 소스 데이터 분석 및 시각화 도구이다. Python 기반으로 개발되었으며, 사용자가 코드를 작성하지 않고도 사용자 친화적 인터페이스를 통해 데이터 분석을 수행할 수 있도록 설계되었다.
다음과 같이 여러 항목을 이용하여 데이터 불러오기, 전처리, 시각화, 모델 선택, 평가 등을 수행할 수 있다.
Orange 3을 사용하여 공부한 내용은 다음과 같다.
- 전복 순살의 무게 예측
- AI, 별점 테러 예측
- 문화재 이미지 예측
- 와인 분류
1) 전복 순살의 무게 예측
전복은 크기와 가격대가 다양하다. 크기가 작으면 살수율(순살 무게/전체 무게)이 낮아 먹을 수 있는 양이 줄어들고, 너무 크면 질겨지므로 적당한 크기를 고려해야 한다.
따라서, 전복 데이터를 분석하고 전복의 순살 무게를 예측할 수 있는 인공지능 모델을 만들어 보았다.
순서는 다음과 같이 진행된다.
데이터 준비 -> 데이터 시각화 -> 데이터 전처리 -> 모델 선택 -> 학습 -> 결과 확인
Linear Regression 모델을 사용하였고, 예측 결과는 다음과 같다.
2) AI, 별점 테러 예측
요즘 '별점 테러'에 관한 글을 쉽게 찾아볼 수 있다.
이처럼, 허위 또는 악성 리뷰에 관해서 해결 방법을 찾기 어렵다.
따라서, 세부 평점이 좋음에도 불구하고 터무니없는 이유로 총평점을 나쁘게 주는 '별점 테러'를 방지하는 인공지능 모델을 만들어 보았다.
순서는 다음과 같이 진행된다.
데이터 준비 -> 데이터 전처리 -> 모델 선택 -> 학습 -> 결과 확인
Gradient Boosting 모델을 사용하였고, 예측 결과는 다음과 같다.
3) 문화재 이미지 예측
우리나라의 문화재를 살펴볼 겸 국가 지정 데이터인 AI Hub를 이용하여 유적물을 분류하는 인공지능 모델을 만들어 보았다.
순서는 다음과 같이 진행된다.
데이터 준비 -> 데이터 전처리 -> 모델 선택 -> 학습 -> 결과 확인
Neural Network 모델을 사용하였고, 예측 결과는 다음과 같다.
4) 와인 분류
마지막으로, 레드 와인과 화이트 와인을 구분하기 위해 와인의 성분값을 이용하여 와인의 종류를 분류할 수 있는 인공지능 모델을 만들어 보았다.
순서는 다음과 같이 진행된다.
데이터 준비 -> 데이터 병합 -> 데이터 시각화 -> 결과 확인
먼저, 화이트 와인과 레드 와인의 속성값이 어떻게 다른지 데이터를 시각화해보았다.
다음으로, 산점도 그래프를 이용하여 두 클래스가 잘 분류되는지 확인해 보았다.
특성 통계표도 확인해 보았다.
마지막으로, 여러 모델에 대해 와인 분류 결과를 확인해 보았다.
느낀 점
나도 AI 공부를 하고 있는데, 아직 부족한 부분도 많다. 그렇기에 스스로 부족한 부분에 대해 많이 공부하는 것이 중요한 것 같다. 머릿속에 많은 정보를 입력하는 만큼 좋은 출력을 만들어 낼 것이라 생각한다.
또한, Orange 3을 처음 사용해 보았는데, 기존의 코드를 작성하여 데이터를 처리하고, 모델 학습하는 것과는 달리 드래그 앤 드롭을 사용하여 모든 과정이 편리했다. 다양한 데이터를 사용해 보았고, 데이터를 처리하는 방법과 선택한 모델에 따라 예측 성능이 달라진 다는 것을 다시 한번 확인해 보는 시간이었다.