본문으로 바로가기

1970년대

70년대 "귀납 학습"과 함께 진화 연산 방법에 기초한 기계 학습이 제안되었다. 단윈의 진화론 모델화한 기계 학습 방법으로 "유전(자) 알고리즘", "생물 진화 모델", "진화 연산"이라고 불리기도 한다. 일반적으로 생물의 진화에서는 환경과 상호작용하면서 환경에 더 적합한 형태로 진화되어 가는데 적자 생존으로 환경에 잘 적응한 세대가 살아남고 그렇지 못한 세대는 사라지는 형태에 의거하여 적합도 함수에 의해 높게 평가된 형태가 살아남고, 그렇지 못한 형태는 사라지는 것으로 이해할 수 있다.


유전 알고리즘(Genetic Algorithm)은 자연세계의 진화과정에 기초한 계싼 모델로 존 홀랜드(John Holland)에 의해 1975년에 개발된 전역 최적화 기법으로, 최적화 문제를 해결하는 기법 중 하나이다. 생물의 진화를 모방한 진화 연산의 대표적인 기법으로, 실제 진화의 과정에서 많은 부분을 차용하였으며, 변이(돌연변이), 교배 연산 등이 존재한다. 또한 세대, 인구 등의 용어도 문제 풀이 과정에서 사용된다.

- 위키피디아


유전 알고리즘은 기계 학습과 함께 최적화 방법으로 널리 응용되지만 확률적 검색 알고리즘(두 데이터셋의 유전자로 만들어지는 더 나은 형질은 어떤 결과를 가져다 줄지 모른다.)이므로 최적의 지식을 학습하는 것은 기대할 수 없다. 말 그대로 최적화 즉, 근사적으로 최선의 답을 구하는데 있어 뛰어난 알고리즘이다.


1990년대

90년대에 들어서서 생물 학습에 관한 연구가 본격적으로 기계 학습 분야에 응용되어 "강화 학습"이 시작되었다. "유전 알고리즘"이 생물집단의 진화를 모델로 만든 학습 방법인 것에 비해 "강화 학습"은 생물 개체가 환경과의 상호작용에 의해 지식을 획득하는 것을 모델로 삼고 있다.


강화 학습(Reinforcement learning)는 어떤 환경을 탐색하는 에이전트가 현재의 상태를 인식하여 어떤 행동을 취해 그 환경으로 보터 보상을 받게 된다. 보상은 양수와 음수 둘다 가능한데, 보상이 누적되어 최대가 되는 것을 지향한다.

-위키피디아


최종적으로 보상 합계가 최대가 되기 위해서는 현재의 결과보다는 환경에 적응하려는 목적이 더 강하다고 할 수 있다.(잘한 행동에 대해 칭찬이라는 보상을 받고 잘못한 행동에 대해서 벌이라는 보상을 받게 되면 칭찬받기 위해 행동하게 되는 방식의 학습방식이다.) 이는 곧 학습할 때 마다 발생하는 진동이나 잡음이 있더라도 학습이 지속적으로 이루어 질 수 있음을 의미한다. 진동과 잡음에 대한 대응이 잘되다 보니 현실적인 문제대 대한 대응도 뛰어나다.


1990년대 말

인터넷의 발전과 맞물려 "데이터 마이닝", "텍스트 마이닝"이 발전하기 시작했다. "데이터 마이닝"은 축적된 대용량의 데이터에 기초해 특정한 경향과 규칙을 찾아낸다. 초기에는 대용량의 데이터를 처리하기 위해서 통계학확률 이론 같은 데이터 해석방법을 사용하였지만, 기계 학습을 도입해 좀더 지적인 처리를 실현해 나가고 있다.


참조



댓글을 달아 주세요

티스토리 툴바