박상철 안상현 2023-08 32971 https://aurora.ajou.ac.kr/handle/2018.oak/24497 학위논문(석사)--산업공학과,2023. 8 강화학습은 게임에서부터 시작되어 여러 산업에 다양한 측면으로 활발히 연구되고 있다. 강화학습은 변화하는 다양한 환경에서 최적의 의사 결정에 적절한 분야로서 시행착오에 의해 학습을 진행한다. 그러나 강화학습을 적용하기 위해서는 강화학습 알고리즘의 지식과 인공지능 네트워크 구조에 대한 지식, 그리고 시뮬레이션 지식을 모두 갖추고 있어야 올바른 학습 결과를 얻을 수 있다. 보편적으로 산업에서는 문제를 해결하기위해 이미 시뮬레이터를 구축하여 여러 시도를 해본 상황이기에 시뮬레이션 엔지니어가 올바른 강화학습을 적용하기에는 진입장벽이 높은 편에 속한다. 본 연구에서는 시뮬레이터의 수정을 최소로하여 강화학습을 적용하는 강화학습 자동화 방법론을 제안한다. 당면한 문제에 대해 강화학습에 맞춰 목적함수를 재정의하는 것부터 강화학습에 제공하는 상태의 형상 및 액션을 정의하면 정의된 상태와 액션을 토대로 인공지능 네트워크를 자동으로 생성한다. 상태와 액션이 정의되고 만들어진 인공지능 네트워크를 토대로 학습을 진행하여 결과를 분석하고 최적 강화학습 알고리즘을 채택한 다음 Self-play 구조로 변경하여 강화학습 알고리즘의 하이퍼파라미터와 NAS(Network Architecture Search)를 동시에 진행한다. 실험 결과로는 보상함수와 상태, 액션을 정의한 네 환경에 대해 강화학습 알고리즘 선정, 인공지능 네트워크 제작, 하이퍼파라미터 튜닝을 자동으로 진행하여 총 1000번의 환경에서 높은 보상으로 유의미한 결과가 나왔으며 시뮬레이션 엔지니어가 시뮬레이터 수정을 최소로 하여 강화학습과 인공지능 네트워크 구조에 대한 지식 없이도 강화학습이 적용 가능함을 확인하였다. 제1장 서론 1 제1절 이산 사건 시뮬레이션 1 제2절 강화학습 3 제3절 연구 목적 7 제2장 강화학습 자동화 방법론 11 제1절 목적 전이 11 제2절 Self-play 및 알고리즘 채택 16 제3절 알고리즘 및 네트워크 구조 개선 19 제4절 대상 환경 및 자동화 적용 23 제3장 최적화 실험 36 제1절 알고리즘 결정 36 제2절 하이퍼파라미터 튜닝 및 네트워크 구조 최적화 38 제3절 최적화 결과 41 제4장 결론 42 제1절 자동화 방법론 42 제2절 향후 연구 42 참고문헌 43 Abstract 49 kor The Graduate School, Ajou University 아주대학교 논문은 저작권에 의해 보호받습니다. 이산사건 시뮬레이션용 강화학습 자동화 방법론 The Automation Method of Reinforcement Learning for Discrete-Event Simulation Thesis 아주대학교 대학원 Sanghyeon An 일반대학원 산업공학과 2023-08 Master https://dcoll.ajou.ac.kr/dcollection/common/orgView/000000032971 Discrete-Event Simulation Reinforcement Learning