<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
  <dcvalue element="contributor" qualifier="advisor">오상윤</dcvalue>
  <dcvalue element="contributor" qualifier="author">김대현</dcvalue>
  <dcvalue element="date" qualifier="issued">2021-02</dcvalue>
  <dcvalue element="identifier" qualifier="other">30719</dcvalue>
  <dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;aurora.ajou.ac.kr&#x2F;handle&#x2F;2018.oak&#x2F;20158</dcvalue>
  <dcvalue element="description" qualifier="none">학위논문(석사)--아주대학교&#x20;일반대학원&#x20;:인공지능학과,2021.&#x20;2</dcvalue>
  <dcvalue element="description" qualifier="abstract">머신&#x20;러닝&#x20;기법&#x20;중&#x20;하나인&#x20;딥러닝은&#x20;이전에는&#x20;해결할&#x20;수&#x20;없다고&#x20;생각했던&#x20;문제에&#x20;대한&#x20;해결책을&#x20;제공하고&#x20;있다.&#x20;이에&#x20;따라&#x20;음성&#x20;인식,&#x20;시각적&#x20;객체&#x20;인식,&#x20;텍스트&#x20;처리와&#x20;같은&#x20;실제&#x20;응용&#x20;분야에서&#x20;딥러닝이&#x20;많이&#x20;사용되고&#x20;있다.&#x20;&#x0A;딥러닝에&#x20;사용되는&#x20;학습&#x20;데이터의&#x20;크기는&#x20;큰&#x20;대규모&#x20;데이터(수&#x20;Terabyte&#x20;급)를&#x20;사용하며,&#x20;높은&#x20;정확도를&#x20;달성하기&#x20;위하여&#x20;딥러닝&#x20;모델의&#x20;깊이&#x20;더&#x20;깊어지고&#x20;있다.&#x20;이에&#x20;따라&#x20;대규모&#x20;연산이&#x20;요구되고&#x20;있다.&#x20;이러한&#x20;대규모&#x20;데이터와&#x20;깊은&#x20;딥러닝&#x20;모델을&#x20;단일&#x20;노드&#x20;환경에서&#x20;학습을&#x20;한다면&#x20;많은&#x20;시간이&#x20;소요되며,&#x20;딥러닝&#x20;학습의&#x20;대규모&#x20;연산부하를&#x20;다수의&#x20;노드로&#x20;분산하여&#x20;학습하여&#x20;시간을&#x20;단축시킬&#x20;수&#x20;있는&#x20;분산&#x20;딥러닝&#x20;개념이&#x20;주목을&#x20;받고&#x20;있다.&#x0A;딥러닝&#x20;알고리즘을&#x20;분산&#x2F;병렬화&#x20;하는&#x20;방법&#x20;중&#x20;Data&#x20;Parallelism&#x20;기법은&#x20;학습&#x20;데이터를&#x20;학습에&#x20;참여하는&#x20;노드로&#x20;나뉘어&#x20;학습이&#x20;진행된다.&#x20;이로&#x20;인하여&#x20;각&#x20;노드에서&#x20;지역적으로&#x20;업데이트한&#x20;지역&#x20;파라미터를&#x20;동기화는&#x20;과정을&#x20;하여야&#x20;한다.&#x0A;본&#x20;연구에서는&#x20;기존의&#x20;분산&#x20;딥러닝의&#x20;효과적인&#x20;파라미터&#x20;동기화&#x20;과정을&#x20;위한&#x20;레이어&#x20;별&#x20;특성을&#x20;고려한&#x20;All-reduce&#x20;및&#x20;통신과&#x20;연산&#x20;오버래핑(Overlapping)&#x20;기법을&#x20;제안한다.&#x20;상위&#x20;레이어의&#x20;파라미터&#x20;동기화는&#x20;하위&#x20;레이어의&#x20;다음&#x20;전파과정&#x20;시간까지&#x20;통신&#x20;&#x2F;&#x20;계산(학습)을&#x20;오버랩하여&#x20;진행할&#x20;수&#x20;있다.&#x20;또한&#x20;이미지&#x20;분류를&#x20;위한&#x20;일반적인&#x20;딥러닝&#x20;모델의&#x20;상위&#x20;레이어는&#x20;Convolution&#x20;레이어로&#x20;하위&#x20;레이어는&#x20;Fully-connected&#x20;레이어로&#x20;구성되어&#x20;있다.&#x20;Convolution&#x20;레이어는&#x20;Fully-connected&#x20;레이어에&#x20;비해&#x20;적은&#x20;수의&#x20;파라미터를&#x20;가지고&#x20;있고&#x20;상위에&#x20;레이어가&#x20;위치하므로&#x20;네트워크&#x20;오버랩&#x20;허용시간이&#x20;짧기&#x20;때문에&#x20;이러한&#x20;점을&#x20;고려한&#x20;네트워크&#x20;지연시간을&#x20;단축할&#x20;수&#x20;있는&#x20;Butterfly&#x20;All-reduce를&#x20;사용하고,&#x20;오버랩&#x20;허용시간이&#x20;보다&#x20;길고&#x20;오버랩&#x20;허용시간이&#x20;길기&#x20;때문에&#x20;네트워크&#x20;대역폭을&#x20;고려한&#x20;Ring&#x20;All-reduce를&#x20;사용한다.&#x0A;본&#x20;논문의&#x20;제안&#x20;방법의&#x20;효과를&#x20;검증하기&#x20;위해&#x20;제안&#x20;방법이&#x20;적용된&#x20;PyTorch&#x20;플랫폼&#x20;기반으로&#x20;실험&#x20;환경을&#x20;구성하여&#x20;배치크기에&#x20;대한&#x20;성능&#x20;평가를&#x20;진행하였다.&#x20;실험을&#x20;통해&#x20;제안&#x20;기법의&#x20;학습시간은&#x20;기존&#x20;PyTorch&#x20;방식&#x20;대비&#x20;최고&#x20;33%&#x20;단축된&#x20;모습을&#x20;확인하였다.</dcvalue>
  <dcvalue element="description" qualifier="tableofcontents">제1장&#x20;서론&#x20;1&#x0A;&#x20;제1절&#x20;연구&#x20;배경&#x20;및&#x20;필요성&#x20;1&#x0A;&#x20;제2절&#x20;연구&#x20;내용&#x20;및&#x20;논문&#x20;구성&#x20;4&#x0A;제2장&#x20;연구&#x20;배경&#x20;6&#x0A;&#x20;제1절&#x20;딥러닝&#x20;개요&#x20;6&#x0A;&#x20;&#x20;1&#x20;딥러닝&#x20;학습&#x20;과정&#x20;6&#x0A;&#x20;&#x20;2&#x20;Fully-connected,&#x20;Convolution&#x20;레이어의&#x20;파라미터&#x20;수&#x20;7&#x0A;&#x20;제2절&#x20;분산&#x20;병렬&#x20;딥러닝&#x20;기법&#x20;8&#x0A;&#x20;&#x20;1&#x20;Parameter&#x20;Server&#x20;기반의&#x20;동기화&#x20;방법&#x20;10&#x0A;&#x20;&#x20;2&#x20;집합통신을&#x20;사용한&#x20;동기화&#x20;방식&#x20;11&#x0A;제3장&#x20;분산&#x20;딥러닝&#x20;파라미터&#x20;동기화&#x20;최적화&#x20;연구&#x20;13&#x0A;&#x20;제1절&#x20;분산&#x20;딥러닝을&#x20;위한&#x20;ALL-REDUCE&#x20;알고리즘&#x20;개선&#x20;연구&#x20;13&#x0A;&#x20;&#x20;3&#x20;네트워크&#x20;대역폭을&#x20;고려한&#x20;Ring&#x20;based&#x20;All-reduce[15]&#x20;14&#x0A;&#x20;&#x20;4&#x20;네트워크&#x20;지연시간을&#x20;고려한&#x20;Butterfly&#x20;All-reduce[33]&#x20;15&#x0A;&#x20;&#x20;5&#x20;다중&#x20;GPU환경을&#x20;고려한&#x20;Hierarchical&#x20;All-reduce[16]&#x20;16&#x0A;&#x20;&#x20;6&#x20;네트워크&#x20;대역폭을&#x20;고려한&#x20;2D-torus&#x20;All-reduce[17]&#x20;17&#x0A;&#x20;제2절&#x20;분산&#x20;딥러닝&#x20;동기화&#x20;최적화&#x20;연구&#x20;19&#x0A;&#x20;&#x20;1&#x20;연산&#x20;가속화와&#x20;통신량을&#x20;줄인&#x20;Mixed-Precision[22]&#x20;19&#x0A;&#x20;&#x20;2&#x20;네트워크&#x20;대역폭을&#x20;효율적으로&#x20;활용하기위한&#x20;Tensor&#x20;Fusion&#x20;기법[24]&#x20;20&#x0A;&#x20;&#x20;3&#x20;네트워크&#x20;대역폭과&#x20;메모리&#x20;소모를&#x20;고려한&#x20;Lazy&#x20;All-reduce[19]&#x20;21&#x0A;&#x20;&#x20;4&#x20;전역&#x20;파라미터의&#x20;통신&#x20;오버헤드를&#x20;감소한&#x20;Hybrid&#x20;Architecture[25]&#x20;22&#x0A;&#x20;&#x20;5&#x20;Sparse&#x20;Communication&#x20;22&#x0A;제4장&#x20;레이어&#x20;오버래핑&#x20;기반&#x20;하이브리드&#x20;올-리듀스&#x20;기법&#x20;24&#x0A;&#x20;제1절&#x20;레이어별&#x20;계산&#x2F;통신&#x20;오버랩&#x20;동기화&#x20;기법&#x20;25&#x0A;&#x20;&#x20;1&#x20;레이어별&#x20;동기화&#x20;기법&#x20;25&#x0A;&#x20;&#x20;2&#x20;계산&#x20;&#x2F;&#x20;통신&#x20;오버래핑&#x20;기법&#x20;27&#x0A;&#x20;제2절&#x20;레이어의&#x20;특성에&#x20;따른&#x20;HYBRID&#x20;COMMUNICATION&#x20;기법&#x20;29&#x0A;제5장&#x20;실험&#x20;31&#x0A;&#x20;제1절&#x20;실험&#x20;환경&#x20;및&#x20;조건&#x20;31&#x0A;&#x20;제2절&#x20;실험&#x20;결과&#x20;33&#x0A;&#x20;&#x20;1&#x20;배치&#x20;크기에&#x20;따른&#x20;전체&#x20;학습&#x20;시간&#x20;비교&#x20;33&#x0A;&#x20;&#x20;2&#x20;배치&#x20;크기에&#x20;따른&#x20;통신&#x20;&#x2F;&#x20;계산&#x20;시간&#x20;분석&#x20;34&#x0A;제6장&#x20;결론&#x20;및&#x20;향후&#x20;연구&#x20;35&#x0A;참고문헌&#x20;36</dcvalue>
  <dcvalue element="language" qualifier="iso">kor</dcvalue>
  <dcvalue element="publisher" qualifier="none">The&#x20;Graduate&#x20;School,&#x20;Ajou&#x20;University</dcvalue>
  <dcvalue element="rights" qualifier="none">아주대학교&#x20;논문은&#x20;저작권에&#x20;의해&#x20;보호받습니다.</dcvalue>
  <dcvalue element="title" qualifier="none">분산&#x20;딥러닝에서&#x20;통신&#x20;오버헤드를&#x20;줄이기&#x20;위해&#x20;레이어를&#x20;오버래핑하는&#x20;하이브리드&#x20;올-리듀스&#x20;기법</dcvalue>
  <dcvalue element="title" qualifier="alternative">Hybrid&#x20;All-reduce&#x20;Strategy&#x20;with&#x20;Layer&#x20;Overlapping&#x20;for&#x20;Reducing&#x20;Communication&#x20;Overhead&#x20;in&#x20;Distributed&#x20;Deep&#x20;Learning</dcvalue>
  <dcvalue element="type" qualifier="none">Thesis</dcvalue>
  <dcvalue element="contributor" qualifier="affiliation">아주대학교&#x20;일반대학원</dcvalue>
  <dcvalue element="contributor" qualifier="department">일반대학원&#x20;인공지능학과</dcvalue>
  <dcvalue element="date" qualifier="awarded">2021.&#x20;2</dcvalue>
  <dcvalue element="description" qualifier="degree">Master</dcvalue>
  <dcvalue element="identifier" qualifier="uci">I804:41038-000000030719</dcvalue>
  <dcvalue element="identifier" qualifier="url">http:&#x2F;&#x2F;dcoll.ajou.ac.kr:9080&#x2F;dcollection&#x2F;common&#x2F;orgView&#x2F;000000030719</dcvalue>
  <dcvalue element="subject" qualifier="keyword">All-reduce</dcvalue>
  <dcvalue element="subject" qualifier="keyword">동기화</dcvalue>
  <dcvalue element="subject" qualifier="keyword">딥러닝</dcvalue>
  <dcvalue element="subject" qualifier="keyword">분산딥러닝</dcvalue>
  <dcvalue element="description" qualifier="alternativeAbstract">Currently,&#x20;the&#x20;size&#x20;of&#x20;training&#x20;dataset&#x20;used&#x20;for&#x20;deep&#x20;learning&#x20;has&#x20;become&#x20;large-scale&#x20;data,&#x20;and&#x20;the&#x20;deep&#x20;learning&#x20;model&#x20;is&#x20;getting&#x20;deeper&#x20;to&#x20;achieve&#x20;high&#x20;accuracy.&#x20;Therefore,&#x20;deep&#x20;learning&#x20;requires&#x20;a&#x20;lot&#x20;of&#x20;computation.&#x20;Deep&#x20;learning&#x20;with&#x20;a&#x20;single&#x20;node&#x20;takes&#x20;a&#x20;lot&#x20;of&#x20;time.&#x20;Therefore,&#x20;distributed&#x20;deep&#x20;learning,&#x20;which&#x20;can&#x20;shorten&#x20;the&#x20;time&#x20;by&#x20;distributing&#x20;computation&#x20;across&#x20;multiple&#x20;nodes,&#x20;is&#x20;required.&#x20;Distributed&#x20;deep&#x20;learning&#x20;requires&#x20;synchronization.&#x20;In&#x20;this&#x20;study,&#x20;we&#x20;propose&#x20;hybrid&#x20;all-reduce&#x20;strategy&#x20;that&#x20;considers&#x20;the&#x20;characteristics&#x20;of&#x20;each&#x20;layer&#x20;and&#x20;communication&#x20;and&#x20;computational&#x20;overlapping&#x20;technique.&#x20;Since&#x20;the&#x20;convolution&#x20;layer&#x20;has&#x20;fewer&#x20;parameters&#x20;than&#x20;the&#x20;fully-connected&#x20;layer.&#x20;Because&#x20;convolution&#x20;layer&#x20;is&#x20;located&#x20;at&#x20;the&#x20;upper,&#x20;the&#x20;network&#x20;overlappable&#x20;time&#x20;is&#x20;short.&#x20;So,&#x20;Butterfly&#x20;All-reduce&#x20;is&#x20;used&#x20;to&#x20;synchronize&#x20;the&#x20;convolution&#x20;layer.&#x20;Conversely,&#x20;fully-connecter&#x20;layer&#x20;is&#x20;synchronized&#x20;using&#x20;ring&#x20;all-reduce.&#x20;In&#x20;the&#x20;experiment,&#x20;the&#x20;proposed&#x20;method&#x20;reduced&#x20;the&#x20;time&#x20;by&#x20;up&#x20;to&#x20;33%&#x20;compared&#x20;to&#x20;the&#x20;PyTorch.</dcvalue>
</dublin_core>
