무인 항공 멀티홉 네트워크 또는 공중 애드혹 네트워크는 감시정찰, 센싱 데이터 수집 등의 다양한 임무를 수행하기 위하여 다수의 무인 항공기들(UAVs: Unmanned Aerial Vehicles)로 구성된 특별한 형태의 이동 애드혹 망(MANETs: Mobile Ad-Hoc Networks)이다. 일반적으로, 무인 항공기는 동적 이동성과 제한된 자원으로 인한 열악한 연결성 및 낮은 네트워크 성능 문제가 있다. 그러므로 경량화되고 적응적으로 운용할 수 있는 라우팅 프로토콜설계가 매우 중요하다. 본 논문에서는 목적지까지의 최소 홉과 링크 품질을 고려하는, Double Q-learning 기반라우팅 프로토콜을 제안한다. 제안 기법에서는 제어 메시지 부하를 낮추기 위하여 네트워크 상황에 따라 노드 탐색 메시지의 주기를 조정한다. OPNET 시뮬레이터를 통해 제안 기법의 성능 검증을 수행하였으며 기존 기법인QMR(Q-learning based Multi-objective optimization Routing)이나 단순 큐 러닝 기반 라우팅 프로토콜과 비교하여 패킷 전송률이 향상되고 데이터 전송의 지연 시간이 줄어든다는 것을 확인하였다.