본 연구에서는 행동 트리(behavior tree, BT)와 강화학습(reinforcement learning, RL)을 결합한 Q-러닝 행동 트리(Q-Learning behavior tree, QL-BT) 알고리즘을 제안하여 굴착 작업의 자동화와 환경 적응성을 향상시키고자 하였다. QL-BT는 BT의 구조적 장점인 모듈성과 확장성을 유지하면서도 강화학습을 활용해 작업 환경의 동적 변화에 실시간으로 적응하고 작업 우선순위를 최적화하도록 설계되었다. 제안된 알고리즘은 심층 강화학습 알고리즘인 proximal policy optimization(PPO)을 통해 단위 작업의 효율적 학습과 실행을 담당하며, Q-Learning을 활용해 작업 플로우를 동적으로 최적화함으로써 기존 BT의 한계를 극복하였다. 실험 결과, QL-BT는 학습 기반 적응성, 작업 효율성, 작업 품질 및 환경 안정성 측면에서 기존 알고리즘을 능가하는 성능을 보였다. 또한, 복잡하고 변화가 많은 환경에서도 유연하고 효율적인 작업 계획을 구현할 수 있음을 입증하였다. 본 연구는 자율 작업 계획 시스템의 새로운 가능성을 제시하며, 향후 다중 에이전트 시스템과 다양한 산업 환경으로의 확장을 통해 산업 자동화에 기여할 수 있을 것으로 기대된다.