작성자 : 이다원
바리스타 로봇 - AI 기반 시각 음성 인식 및 대화 기능
이다원 무인 카페에 방문한 고객들이 가장 먼저 놀라는 것 중에 하나는 카페 안에 사람이 없는데 로봇이 먼저 인사를 건네는 것입니다. 게다가, 로봇이 사람의 말을 알아듣고 주제 제한없이 자연스러운 대화도 가능합니다.

이게 가능한 이유는 카메라와 마이크를 통해서 들어오는 각종 정보들을 분석하고 인지할 수 있기 때문입니다. 시각 정보를 통해서는 고객의 방문 여부, 성별, 나이, 감정 상태 등을 파악할 수 있고, 청각 정보는 '키워드 인식 > 음성 인식 > 의도 분석' 과정을 거쳐서 대화를 시작 하거나 고객이 요청하는 바리스타 업무를 수행합니다. 생각 관련해서는 네이버에서 제공하는 생성형 AI 'HyperCLOVA X' 베이스 모델 기반으로, 파인 튜닝 과정을 거쳐서, 이다원 자체적인 바리스타 로봇 전용 LLM 모델을 만들어서 자체 서버에서 운영하고 있습니다. (이다원은 LLM 베이스 모델을 만들 수 있는 기술을 가지고 있고, 자체 서버에서 자체 베이스 모델도 테스트 운영중입니다. 타사 베이스 모델을 이용하는 이유는 기술 부족 때문이 아니라 비용 절감을 위해서입니다.)

바리스타 로봇 관련 대부분의 기능들은 바리스타 로봇 자체적으로 처리하지만, 몇몇 인지 기능과 생각 관련해서는 별도 서버를 운영하고 있습니다. 그 이유는 이러한 기능들을 제공하기 위해서는 상당한 크기의 컴퓨팅 자원들이 필요하기 때문입니다. 특히, LLM 모델 혹은 인지 모델의 학습을 위해서는 고사양 GPU 기반의 서버가 필요합니다.

그리고, 바리스타 로봇에 적용되는 생각관련 AI 모델을 만들기 위해서는 바리스타 업무 환경에 특화된 많은 학습 데이터들이 필요한데, 이다원에서는 2023년 3월부터 실제로 무인카페를 운영하면서 많은 데이터들을 쌓고 있습니다. 특히, 다양한 고객들이 바리스타 로봇과 실제로 소통하거나 주문을 처리하는 과정에서 발생하는 데이터들은 일반적인 LLM 모델 학습 데이터와 비교해서 여러 차이점들이 있습니다.

마지막으로, 이러한 인지, 생각, 대화 기능들을 바리스타 로봇의 기본 기능들(음료를 맛있게 제조하고 판매하는 것)과 접목시키는 것은 또 다른 문제입니다. 예를 들어, 음료를 제조하면서 고객과 인사를 나누거나 대화를 나누기 위해서는 비동기 멀티 쓰레드 방식의 기능 구현이 필요한데, 이다원에서는 현재 여러 시행착오들을 거치면서 때론 동기적(집중할 때)으로 때론 비동기적(집중할 필요가 없을 때)으로 업무를 처리할 수 있도록 하여, 현재는 사람과 유사한 수준의 자연스러운 업무 수행을 실현해 나가고 있습니다.

이다원 바리스타 로봇은 시각 및 음성 인식, LLM, Physical AI 등 IT 및 AI 분야에서 가장 이슈가 되는 최신 기술들을 실제 고객 서비스에 적용하고 있는 몇 안되는 사례들 중에 하나입니다. 이다원 시음카페에 와서 다원이와 대화를 나누고 감동적인 사랑 고백을 해 보세요. 공짜 커피를 제공해 줄 수도 있어요.




목록