[CEO리포트] 김세엽 셀렉트스타 대표 "기업 AI 도입 원년…먼저 LLM 신뢰성 검증이 중요하죠"

AI 학습데이터 수집·가공 서비스 기업
내달 'LLM 신뢰성 검증 솔루션' 출시
"설계부터 구축, 신뢰성 검증까지"

이수영 기자2024-07-04 17:08:08

생성형 인공지능(AI)이 편견을 가지면 어떨까. 예를 들어 '야당 성향'인 AI라든가, '백인 우월주의' 사상을 가진 AI 말이다. 아마도 이들 AI는 한쪽으로 치우친 정보를 보여줄 것이다. 모두를 위한 AI는 형평성과 공정성을 기반해 개발돼야 한다. 가장 중요한 건 AI가 학습하는 '데이터'다. 어떤 데이터를 학습하느냐에 따라 AI가 보여주는 정보도 달라지기 때문. 국내 AI 기업 셀렉트스타는 데이터를 수집·가공해 생성형 AI에 알맞은 학습 데이터로 만들어준다. AI 도입 기업들의 비전과 방향성을 잡고 있는 셈이다. 머니투데이방송 MTN은 김세엽 셀렉트스타 대표와 만나 AI 데이터 사업에 대한 이야기를 들어봤다.

김세엽 셀렉트스타 대표

"거대언어모델(LLM) 상용화를 위해선 먼저 신뢰성 검증이 중요합니다."

지난달 말, 서울 강남 역삼동 본사에서 만난 김세엽 셀렉트스타 대표는 "데이터를 설계하고 구축하는 기술 역량은 셀렉트스타가 가장 좋다"며 이같이 말했다.

셀렉트스타는 AI 학습용 데이터 수집과 가공 서비스를 제공하는 스타트업이다. AI 도입을 원하거나 성능 개선을 필요로 하는 기업의 AI 서비스를 개발하고, 기업별 맞춤형 데이터를 제공해 성능 개선에 힘쓰고 있다.

다음 달 중엔 'LLM 신뢰성 검증 솔루션' 사업도 시작한다. LLM이 얼마나 정확하게 작동하는지 확인해 기업 리스크를 줄이는 일이다.

LLM은 생성형 AI 챗봇이 자연스러운 대화를 유지하며 다양한 주제에 대한 정보와 창의적인 콘텐츠를 생성하는 데 핵심적인 역할을 한다. 기본 토대인 LLM부터 어긋나면 생성형 AI 챗봇의 성능도 하락하기 때문이다.

김 대표는 "AI가 기업이 의도하지 않는 답변을 해 고객에 피해를 주거나 사회적으로 논란이 될 경우, 기업 브랜드와 실적에 타격을 입게 된다"며 "이러한 상황을 방지하기 위해 도입하려는 AI가 문제 없을지, 기업 내부 기준에 맞는지 검증을 하는 것이다"라고 설명했다.

김세엽 셀렉트스타 대표(왼쪽)가 서울 강남구 역삼동에 위치한 셀렉트스타 본사에서 머니투데이방송 MTN과 인터뷰하는 모습

셀렉트스타는 한국과학기술연구원(KAIST)와 협력해 LLM 신뢰성 평가 데이터셋 '코낫(KorNAT)'을 지난 4월 발표한 바 있다. 하반기에 코낫을 기반으로 한 공개 리더보드를 선보일 예정이다. 리더보드는 다양한 평가 데이터셋으로 LLM 성능을 측정해 순위를 표시하는 게시판이다.

최근 미국에서 오픈AI와 만나 AI 데이터 관련 협업을 논의하기도 했다. AI 상용화와 함께 데이터 사업이 주목받는 모습이다.

김 대표는 "AI 성능이나 안전성에 대한 기준을 마련하고 이를 검증하는 게 쉽지 않은데, 평가 설계 컨설팅부터 데이터 구축, 신뢰성 검증의 순서로 고객사의 AI 신뢰성을 종합적으로 평가할 수 있는 데이터를 구축했다. AI 신뢰성 전문 기업으로 거듭난 셀렉트스타와 다양한 협업의 기회를 만들어 나가면 좋겠다"고 말했다. 아래는 김세엽 대표와 일문일답.

-데이터를 비롯해 AI컨설팅, 챗봇, 솔루션 도입 등 다양한 사업을 전개 중인데, 각 사업을 소개해달라.

▶메인 사업으로는 'AI 데이터 비즈니스'가 있다. AI가 학습할 수 있는 다양한 데이터를 수집 및 가공해 제공하는 것이다. 데이터 비즈니스는 지도 학습용 데이터 구축(AI가 특정 작업을 배우기 위해 필요한 데이터를 준비), 사전 학습용 데이터 판매(AI가 다양한 작업을 할 수 있도록 미리 학습시키기 위한 데이터를 판매), RAG용 데이터 구조화, LLM 신뢰성 검증을 아웃소싱으로 제공하는 '올인원 데이터 서비스'를 기반으로 한다. 서브 사업으로는 키즈 도메인에 집중한 'AI 솔루션 비즈니스'를 전개하고 있다. 신규 사업으로 LLM 신뢰성 검증 솔루션을 준비 중이다.

-LLM 신뢰성 검증은 어떻게 진행되는지 궁금하다.

▶도입하려는 AI가 기존 서비스와 사업 영역에 문제없이 적용하려면 검증할 기준을 잡고 데이터를 만든 뒤 이를 바탕으로 검증에 들어가야 된다. 이런 검증 영역까지 완료돼야 LLM을 활용할 수 있는 건데, 기업들은 검증 기준을 잡는 것부터 어려워한다. 이 부분에 주목하고 신뢰성 검증 쪽 사업 고도화를 진행 중이다.

신뢰성 검증 과정은, 먼저 각 기업 내부 상황을 고려해 글로벌 학계의 평가 지표들을 적용한다. 지표에는 정보가 정확한지 판단하는 정보 정확성 지표, 윤리적으로 문제없는지 확인하는 무해성 지표 등 다양한 지표들이 있다. 그 지표 중에서 고객 상황에 맞는 최적의 지표를 정한 뒤 지표에 맞춰 점수 기준을 정한다. 이후 기준에 맞춰 평가할 수 있는 데이터를 구축한다.

중요한 건, 실제 서비스가 도입됐을 때 벌어질 수 있을 법한 상황에 대한 질문이나 평가 데이터들이 만들어져야 되다 보니 실제 업무에 근무한 사업자를 채용해 데이터를 작업한다는 점이다. 예를 들어 금융권이면, 실제 금융권에서 3~5년 이상 일한 분들이 직접 평가 데이터를 구축하는 것이다. 평가하는 방법은 다양한데, 사람으로 비유하면 마치 수능 문제를 풀듯 객관식으로 진행할 때도 있고, 주관식으로 질문을 던진 뒤 생성된 답변에 대해 사람이 직접 평가하는 방법도 있다. 사람이 수동으로 평가한 내용을 GPT 같은 성능 좋은 LLM으로 평가를 자동화하는 방식도 있다.

서울 강남구 역삼동에 위치한 셀렉트스타 입구

-고객사는 어느 정도 되는지. 기억에 남는 사례가 있다면.

▶네이버, 삼성, SK텔레콤과 같은 대기업을 비롯해 230여 곳의 고객사를 보유하고 있다. 올해 상반기에 진행한 신한은행의 LLM 신뢰성 컨설팅 및 평가 데이터 구축 사례가 기억에 남는다. 금융권이다 보니 신한은행 내부에 직접 들어가 작업을 했다. AI가 정보를 정확히 생성해 이야기하는지, 정보 보안 측면에서 문제는 없는지 등을 시장에서 생각하는 내부 통제 기준에 맞춰 검증할 수 있는 평가 데이터를 만들었다. 아무래도 금융권은 규제가 많이 엮여 있는 산업이라 신뢰성 검증에 대한 필요성을 다른 산업과 비교해 훨씬 더 높게 생각하는 것 같다.

기업 다수가 LLM 기반 서비스를 도입하려고 시도 중이라 신뢰성 검증 영역은 올해 하반기부터 내년까지 점점 확대될 것으로 예상한다.

-데이터 사업을 하는 기업들이 하나둘 보이고 있는데. 경쟁사 대비 차별 전략이 무엇인지.

▶데이터 설계 컨설팅까지 제공할 수 있는 전문성, LLM 신뢰성 검증 기술, 직접 AI를 상용화까지 실행한 경험을 가지고 있다는 게 셀렉트스타의 차별점이라고 할 수 있다.

직접 상용화하고 운영한 경험이 없으면 더 좋은 인사이트를 고객한테 AI 데이터 측면에서 주기 어렵다. 다른 기업들은 데이터만 제공하거나 평가만 하는 방식인데, 셀렉트스타는 직접 AI를 상용화하고 있기 때문에 고객 입장을 잘 이해할 수 있다고 생각한다.

-성장세가 뚜렷한데. 기업공개(IPO) 계획도 있나.

▶2026년 1분기 IPO 준비 진행 중이다. 지난해 주관사를 선정했고, 올해는 재무제표를 국제 회계기준으로 전환하고 있다. 기술평가도 내년 초 받을 예정이고, 같은 해 3분기 정도에는 상장 예비심사 청구를 낼 계획을 가지고 있다. 2025년에 심사 승인이 나면 내년 1분기 상장 신청하는 스케줄로 진행하려 한다.

-국내 생성형 AI 기업이 성장하기 위해 필요한 정부 지원책이 있다면.

▶생성 AI 기업이 경쟁력을 갖기 위해선 경제적 가치를 입증하는 것이 중요하다. 개인 혹은 기업만의 가치 있는 데이터를 활용해 각 산업에 특화한 AI를 만들어 내는 것이다. 도메인에 특화된 모델로 날카롭게 사용사례(use case)를 만들어 나가야 한다. 즉 시장 성장을 위해선 사용사례를 입증하는 게 중요하기 때문에, 정부가 먼저 생성형 AI 도입을 시도해 신뢰도 높은 사용사례를 만들면 좋을 것 같다.

이수영 머니투데이방송 MTN 기자

최신뉴스

[CEO리포트] 김세엽 셀렉트스타 대표 "기업 AI 도입 원년…먼저 LLM 신뢰성 검증이 중요하죠"

MTN 기자실

Pick 튜브

엔터코노미

많이본뉴스