![[HR 수다] 팔란티어의 비밀병기 FDE와 데이터기반 문제해결!](https://cdn.offpiste.ai/images/articles/849/cover/b00dea7b-0877-49ee-84ad-0c3381a2178d_On-the-Shoulder-of-a-Giant-feature-650x300.jpg)
데이터분석가들의 송년회
한 해를 떠나 보내는 분주한 발 길이 이어지는 나날입니다. 사실 저는 직장생활도 사회생활도 별다른 분주함 없이 고만고만하게 하는 스타일이라 스마트폰 일정표는 늘 비어있는 편입니다. 그래도 다행히 찾아 주는 분들이 드문드문 있어서 사회에서 만나 가깝게 지내는 분들의 초대를 받아 어느 밤 저녁을 함께 했습니다. 한 분은 대전에 본거지(?)를 둔 유명한 데이터분석가이시고 다른 한 분은 남양주에 본부(?)를 두고 활동하시는 유명한 엑셀전문가이십니다. (누군지 한번 맞춰보세요~ ㅎㅎ)
늦은 밤 어느 유명하다는 용산역 인근 장어구이집에서 만났습니다. 술잔을 기울이며 나눴던 이야기의 대부분이 4050의 주제들이었습니다. 하지만 늘 하는 일이 일인지라 결국 대화는 자연스럽게 데이터분석으로 흘러갔습니다.
“앞으로 AI는 데이터분석이라는 일을 어떻게 바꿔나갈 것인지?”
“데이터분석가라는 일은 살아남을 것인지?”
“지금 데이터분석가들은 무엇을 준비해야 하는것인지?”
대충 이런 이야기를 하다보니 자연스럽게 팔란티어(Palantir) 이야기가 나왔습니다. 팔란티어는 현재 제가 몸담고 있는 회사와 전략적 파트너십을 맺고 함께 일하고 있는 회사라 더욱 관심을 두고 있습니다. “팔란티어가 가진 차별화 포인트는 무엇인지?”, “팔란티어 플랫폼은 어떤 구조인지?” 여러가지 많은 주제가 테이블 위에 펼쳐졌지만 그 중에서도 유독 팔란티어에서 고객사에 파견하는 엔지니어(Forward Deployed Engineers, FDE)에 대해서 나눴던 이야기가 기억납니다. 이들은 고객사에 파견되어 일을 하는 팔란티어의 정예인력입니다. 고객사 내부로 들어가서 직무전문가들과 함께 워크숍을 운영하면서 고객사의 문제를 파악하고 정의하는 작업에 집중합니다. 고객사 직무전문가들이 시스템과 데이터의 관점에서 문제를 정의하고 해결방안을 찾도록 돕습니다. 워크숍은 짧을 때는 몇 일이 걸리기도 하지만, 복잡하고 어려운 경우 수 개월이 걸리기도 합니다. 이들은 매우 독특한 존재들이고 팔란티어에서 공들여 육성하는 핵심자원입니다. 왜 그럴까요?
목격한 현상 vs. 정의된 문제
팔란티어가 FDE를 중요한 자산으로 육성하고 관리하는 이유는 이들이 고객사와 협력하여 고객사에서 문제라고 착각하고 있는 관찰된 현상을 해결할 수 있는 문제로 제대로 정의하는 작업을 하기 때문입니다. 먼저, 고객사가 문제를 제대로 정의하도록 ‘온톨로지 레이어(Ontology Layer)’를 그리도록 돕습니다. 이어서 설계된 온톨로지 레이어의 각 ‘엔티티(Entity)’에 ‘데이터 레이어(Data Layer)’를 연결하는 작업을 합니다. 만약 ‘데이터 레이어’나 ‘온톨로지 레이어’, ‘엔티티’와 같은 용어가 낯설게 느껴지신다면 잠시 글 읽기를 멈추시고 과거 제가 작성한 글(지난 글 읽기)을 한번 읽어 보시면 이해하시는데 도움이 되실거에요.
다시 이야기로 돌아와서, FDE는 데이터엔지니어 관점에서 관찰된 현상을 문제로 바꾸어 놓는 작업을 합니다. 데이터사이언티스트 관점에서 보면 여전히 많은 구성원들이 본인이 목격한 현상과 문제를 혼동합니다. 예를 들어, ChatGPT 도입 과정에서 발생하는 문제를 정의해 보라고 하면 높은 빈도로 아래와 같이 대답하는 경우를 볼 수 있습니다.(물론, 훌륭하게 문제를 잘 정의하시는 분들도 계십니다)
“ChatGPT를 도입했는데 확산이 잘 되지 않는게 문제야!”
“ChatGPT를 도입했는데 리더들이 잘 안쓰는게 문제야!”
“ChatGPT를 도입했는데 쓰는 사람들만 쓰는게 문제야!”
“ChatGPT를 도입했는데 아이디만 부여받고 한번도 안 쓴 사람이 너무 많다는게 문제야!”
하지만, 위와 같은 진술은 데이터분석 관점에서 바라볼 때 “문제를 정의했다”라고 할 수 없습니다. “일어난 현상에 대해서 관찰한 결과를 표현했다.” 정도로 이야기할 수 있겠습니다. 그렇다면 데이터분석 관점에서 문제정의는 어떻게 해야하는 걸까요? 첫째, 현상을 면밀히 살펴보고 ‘현재의 상태(Current Status)’와 ‘이상적인 최종결과(Ideal Final Result, IFR)’를 설정해야 합니다. 출발지와 최종목적지가 있어야 길을 찾아갈 수 있거든요. 둘째, 출발지에서 최종목적지까지 가는 길에 영향을 즐 수 있는 다양한 변수들을 찾아내야 합니다. 셋째, 찾아낸 변수들의 개념을 잘 정의한 뒤 어떻게 측정(measure)할 것인지 측면에서 측정할 데이터의 종류, 데이터를 수집할 원천, 데이터의 유형, 데이터의 특성을잘 정의해야 합니다.
첫 번째 할 일인 현재의 상태와 이상적인 최종결과는 해당 업무에 대한 직무전문성이 어느 정도 있다면 어렵지 않게 정의할 수 있습니다. “ChatGPT를 도입했는데 아이디만 부여받고 한번도 안 쓴 사람이 너무 많다.”는게 현상이라면 현재의 상태는 아이디 보유자 중 사용량이 0인 사람이고, IFR은 최소사용량이 얼마 이상인 사람으로 할지 결정하면 됩니다. 즉 현재의 상태와 IFR을 측정 가능하도록 바꾸어 놓으면 됩니다. 그리고 “실제로 현재의 상태와 IFR은 무엇으로 측정(measure)할 것인지?”는 두 번째 할 일에서 결정하면 됩니다. 여기서는 프롬프트 입력 건 수(n_prompt)와 같은 데이터를 측정할 수도 있겠고, 상황에 따라서는 일 접속 횟 수(login_frequencies)와 같은 데이터를 측정할 수도 있겠네요. 다양한 데이터들 중 무엇을 측정하면 적합할지 고민하여 결정하면 됩니다.
두 번째 할 일인 변수들을 찾아 내는 일은 조금 복잡합니다. 직무전문성이 더욱 빛을 발하는 작업이기도 합니다. ‘현재의 상태’에서 IFR로 가는 길에 영향을 주는 요인들을 찾는 일입니다. 일을 조금 더 쉽게 하려면 거인의 어깨에 올라서는 것을 추천드립니다. 문제의 핵심주제를 기반으로 이론적인 모델을 찾는 방법입니다. ChatGPT를 도입한 결과에 대한 주제는 Information System(IS)을 조직에 도입한 주제로 추상화할 수 있습니다. 그러면 IS 도입에 따른 수용(Post-Adoption)이라는 주제로 바뀌게 됩니다. 이를 기반으로 학술적 지식기반(Academic Knowledge Base)인 논문을 뒤져보면 됩니다.
과거에는 이러한 과정이 석사나 박사들과 같이 학술적으로 훈련된 사람이 아니면 접근하기 쉽지 않았습니다. 하지만 이제는 생성형 AI의 출현으로 장벽이 확 낮아졌습니다. 생성형 AI에게 현재의 상태와 IFR을 제공하고 관련된 연구모델과 논문을 찾아달라고 하면 됩니다. 가급적이면 해당 분야의 상위저널(Top Journal)이 무엇인지 먼저 물어보시고, 그 저널들 중에서 찾아달라고 하는 것이 좋습니다. 이렇게 생성형 AI를 통해 찾은 논문은 대부분 영어논문입니다. 하지만 이젠 언어와 무관하게 Notebook LM과 같은 훌륭한 RAG 기반 AI 도구를 통해 내용을 정리하고 확인하면 됩니다.
아무튼 연구모델을 찾으면 큰 산을 넘은 것이나 마찬가지입니다. 연구모델은 연구문제를 기반으로 여러 변수(Constructs)들 사이에 관계를 이해하기 쉽게 그려 놓은 것입니다. 연구모델을 살펴보면 자연스럽게 내가 궁금해 하는 문제를 이해하기 쉽게 그려 놓았을 뿐만 아니라 출발지에서 IFR까지 가는 길에 영향을 미치는 변수들을 일목요연하게 근거와 함께 제시해 놓은 것을 볼 수 있습니다.
* 인지-행동 관련 연구모델 중 하나인 ‘정서사건이론(Affective Events Theory)’ 예시

세 번째 할 일인 변수의 측정입니다. 여기서부터는 본격적으로 데이터를 만져야 하기 때문에 경험, 지식, 전문성, 직관이 필요하게 됩니다. 데이터 구조나 속성에 대한 이해도 필요하고, 어떻게 데이터를 다뤄야 하는지 분석도구나 분석절차에 대한 경험도 필요합니다. 하지만 거창하게 R, 파이썬 같은 프로그래밍 도구나 SAS, SPSS, JAMOVI 같은 전문적인 통계 도구가 반드시 필요한 것은 아닙니다. 엑셀로도 가능하고 생성형 AI의 도구를 잘만 활용하면 의미있는 분석이 가능합니다. 물론, 데이터 분석의 경험이 쌓일 수록 좀 더 깊이를 더하는 분석을 하고 싶어지고 그러려면 자연스럽게 앞서 언급한 도구들을 스스로 공부하고 싶어지실겁니다.
또 옆길로 빠졌네요. 다시 이야기로 돌아가서, 앞서 연구모델에 등장하는 변수들을 측정하기 위해서 무슨 데이터를 수집해서 분석할 것인지 살펴보아야 합니다. 앞서 보여드린 연구모델 예시를 기반으로 설명드리자면 개인의 성향을 의미하는 ‘Dispositions’, 정서적 반응을 의미하는 ‘Affective Reaction’, 변화에 대한 태도를 의미하는 ‘Work Attitudes’, 실제로 발생하는 감정에 기반한 행동을 의미하는 ‘Affect-Driven Behaviors’, 실제로 발생하는 이성적 판단에 기반한 행동을 의미하는 ‘Judgement-Driven Behaviors’ 등을 어떻게 측정할 것인지 살표보는 일입니다. 어려운 일로 느껴지시겠지만, 논문에는 각각의 변수가 가진 개념(Construct)에 대한 정의와 실제로 어떤 데이터를 측정했는지 상세하게 설명되어 있습니다. 이를 잘 활용하시면 됩니다.
그러고 나면 이제 분석하는 일이 남습니다. 많은 경우에 통계에 기반한 분석을 어려워하기 때문에 여기서 장벽에 부딪히실 수 있습니다. 처음부터 어려운 것을 하려고 하다가 시작하기도 전에 포기하지 마시고 간단한 회귀분석부터 진행해 보시면 좋습니다. 분석 목적에 따라서 딥러닝이나 머신러닝이 필요한 예측분석 영역도 존재하지만, 먼저 아래의 두 가지를 타겟으로 회귀분석을 진행해 보시면 됩니다.
“내가 궁금한 IFR로 가는 길은 어떤 변수들의 영향을 받는가?”
“IFR에 가까이 다가가려면 확인한 변수들에 어떻게 개입(Intervention)해야 하는가?”
위 내용 중 첫 번째 질문은 내가 당면한 문제의 구조를 제대로 이해하는 과정입니다. 그리고 두 번째 질문은 내가 원하는 IFR을 이끌어 내려면 내가 어떤 활동(Action)을 해야 하는가를 확인하는 과정입니다. 결국 두 번째 질문에 대한 답은 내가 무엇을 해야할지 알려줍니다. 이를 기반으로 후속 업무계획을 설계하고, 일의 우선순위를 결정한 뒤, 진행할 업무에 대해서 의사결정을 받고, 실행하는 순서로 일을 하시면 됩니다. 이것이 ‘Data-driven Decision Making’과 ‘Data-driven Work Innovation’입니다.
마무리하며…
지금까지 설명드린 내용을 살펴보신 뒤 두 가지는 꼭 양해해 주셨으면 합니다. 하나는 데이터를 기반으로 문제를 해결하는 과정과 문제정의 과정을 매우 퉁(?)쳐서 설명드렸다는 점입니다. 정말 뼈대만 말씀드렸습니다. 각각의 과정에서 마주하게 되는 여러가지 상황들과 이를 해쳐나가는 다양한 방법들이 존재할 수 있습니다. 각각의 맥락에서 펼쳐질 일들을 모두 예측하여 설명드리는 것은 제 역량을 벗어나는 일이라 경험하시는 과정에서 보완해 나가시길 기대합니다. 또 다른 하나는 위에 설명드린 절차와 방법에 관한 내용이 100% 공인된 내용은 아니라는 점입니다. 사실 데이터 기반 문제정의라는 영역이 국제 표준으로 존재한다거나 자격증이 존재하는 영역은 아닙니다. 위에 설명드린 내용도 짧지 않은 시간 혼자 공부하고 경험하면서 쌓아올린 내용이니 보는 사람의 시각에 따라서 “에이 저건 아니지!”라던가 “에이 이게 빠졌네!” 싶을 수 있습니다.(세상에는 정말 고수들이 많으시더라구요!) 하지만, 어쨌건 경험한 결과에 따라서 쌓인 내용이니 만큼 적절하게 잘 참고하시면 도움이 되시리라 믿(!)습니다.
설명을 더 드리고 싶지만 미처 담지 못한 내용들도 있습니다. 아래와 같은 내용들입니다.
“인과관계와 상관관계의 관계(?)에 대한 이야기”
“길들여지지 않은 말 같은 데이터의 특성을 길들이는 통계 테크닉”
“왜 통계를 분산의 마법이라고 부르는지?”
“데이터분석 세계의 맥가이버 Feature Engineering과 Proxy Index 뽑아내기”
이런 내용들도 다뤄보면 매우 재미있지만 그러기에는 내용이 너무 길어질 것만 같아 이번에는 여기까지만 정리하려고 합니다. 또 좋은 기회에 제 마음이 동하는 날이 되면 방금 언급한 내용들을 하나씩 까서 열어보려고 합니다. 늘 배우는 자세로 공부하시는 실무자 분들을 존경하고 저도 늘 배우는 사람이 될 수 있도록 노력하겠습니다. 남은 한 해 마무리 잘 하시고 새로운 한 해 행복한 일 가득하시길 바랍니다.