LLM : Large Language Model 대규모 언어 모델
방대한 텍스트 데이터를 기반으로 사전 학습된 딥 러닝 모델로 인간의 언어를 이해하고 생성하며 번역, 요약, 질의응답 등 다양한 자연어 처리 작업을 수행할 수 있는 인공지능 모델이다.
LLM 은 방대한 데이터 세트를 학습해 대규모 라는 이름이 붙었다.
LLM은 문자, 단어, 문장이 함께 작동하는 방식을 이해하기 위해 딥러닝이라는 일종의 머신 러닝을 사용한다. 딥러닝은 비정형 데이터의 확률적 분석을 포함하며, 딥러닝 모델은 사람의 개입 없이도 콘텐츠 간의 구분을 인식할 수 있다.
딥러닝과 LLM 의 관계?
딥 러닝은 인간의 두뇌에서 영감을 받은 방식으로 컴퓨터가 데이터를 처리하도록 가르치는 방법이다.
대규모 비정형 데이터에서 패턴과 구조를 스스로 학습할 수 있다는 특징이 있다.
딥러닝 모델은 기본적으로 사람의 개입 없이도 구분을 인식하도록 스스로 학습하는 자기 지도 학습(Self-supervised learning)을 사용한다.
LLM 은 딥러닝을 기반으로 한다.
이러한 특성 덕분에 LLM 은 대용량의 데이터를 학습한 후, 불완전한 문장을 자연스럽게 완성 또는 새로운 문장을 생성할 수 있다.
LLM의 학습 단계
LLM은 대부분 자기 지도 학습으로 학습된다.
Pre-training 사전 학습: 언어의 일반적인 패턴을 학습하는 것이 목적으로, 웹 문서, 책, 코드 등 다양한 데이터를 학습한다. 이 단계가 끝난 모델은 문법은 잘 맞지만 질문에 제대로 답하지는 못할 수 있다.
Fine-tuning 미세 조정: 사전 학습된 모델을 특정 모델에 맞게 추가 학습하는 단계이다. ex) 은행 ai 챗봇, 코드 생성 특화 모델 등. 이 때는 레이블이 있는 데이터를 사용한다.
Prompting 프롬프트 기반 조정: 모든상황에서 미세 조정을 할 수는 없기에 프롬프트 기반 제어를 사용한다.
LLM의 작동 원리
LLM은 본질적으로 거대한 통계적 예측 기계이다. 문장의 의미를 이해한다기 보다는 이전 까지의 문장을 기반으로 다음에 올 문장의 확률을 예측하는 방식으로 동작한다.
Pre-training: 딥러닝이라는 과정을 사용하여 방대한 양의 비정형 데이터를 분석하고 학습한다.
Tokenization: LLM은 문장을 그대로 이해하지 못해 모든 입력은 토큰 (token) 이라는 단위로 쪼개진다. 각 토큰에 고유한 ID 를 할당해 LLM이 이해할 수 있는 형태로 변환한다.
Embedding: 신경망은 토큰을 그대로 처리할 수 없다. 그래서 각 토큰은 고차원 벡터 (숫자 배열) 로 변환된다. 벡터에는 단어의 의미적, 문법적 특징을 포함한다. 이 과정은 LLM은 단순한 키워드 매칭이 아니라 의미 기반 처리를 가능하게 한다.
Positional Encoding: 트랜스포머는 순서를 직접 알 수 없기 때문에 단어의 순서 정보를 벡터에 추가한다. 이를 통해 LLM 이 문장 내에서 단어의 위치와 순서를 인식한다.
Transformer & Attention: 문맥 관계를 파악하고 단어를 정제한다. 트랜스포머는 문장의 단어들과 같은 순차 데이터에서 관계를 추적하여 맥락과 의미를 학습하는 신경망이다.
트랜스포머 내부에서는 Multi-Head Attention과 Feedforward, Residual 연결, LayerNorm 등을 반복하여 문맥을 정교하게 이해한다
트랜스포머를 통해 텍스트를 한 번에 입력 받아 병렬처리를 한다.
어텐션을 사용해 문장 내 모든 단어들의 관계를 파악하고 어떤 단어에 집중해야하는지 맥락적 의미를 파악한다.
Prediction: 파악한 문맥을 바탕으로 다음에 올 토큰에 대한 확률 분포를 계산한다. 이 과정을 반복해 문장을 완성시킨다.
Loop & Decoding: 선택한 단어를 다시 입력에 넣고 문장이 끝날 때 까지 반복한다.
Detokenization: 토큰 ID -> 사람이 읽을 수 있는 텍스트로 변환해 최종 응답을 반환한다.
LLM이 중요한 이유 & 사용 사례
대형 언어 모델은 매우 유연하다. 한 모델은 질문에 답하고, 문서를 요약하고, 언어를 번역하고, 문장을 완성하는 등 다른 작업을 수행할 수 있다. 또한 특정 작업에 맞게 미세 조정 가능해 확장이 가능하다.
가장 잘 알려진 사용 사례중 하나는 ChatGP, 프롬프트다 주어지거나 질문을 받으면 응답을 텍스트, 이미지 등으로 생성할 수 있는 생성형 AI로서의 응용이다.
LLM은 인간보다 훨씬 더 빠르게 방대한 양의 텍스트 콘텐츠를 처리할 수 있기 때문에 문서 검토 또는 법률 연구와 같은 분야에서 매우 강력한 도구가 될 수 있다. 또한 LLM은 반복적이고 일상적인 작업을 자동화하여 생산성과 효율성을 상승시키는데 기여 할 수 있다.
LLM의 한계와 도전 과제
컴퓨팅, 시간 비용: LLM 을 유지하고 개발하는 데는 상당한 자본과 전문 지식, 대규모 컴퓨팅 인프라가 필요하다. LLM을 훈련시키려면 수천 개의 GPU가 필요하고 몇 주에서 몇 달의 시간을 훈련에 할애해야한다.
필요한 데이터의 규모: LLM 을 학습 시키기 위해선 대규모 데이터가 필요하다. 이 데이터를 엑세스 하는데 어려움을 겪기도 하고, 모델 훈련에 필요한 데이터가 존재하지 않을 수도 있다.
보안 위험: 의적인 입력을 통해 LLM을 조작하여 위험하거나 비윤리적인 응답 등 특정 유형의 응답을 다른 응답보다 우선적으로 제공하도록 할 수도 있다. 또한 사용자가 자신의 생산성을 높이기 위해 보안 기밀 데이터를 LLM에 업로드할 수 있어 민감 데이터가 유출 될 수 있다.
Hallucination 할루시네이션 (환각): 사용자 질문에 그럴듯하게 들리는 응답을 생성하기 위해 정보를 만들어내는 경우로 이로 인해 잘못된 정보가 확산될 수 있다.
편향: 훈련 데이터가 다양성이 부족하거나 특정 사용자 입력에 편향되어 있으면, 모델이 이러한 편향을 재현하여 편향되고 좁은 관점을 반영하는 출력을 생성할 수 있다
저작권: 규모 언어 모델은 방대한 데이터 세트로 훈련을 받는데, 일부는 명시적인 동의 없이 혹은 저작권 계약을 준수하지 않고 수집되었을 수 있다.
'AI' 카테고리의 다른 글
| 프롬프트 엔지니어링 Prompt Engineering 이란 (0) | 2026.01.22 |
|---|---|
| Claude Code 란 (0) | 2026.01.21 |
| Hallucination 할루시네이션 환각 이란 (0) | 2026.01.21 |