개발자를 위한 LLM 엔지니어링- 3. LLM의 동작 tokenizer
이전글에는 LLM 동작에 대한 아주 기초적인 학습 개념에 대해서 작성했었습니다. 이번글에서는 한단계 더 들어가서 실제로 LLM 이 데이터를 어떻게 인식하고 처리하는지에 대한 파이프라인을 살펴보겠습니다.결국은 LLM도 컴퓨터가 처리하는 것이기 때문에 입력 받는 문자열을 수치화 하여 입력을 해야 합니다.LLM에 원하는 입력을 하기 위해서는 데이터 전처리 단계가 필요하며 이 전처리가 끝나면 수치값으로 변환 됩니다.위처럼 문장을 데이터 전처리를 하여 수치화로 변환하는 작업은 tokenizer 가 진행 합니다.이런 tokenizer 는 다시 정규화 -> 사전토큰화 -> 학습 -> 사후처리 프로세스로 구분됩니다.정규화 단계에서는 공백 제거, 소문자 변환 및 악센트 제거 등과 같이 문자열의 일반적인 정제 작업을 진..
AI엔지니어링
2024. 9. 11. 14:31