미세 조정
미세 조정(AI)이란?
기계 학습에서 미세 조정은 사전 교육된 모델의 매개변수를 특정 작업 또는 데이터 세트에 적합하게 변경하는 작업을 의미합니다. 이전의 전문성을 유지하면서 대상 작업과 관련한 데이터로 모델을 다시 교육합니다.
- 미세 조정의 작동 원리
- 미세 조정 프로세스
- HPE를 통한 미세 조정
미세 조정의 작동 원리
미세 조정은 모델이 기존의 전문성을 기반으로 관련 작업에서 더 나은 결과를 제공하는 전이 학습과 유사합니다. 사전 교육된 모델을 미세 조정하면 처음부터 시작하는 것보다 적은 컴퓨팅 리소스와 교육 시간으로 더 나은 결과를 얻을 수 있습니다. 이는 현대식 기계 학습 워크플로에서 매우 중요합니다. 자연어 처리와 컴퓨터 비전에서 새로운 작업이나 데이터 세트에 따라 모델을 조정하는 데 사용되기 때문입니다.
미세 조정 프로세스
기계 학습의 미세 조정 단계는 다음과 같습니다.
- 사전 교육된 모델: 대규모 데이터 세트로 교육하고 관련 작업 또는 도메인에서 우수한 결과를 제공한 모델을 선택합니다. 자연어 처리(예: BERT, GPT), 컴퓨터 비전(예: ResNet, VGG) 및 기타 분야는 모두 사전 교육된 모델의 예에 해당합니다.
- 대상 작업 정의: 모델을 미세 조정하기 위한 목적의 작업 또는 데이터 세트를 지정합니다. 감정 분석, 이미지 분류 또는 개체명 인식 등을 고려합니다.
- 데이터 준비: 새로운 작업과 관련한 데이터 세트를 수집하고 처리합니다. 데이터를 각각 훈련, 검증, 테스트 세트로 나누고 적절하게 준비합니다.
- 모델 미세 조정: 경사 하강법을 사용하여 사전 교육된 모델을 새로운 데이터 세트에서 초기화/재교육합니다. 과대적합 또는 과소적합 방지를 위해 하이퍼파라미터와 학습률을 조정합니다.
- 평가 및 검증: 검증 세트에서 미세 조정된 모델의 성능을 추적하고 적절하게 수정합니다. 성능의 미세 조정을 위해 교육 및 평가를 여러 번 해야 할 수 있습니다.
- 테스트 및 배포: 테스트 세트에서 미세 조정된 모델을 테스트하고 일반화 역량을 판단합니다. 마지막으로 미세 조정된 추론 모델을 실제 사례에 적용합니다.
- 이러한 단계에 따라 사전 교육된 모델은 미세 조정 과정에서 새로운 작업 또는 데이터 세트에 적응하여 다양한 기계 학습 응용 분야에서 성능과 적용 가능성이 향상됩니다.
HPE를 통한 미세 조정
Hewlett Packard Enterprise(HPE)는 기계 학습 데이터 패브릭(MLDES) 플랫폼, Gen AI 서비스, Gen AI용 엔터프라이즈 컴퓨팅 솔루션을 사용한 미세 조정을 허용합니다. 다음과 같은 미세 조정을 지원하는 역할을 각각 수행합니다.
- HPE MLDES: MLDES는 대규모의 기계 학습 데이터 세트를 관리 및 처리합니다. 또한 ML 모델 미세 조정을 위한 데이터 준비, 모델 교육, 배포를 간소화합니다. 데이터 소스, 버전 관리, 협업이 MLDES와 원활하게 통합되어 미세 조정 작업이 간소화됩니다.
- HPE AI Services - Gen AI: HPE의 Gen AI 솔루션은 정교한 분석 및 AI로 엔터프라이즈를 지원합니다. 이러한 서비스에는 자연어 처리, 컴퓨터 비전, 예측 분석 툴 및 기술이 포함됩니다. 조직은 Gen AI 서비스를 통해 작업이나 데이터 세트 사용자 정의를 위해 사전 교육된 모델과 프레임워크를 사용할 수 있습니다.
HPE의 Gen AI용 엔터프라이즈 컴퓨팅: HPE의 엔터프라이즈 컴퓨팅 솔루션은 미세 조정을 포함한 AI 워크로드를 지원합니다. 이러한 솔루션에는 HPC 인프라, 확장형 스토리지, AI에 최적화된 클라우드 서비스가 포함됩니다. 기업은 HPE의 엔터프라이즈 컴퓨팅 기능을 활용하여 변화하는 요구 사항에 대응하고 AI 모델 성능을 최적화하도록 미세 조정 작업을 확장할 수 있습니다.
미세 조정과 RAG 비교
방식 | 미세 조정 | RAG(검색 증강 생성) |
---|---|---|
1. 방법 | 사전 교육된 모델 매개변수를 특정 작업 또는 데이터 세트에 적합하게 조정합니다. | 검색 메커니즘을 사용하여 생성 작업을 보완하고, 검색 모델과 생성 모델을 결합합니다. |
2. 교육 데이터 | 미세 조정을 위한 작업별 교육 데이터가 필요합니다. | 검색 구성요소 및 생성 구성요소 모두에 대규모의 텍스트 말뭉치를 사용할 수 있습니다. |
3. 적응성 | 광범위한 작업과 도메인에 더 적합합니다. | 기본적으로 컨텍스트 정보 검색을 활용한 생성 관련 작업에 적합합니다. |
4. 성능 | 작업별 미세 조정으로 우수한 성능을 달성할 수 있습니다. | 성능은 검색된 정보의 품질과 관련성에 따라 큰 차이가 납니다. |
5. 사용 사례 | NLP, 컴퓨터 비전과 같은 다양한 도메인에서 널리 사용됩니다. | 컨텍스트 정보가 필요한 질문 응답, 대화 시스템, 콘텐츠 생성 등의 작업에서 특히 유용합니다. |