예제를 통해 설명되는 기계 학습 정규화 | 베이징 호닝 도구 유한 공사

게티 이미지

기계 학습의 정규화는 기계 학습 모델이 동일한 데이터 세트 내에서 새로운 데이터로 일반화될 수 있도록 하는 데 사용되는 기술 세트입니다. 이러한 기술은 예상 패턴 범위를 벗어나는 노이즈 데이터의 영향을 줄이는 데 도움이 될 수 있습니다. 정규화는 분류 작업 내에서 관련 엣지 케이스를 더 쉽게 감지할 수 있도록 하여 모델을 개선할 수도 있습니다.

스팸 이메일을 식별하도록 특별히 훈련된 알고리즘을 고려해보세요. 이 시나리오에서 알고리즘은 잘 알려진 미국 약국 체인에서 온 것처럼 보이고 스팸일 가능성이 있는 단일 이미지만 포함하는 이메일을 분류하도록 훈련되었습니다. 그러나 이러한 협소한 접근 방식은 매장의 최신 판매 소식을 받기를 고대하고 있던 충성도 높은 체인 고객을 실망시킬 위험이 있습니다. 보다 효과적인 알고리즘은 이메일의 타이밍, 이미지 사용, 이메일에 포함된 링크 유형과 같은 다른 요소를 고려하여 이메일을 스팸으로 정확하게 분류하는 것입니다.

그러나 이 보다 복잡한 모델은 이러한 각 측정값이 알고리즘에 추가하는 영향도 설명해야 합니다. 정규화가 없으면 새 알고리즘이 지나치게 복잡해지고 편향이 발생하며 분산을 감지할 수 없게 될 위험이 있습니다. 아래에서 이러한 개념에 대해 자세히 설명하겠습니다.

PwC의 데이터, AI 및 분석 리더인 Bret Greenstein은 간단히 말해서 정규화를 통해 모델이 훈련되는 동안 복잡성을 줄이게 된다고 설명했습니다.

"정규화는 손실 함수 또는 모델 기능에 중요도를 할당하는 데 사용되는 값에 추가되는 일종의 페널티 역할을 합니다"라고 Greenstein은 말했습니다. "이 페널티는 모델이 해당 기능에 중요성을 과도하게 할당할 수 있는 매개변수를 찾는 것을 방지합니다."

따라서 정규화는 데이터 과학자가 더 나은 일반화를 달성하기 위해 모델 훈련을 개선하거나 알려지지 않은 사례에 노출되었을 때 모델이 잘 작동할 가능성을 높이기 위해 사용할 수 있는 중요한 도구입니다.

디지털 혁신 컨설팅 회사 UST의 AI 및 기계 학습 수석 설계자 Adnan Masood는 자신의 회사가 정규화를 정기적으로 사용하여 모델 복잡성과 성능 간의 균형을 유지하고 과소적합과 과적합을 모두 적절하게 피한다고 말했습니다.

위에서 설명한 대로 과적합은 모델이 너무 복잡하고 훈련 데이터에서 노이즈를 학습할 때 발생합니다. 과소적합은 모델이 너무 단순하여 기본 데이터 패턴을 캡처할 수 없을 때 발생합니다.

"정규화는 이 두 극단 사이의 최적의 균형을 찾는 수단을 제공합니다"라고 Masood는 말했습니다.

소매업에서 정규화를 사용하는 또 다른 예를 생각해 보세요. 이 시나리오에서 기업은 특정 제품의 품절 시기를 예측할 수 있는 모델을 개발하려고 합니다. 이를 위해 기업에서는 과거 판매 데이터, 계절성, 프로모션 이벤트, 날씨나 휴일과 같은 외부 요인 등 다양한 기능을 갖춘 교육 데이터 세트를 개발했습니다.

그러나 모델이 훈련 데이터의 특정 패턴과 너무 밀접하게 연결되어 있으면 과적합으로 이어질 수 있으며, 그 결과 보이지 않는 새로운 데이터를 기반으로 품절을 예측하는 데 효율성이 떨어질 수 있습니다.

Masood는 "정규화가 없으면 우리의 기계 학습 모델은 잠재적으로 교육 데이터를 너무 잘 학습하고 과거 데이터의 노이즈나 변동에 지나치게 민감해질 수 있습니다."라고 말했습니다.

이 경우 데이터 과학자는 선형 회귀 모델을 적용하여 실제 품절 사례와 예상 품절 사례 간의 제곱 차이의 합을 최소화할 수 있습니다. 이는 모델이 하나의 기능에 너무 많은 중요성을 할당하는 것을 방해합니다.

또한 정규화의 강도를 결정하기 위해 람다 매개변수를 할당할 수도 있습니다. 이 매개변수의 값이 높을수록 정규화가 증가하고 모델 계수(모델의 가중치)가 낮아집니다.

이 정규화된 모델이 훈련되면 훈련 데이터 피팅과 모델 가중치를 작게 유지하는 균형이 유지됩니다. 그 결과 훈련 데이터에서는 정확도가 떨어질 수 있지만, 보이지 않는 새로운 데이터에 대한 재고 부족을 예측할 때는 더 정확한 모델이 탄생합니다.