빙응의 공부 블로그

[8주차] 본문

goorm

[8주차]

빙응이 2024. 10. 16. 13:54

이번 주차는 모두 인공지능이기에 인공지능 하나하나씩 설명하겠다

📝 TF-IDF (Term Frequency - Inverse Document Frequency)

📌 개념
텍스트 데이터를 벡터화(수치화)하는 방법 중 하나로, 각 단어의 중요도를 계산하는 형식입니다.

  • TF (Term Frequency)
    특정 단어가 문서 내에서 얼마나 자주 등장하는지에 대한 빈도입니다. 자주 등장할수록 TF 값이 높아집니다.
  • IDF (Inverse Document Frequency)
    단어가 전체 문서에서 얼마나 자주 등장하는지 나타냅니다. 특정 단어가 많은 문서에 걸쳐 자주 등장할수록 IDF 값이 낮아집니다.
  • 결합
    TF-IDF = TF * IDF로 계산되며, 특정 문서 내에서 자주 등장하지만 전체 문서에서는 자주 나타나지 않는 단어의 중요도를 높여줍니다.

📌 활용
문서의 특징을 잘 나타내는 단어를 추출하거나, 텍스트 분류, 군집화, 검색 엔진 등에 사용됩니다.

 

📝 XGBoost (Extreme Gradient Boosting)

📌 개념
의사결정나무(Decision Tree) 기반의 앙상블 학습 알고리즘으로, 여러 개의 약한 학습기(weak learner)를 결합해 강한 학습기(strong learner)를 만드는 방식입니다. 주로 회귀, 분류 문제를 해결할 때 사용됩니다.

  • Gradient Boosting
    이전 모델이 예측하지 못한 오차를 다음 모델이 줄여가는 방식으로 학습하는 부스팅 기법입니다.
  • Extreme
    기존 Gradient Boosting보다 빠르고 성능이 좋은 알고리즘으로, 병렬 처리와 과적합 방지 등의 기능이 추가되어 있습니다.

📌 장점

  • 높은 성능과 속도
  • 과적합 방지 기능 (정규화, 트리 가지치기 등)
  • 다양한 파라미터 튜닝 기능

📌 활용
분류(Classification), 회귀(Regression), 순위(Ranking) 문제 등 다양한 머신 러닝 문제에 폭넓게 사용됩니다.

 

 

📝 BERT (Bidirectional Encoder Representations from Transformers)

📌 개념
BERT는 구글에서 개발한 사전 훈련된 언어 모델로, 자연어 처리(NLP) 작업에서 문맥을 이해하는 데 강력한 성능을 보입니다. Transformer 아키텍처를 기반으로 하며, 양방향 문맥을 고려하여 단어의 의미를 보다 정교하게 파악합니다.

📌 주요 특징

  • 양방향성: BERT는 입력 문장의 양쪽(context)에서 단어를 동시에 고려하여 문맥을 이해합니다. 이를 통해 더 정확한 의미 파악이 가능합니다.
  • 사전 훈련 및 미세 조정:
    • BERT는 두 가지 주요 작업을 통해 사전 훈련됩니다:
      1. Masked Language Model (MLM): 문장에서 임의로 선택된 단어를 마스킹(masking)하고, 모델이 해당 단어를 예측하도록 학습합니다.
      2. Next Sentence Prediction (NSP): 두 문장이 주어졌을 때, 두 문장이 실제로 연결된 문장인지 여부를 예측하는 작업입니다.
    • 사전 훈련 후, 특정 NLP 작업에 맞게 미세 조정(fine-tuning)하여 성능을 최적화합니다.

📌 장점

  • 높은 성능: 다양한 NLP 태스크(감정 분석, 질문 응답, 텍스트 분류 등)에서 높은 정확도를 보입니다.
  • 유연성: 다양한 자연어 처리 작업에 적용 가능하며, 적은 양의 데이터로도 좋은 성능을 낼 수 있습니다.
  • 사전 훈련된 모델: Hugging Face의 Transformers 라이브러리를 통해 손쉽게 사용할 수 있는 사전 훈련된 모델이 제공됩니다.

📌 활용

  • 감정 분석: 문장의 감정을 분류하는 작업
  • 질문 응답: 주어진 질문에 대해 문서에서 답변을 찾는 작업
  • 텍스트 요약: 긴 문서를 간결하게 요약하는 작업
  • 정보 추출: 문서에서 필요한 정보를 추출하는 작업

BERT는 NLP 분야에서 혁신적인 모델로, 다양한 응용 분야에서 성능을 극대화하는 데 기여하고 있습니다.

 

'goorm' 카테고리의 다른 글

[7주차]  (2) 2024.10.08
[6주차]이미지 처리와 OpenCV 인식  (0) 2024.10.02
[4,5주차]  (1) 2024.09.25
[3주차]Django  (1) 2024.09.09
[2주차]Django 본격적인 시작  (0) 2024.09.02