티스토리 뷰
ChatGPT에 관심이 있으신가요? ChatGPT 관련 필수 용어를 배워 인공지능 기술에 대한 이해를 높여보세요.
핵심
인공지능 기술에 대한 깊이 있는 지식을 얻을 수 있도록, ChatGPT와 관련된 필수 용어를 알아볼 수 있습니다.
* 구성
- ChatGPT란?
- GPT-4 아키텍처
- 트랜스포머(Transformer)
- 자연어 처리(NLP)
- 토큰화(Tokenization)
- 파인 튜닝(Fine-tuning)
- 오픈AI(OpenAI)
- 인공지능(AI)
- 머신러닝(Machine Learning)
- 딥러닝(Deep Learning)
- Chatgpt 관련 알아두면 좋을 용어 리스트업
* 상위문서
- 인공지능 기초 개념
- 머신러닝 이해하기
- 딥러닝 알아보기
1. ChatGPT란?
ChatGPT는 OpenAI에서 개발한 대화형 인공지능 언어 모델로, 자연어 처리(NLP)를 기반으로 합니다. 이 기술을 통해 사용자와 자연스러운 대화를 나눌 수 있습니다.
2. GPT-4 아키텍처
GPT-4는 ChatGPT의 기반 아키텍처로, Generative Pre-trained Transformer 4의 약자입니다. 이 아키텍처는 대규모 데이터를 학습하여 다양한 언어 작업을 수행할 수 있습니다.
3. 트랜스포머(Transformer)
트랜스포머는 인공지능의 자연어 처리 분야에서 혁신적인 아키텍처이며, 순차적인 정보 처리 방식이 아닌 병렬 처리 방식을 사용합니다.
4. 자연어 처리(NLP)
자연어 처리는 인공지능이 사람들이 사용하는 언어를 이해하고 처리하는 기술입니다. NLP를 통해 인공지능은 텍스트 분석, 감정 분석, 기계 번역 등의 작업을 수행할 수 있습니다.
5. 토큰화(Tokenization)
토큰화는 텍스트를 의미 있는 단위(토큰)로 분리하는 과정으로, 이 과정을 통해 인공지능은 텍스트를 이해할 수 있게 됩니다.
6. 파인 튜닝(Fine-tuning)
파인 튜닝은 이미 학습된 모델을 특정 작업에 맞게 조정하는 과정입니다. 이를 통해 모델은 새로운 문제를 더 효과적으로 해결할 수 있습니다.
7. 오픈AI(OpenAI)
오픈AI는 인공지능 연구를 수행하는 기관으로, 인공지능의 발전을 촉진하고 인류에 이익을 가져오는 것을 목표로 합니다. ChatGPT는 오픈AI에서 개발을 했습니다.
8. 인공지능(AI)
인공지능은 컴퓨터 시스템이 사람처럼 학습하고, 추론하고, 문제를 해결하는 능력을 갖춘 기술로, 머신러닝과 딥러닝 기술을 통해 발전하고 있습니다.
9. 머신러닝(Machine Learning)
머신러닝은 컴퓨터가 데이터를 통해 학습하고, 패턴을 찾고, 문제를 해결하는 인공지능의 한 분야로, 이를 통해 컴퓨터는 명시적인 프로그래밍 없이도 작업을 수행할 수 있습니다.
10. 딥러닝(Deep Learning)
딥러닝은 인공신경망을 기반으로 한 머신러닝의 한 분야로, 높은 수준의 복잡한 패턴을 인식하고 처리할 수 있다. 이 기술은 이미지 인식, 음성 인식, 자연어 처리 등 다양한 분야에서 활용되고 있다.
11. Chatgpt 관련 알아두면 좋을 용어 리스트업
다음은 Chatgpt와 관련해서 알아두면 좋을 용어들을 리스트업한 자료입니다.
- GPT: Generative Pre-trained Transformer의 약자입니다. 기계 학습 모델 중 하나입니다.
- Transformer: 2017년 구글에서 발표한 딥러닝 아키텍처입니다. 언어 처리 작업에 유용합니다.
- Pre-training: 대규모 데이터 세트를 사용하여 모델을 사전 학습하는 것입니다.
- Fine-tuning: 사전 학습된 모델을 새로운 작업에 적용하여 조정하는 것입니다.
- Natural Language Processing (NLP): 인간 언어를 컴퓨터가 처리하는 기술입니다.
- Language Model: 문장의 확률 분포를 모델링하여 자연어 생성 작업을 수행하는 모델입니다.
- Token: 자연어 처리에서 문장을 작은 단위로 쪼개는 과정에서 생성된 문자열입니다.
- Embedding: 단어나 문장을 벡터 형태로 변환하는 기술입니다.
- Attention Mechanism: Transformer 모델에서 사용되는 메커니즘으로, 입력 시퀀스의 각 단어에 가중치를 부여합니다.
- Context: 문장에서 단어가 놓인 환경이나 맥락입니다.
- Dialogue: 두 명 이상의 사람들 사이에서 이루어지는 대화입니다.
- Corpus: 텍스트 데이터의 모음이나 집합을 의미합니다.
- BERT: Bidirectional Encoder Representations from Transformers의 약자입니다. GPT와 유사한 모델입니다.
- Encoder: 입력 시퀀스를 벡터 형태로 인코딩하는 네트워크입니다.
- Decoder: 인코딩된 벡터를 원하는 출력 형식으로 디코딩하는 네트워크입니다.
- Overfitting: 모델이 학습 데이터에 과적합되어 새로운 데이터에서 성능이 저하되는 현상입니다.
- Underfitting: 모델이 복잡도가 낮아 학습 데이터에서도 제대로 동작하지 않는 현상입니다.
- Perplexity: 언어 모델의 성능을 나타내는 지표 중 하나입니다.
- Fine-tuning Data: 모델을 fine-tuning하기 위해 사용되는 작은 데이터 세트입니다.
- Backpropagation: 딥러닝 모델에서 오차를 최소화하기 위해 사용되는 알고리즘입니다.
- Dropout: 딥러닝에서 과적합을 방지하기 위해 무작위로 일부 뉴런을 비활성화하는 기법입니다.
- Gradient Descent: 오차를 최소화하는 방향으로 모델을 업데이트하는 최적화 알고리즘입니다.
- Learning Rate: Gradient Descent에서 업데이트하는 정도를 결정하는 하이퍼파라미터입니다.
- Epoch: 학습 데이터 전체를 한 번 훑는 것을 1 epoch이라고 합니다.
- Batch: 학습 데이터를 몇 개씩 잘라서 모델을 학습시키는 단위입니다.
- One-shot Learning: 적은 양의 데이터로도 모델이 학습할 수 있도록 하는 기술입니다.
- Zero-shot Learning: 학습에 사용된 적이 없는 클래스에 대해 예측할 수 있도록 하는 기술입니다.
- Few-shot Learning: 적은 양의 데이터를 이용하여 새로운 클래스를 학습시키는 기술입니다.
- Transfer Learning: 학습된 모델을 다른 작업에 이용하여 학습을 빠르게 할 수 있는 기술입니다.
- Supervised Learning: 입력과 출력 데이터를 제공하여 모델을 학습시키는 방법입니다.
- Unsupervised Learning: 출력 데이터가 없는 데이터를 이용하여 모델을 학습시키는 방법입니다.
- Semi-supervised Learning: 일부 데이터에만 출력 데이터를 제공하여 모델을 학습시키는 방법입니다.
- Reinforcement Learning: 보상과 패널티를 통해 모델을 학습시키는 방법입니다.
- Multi-task Learning: 여러 작업을 동시에 학습시켜서 모델의 일반화 능력을 향상시키는 방법입니다.
- Data Augmentation: 데이터의 양을 늘리거나 다양성을 높이기 위해 사용되는 기술입니다.
- Word Sense Disambiguation: 단어의 다의성 문제를 해결하기 위한 기술입니다.
- Named Entity Recognition: 문장에서 명사 등에서 이름, 지명, 날짜 등 특정 정보를 추출하는 기술입니다.
- Part-of-Speech Tagging: 문장에서 단어의 품사를 태깅하는 기술입니다.
- Dependency Parsing: 문장에서 단어 간의 문법적인 의존 관계를 파악하는 기술입니다.
- Constituency Parsing: 문장을 구성하는 구조를 파악하는 기술입니다.
- Machine Translation: 한 언어에서 다른 언어로의 번역을 수행하는 기술입니다.
- Text Classification: 텍스트를 특정 카테고리에 할당하는 작업입니다.
- Sentiment Analysis: 문장이나 단락의 긍정적, 부정적, 또는 중립적인 감정을 판단하는 기술입니다.
- Topic Modeling: 문서 집합에서 주제를 추출하는 기술입니다.
- Text Summarization: 긴 텍스트를 요약하는 기술입니다.
- Question Answering: 질문에 대한 답변을 생성하는 기술입니다.
- Text Generation: 자연어로 된 문장을 생성하는 기술입니다.
- Speech Recognition: 음성 신호를 인식하여 텍스트로 변환하는 기술입니다.
- Speaker Recognition: 음성 신호를 통해 화자를 인식하는 기술입니다.
- Emotion Recognition: 음성, 얼굴 표정 등을 분석하여 감정을 판단하는 기술입니다.
- Style Transfer: 주어진 텍스트의 스타일을 변경하는 기술입니다.
- Text-to-Speech: 텍스트를 음성으로 변환하는 기술입니다.
- Speech-to-Text: 음성을 텍스트로 변환하는 기술입니다.
- OCR: 이미지나 스캔한 문서에서 텍스트를 추출하는 기술입니다.
- Information Retrieval: 대규모 문서에서 특정 정보를 검색하는 기술입니다.
- Recommender System: 사용자에게 관심 있는 상품, 영화, 음악 등을 추천하는 시스템입니다.
- Deep Learning: 딥러닝은 인공신경망의 구조를 활용한 머신러닝의 한 분야로, 다양한 자연어 처리 작업에서 사용됩니다.
- Neural Network: 인공신경망은 딥러닝에서 가장 기본이 되는 개념으로, 다양한 자연어 처리 작업에서 사용됩니다.
- LSTM: Long Short-Term Memory의 약자로, RNN의 한 종류로서, 자연어 처리에서 시계열 데이터를 처리할 때 많이 사용됩니다.
- Word2Vec: 단어를 벡터로 변환하는 기법 중 하나로, 자연어 처리 작업에서 사용됩니다.
- GloVe: Global Vectors for Word Representation의 약자로, 자연어 처리 작업에서 단어의 분산 표현을 제공합니다.
- Attention: 입력 데이터 중 특정 부분에 집중하여 가중치를 부여하는 메커니즘으로, 자연어 처리 작업에서 다양하게 사용됩니다.
- Recurrent Neural Network (RNN): 시계열 데이터를 처리하는 데 적합한 인공신경망으로, 자연어 처리 작업에서 다양하게 사용됩니다.
- Convolutional Neural Network (CNN): 이미지 처리에 적합한 인공신경망으로, 자연어 처리 작업에서도 사용됩니다.
- Autoencoder: 입력 데이터를 압축하고 복원하는 네트워크로, 자연어 처리 작업에서도 사용됩니다.
- Sequence-to-Sequence (Seq2Seq): 시퀀스 데이터를 입력으로 받아 다른 시퀀스를 출력하는 네트워크로, 기계 번역 등 자연어 처리 작업에서 많이 사용됩니다.
- Generative Adversarial Network (GAN): 생성자와 구분자로 구성된 네트워크로, 자연어 처리 작업에서도 사용됩니다.
- Bag of Words (BoW): 문서를 단어의 집합으로 간주하여 분석하는 방법으로, 자연어 처리 작업에서 사용됩니다.
- Term Frequency-Inverse Document Frequency (TF-IDF): 단어의 중요도를 계산하는 방법 중 하나로, 자연어 처리 작업에서 BoW와 함께 사용됩니다.
- Word Frequency: 단어의 빈도수를 계산하는 방법으로, 자연어 처리 작업에서 BoW와 함께 사용됩니다.
- Stop Words: 문서에서 빈번하게 나타나는 단어로, 자연어 처리 작업에서 제거됩니다.
- Stemming: 단어의 어간을 추출하는 방법으로, 자연어 처리 작업에서 사용됩니다.
- Lemmatization: 단어의 원형을 추출하는 방법으로, 자연어 처리 작업에서 사용됩니다.
- Named Entity: 문장에서 특정한 이름을 가진 개체로, 자연어 처리 작업에서 인식됩니다.
- Parallel Corpus: 두 언어를 포함한 병렬 문서의 집합으로, 기계 번역 등 자연어 처리 작업에서 사용됩니다.
- Multi-lingual Corpus: 여러 언어로 이루어진 문서의 집합으로, 다국어 자연어 처리 작업에서 사용됩니다.
- N-gram: 문장에서 연속된 N개의 단어를 추출하는 방법으로, 자연어 처리 작업에서 사용됩니다.
- Permutation Test: 통계적으로 유의미한 차이를 찾기 위해 사용되는 방법 중 하나입니다.
- Significance Test: 두 가지 값이 유의미한 차이가 있는지 확인하는 통계적인 방법입니다.
- Normalization: 데이터의 크기나 범위를 조정하여 분석에 용이하게 만드는 방법입니다.
- Vectorization: 텍스트 데이터를 숫자 벡터로 변환하는 과정입니다.
- Feature Extraction: 데이터에서 중요한 정보를 추출하는 과정입니다.
- Over Sampling: 소수 클래스의 데이터를 증가시켜 데이터의 불균형을 해결하는 방법 중 하나입니다.
- Under Sampling: 다수 클래스의 데이터를 감소시켜 데이터의 불균형을 해결하는 방법 중 하나입니다.
- Ensemble Learning: 여러 모델을 결합하여 더 나은 성능을 내는 방법입니다.
- Bias-Variance Tradeoff: 모델의 편향과 분산 사이의 균형을 유지하는 것이 중요한 개념입니다.
- Grid Search: 하이퍼파라미터 튜닝을 위해 사용되는 방법 중 하나입니다.
- Cross Validation: 모델의 성능을 평가하는 방법 중 하나입니다.
- Precision: 모델이 정확하게 예측한 긍정 결과의 비율입니다.
- Recall: 실제 긍정인 샘플 중 모델이 맞게 예측한 비율입니다.
- F1-Score: Precision과 Recall의 조화 평균으로, 모델의 전반적인 성능을 나타냅니다.
- Confusion Matrix: 모델의 예측 결과와 실제 결과를 비교한 결과를 나타내는 행렬입니다.
- ROC Curve: 모델의 분류 성능을 시각화한 그래프입니다.
- AUC: ROC Curve 아래쪽의 면적으로, 모델의 분류 성능을 나타냅니다.
- Precision-Recall Curve: 모델의 분류 성능을 시각화한 그래프입니다.
- BLEU Score: 기계 번역의 성능을 평가하는 지표 중 하나입니다.
- Perplexity: 언어 모델의 성능을 평가하는 지표 중 하나입니다.
- Language Generation Evaluation (LGE): 자연어 생성 모델의 성능을 평가하는 지표 중 하나입니다.
- Machine Comprehension Test (MCT): 기계 독해 모델의 성능을 평가하는 지표 중 하나입니다.
- Human Evaluation: 인간 평가를 통해 모델의 성능을 평가하는 방법입니다.
이렇게 ChatGPT 관련 필수 용어에 대해 다뤄보았습니다. 이 용어들을 바탕으로 인공지능 기술을 더 깊게 이해하고 활용해나가보면 좋으며, 앞으로 인공지능 기술을 더욱 활용하고자 한다면, 상위문서와 추천 주제를 참고하여 더 많은 정보를 얻어보세요.
* 함께 읽으면 좋을 연관 주제
- 인공지능을 활용한 실용적인 프로젝트