'Machine Learning' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Machine Learning (5)

Sun.El Data Analysis

[문서유사도] 코사인 유사도(TfidfVectorizer, cosine_similarity)_

문서유사도란? 문서와 문서간의 유사도가 어느정도인지 나타내는 척도로 지금 보고 있는 뉴스와 가장 유사한 뉴스를 추천해주기도 하고, 줄거리를 기반으로 내가 본 영화와 가장 유사한 영화를 추천해 줄 수 있음 문서 유사도를 측정하는 방법으로 다음과 같은 지표가 있지만, 코사인 유사도(Cosine Similarity)를 많이 사용함 Cosine Similarity, Jaccard Similarity, Manhattan Distance, Eucliden Distance 1. 코사인 유사도(Cosine Similarity) 개념 코사인 유사도란 벡터와 벡터 간의 유사도를 비교시 두 벡터 간의 사잇각을 구해서 얼마나 유사한지 수치로 나타낸 것 벡터 방향이 비슷할 수록 두 벡터는 서로 유사하며, 두 벡터가 완전히 동일..

Machine Learning 2023. 8. 2. 23:34

[자연어처리] 네이버 영화 평점 정보 분석(konlpy - Twitter, sklearn - TfidfVectorizer, LogisticRegression, GridSearchCV, accuracy_score)_

총 200,000개 리뷰로 구성된 영화 리뷰에 대한 긍정(1), 부정(0) 평가한 데이터를 이용하여 자연어처리와 리뷰 긍정/부정 평가 머신모델을 만들자 데이터 다운로드 링크 : https://github.com/e9t/nsmc/ 1. 데이터 이해 및 전처리 add check point! 1. re.sub('패턴', '바꿀문자열', '문자열', 바꿀횟수) 2. lambda [In] import pandas as pd #https://github.com/e9t/nsmc train_df = pd.read_csv('./0731/ratings_train.txt', sep='\t') test_df = pd.read_csv('./0731/ratings_test.txt', sep='\t') train_df.head(3..

Machine Learning 2023. 7. 31. 23:28

[자연어처리] 문서 군집화(nltk - WordNetLemmatizer, sklearn - TfidfVectorizer, KMeans)_

문서 군집화(Document Clustering)는 비슷한 텍스트 구성의 문서를 군집화(Clustering)하는 것 문서 군집화는 동일한 군집에 속하는 문서를 같은 카테고리 소속으로 분류 학습 데이터 세트가 필요없는 비지도학습 기반으로 동작 문서 군집화는 문서를 피처 벡터화한 데이터 세트에 군집화 알고리즘 적용 일반적으로 K-Means 군집화가 적용될 수 있음 1. 데이터 로딩 UCI 머신러닝 리포지토리에 있는 Opinion Review 데이터 세트 (참고사이트) https://archive.ics.uci.edu/ml/machine-learning-databases/opinion/ 51개의 텍스트 파일로 구성 Tripadvisor(호텔), Edmunds.com(자동차), Amazon.com(전자제품) 사..

Machine Learning 2023. 7. 31. 18:33

[사이킷런] Kneighborsclassier() (k-최근접 이웃 분류 모델) - 데이터스케일링 적용

1. 데이터 준비하기 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0] fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, ..

Machine Learning 2023. 7. 30. 17:44

이전 Prev 1 2 Next 다음

목록Machine Learning (5)

Sun.El Data Analysis

티스토리툴바