파이썬을 활용한 텍스트마이닝

  • 전체 학생/대학원생
  • 전체 학년/전체 성별
  • 전체 학과
  • ehwa_jang@sookmyung.ac.kr
  • 02-710-9819
  • 온라인
본 비교과 프로그램은 디지털 시대의 연구 환경 변화에 대응하기 위해 개발되었으며, 인문사회과학 분야 학생들에게 텍스트 데이터 분석과 데이터 기반 연구 방법론을 교육합니다. 프로그램은 기본 개념부터 실제 분석 도구 활용까지 체계적인 교육 과정을 제공하며, 데이터 수집, 전처리, 통계 분석, 시각화 등 실무적 스킬을 습득할 수 있도록 구성되어 있습니다. 이를 통해 학생들은 연구 방법의 다양화와 데이터 분석 역량 강화를 이룰 수 있으며, 궁극적으로 학술 연구의 질적 향상과 취업 경쟁력 제고에 기여할 것으로 기대됩니다.

로그인이 필요합니다.

핵심역량 지수
나의 역량 지수
로그인이 필요합니다
나의 신청내역
  • 프로그램 일정 상태 비고
세부내용

70%이상 이수 시, 이수완료 처리  


프로그램 내용

1회차: 파이썬 문법 기초

세부 주제: 데이터 분석을 위한 파이썬 기초 문법 이해 (변수, 함수, 제어문 등)

프로그램 예시: 문자열 처리, 리스트 활용, for 반복문을 이용한 데이터 처리


2회차: Pandas를 활용한 데이터 핸들링

세부 주제: Pandas를 이용한 데이터 프레임 생성 및 기초 핸들링

프로그램 예시: CSV 파일 불러오기, 데이터프레임 필터링 및 그룹화


3회차: 공공 데이터/API를 활용한 데이터 수집

세부 주제: 공공 API를 사용하여 텍스트 데이터 수집하기

프로그램 예시: requests 모듈을 이용해 공공 데이터 포털에서 데이터 가져오기


4회차: 웹 스크래핑을 활용한 데이터 수집

세부 주제: 웹 페이지에서 텍스트 데이터 추출하기 (크롤링)

프로그램 예시: BeautifulSoup을 이용해 웹 페이지의 뉴스 기사 텍스트 크롤링


5회차: 텍스트 데이터 전처리 (정규표현식 및 불용어 처리)

세부 주제: 텍스트 데이터 정규화 및 불필요한 단어 제거

프로그램 예시: 정규표현식을 이용해 특수문자 제거, 불용어(stopwords) 제거


6회차: 자연어 처리 기초 - 토크나이징과 임베딩

세부 주제: 텍스트를 단어 단위로 나누고 임베딩을 이해하기

프로그램 예시: NLTK를 이용한 토크나이징, Word2Vec을 이용한 임베딩 생성


7회차: 딥러닝으로 텍스트 분류하기

세부 주제: 텍스트 분류를 위한 딥러닝 모델 구축

프로그램 예시: TensorFlow를 이용해 뉴스 기사를 카테고리별로 분류하는 모델 구축


8회차: 텍스트 군집화 (토픽 모델링)

세부 주제: 비지도 학습을 통한 텍스트 데이터 군집화 및 주제 도출

프로그램 예시: Tomotopy를 활용한 다양한 토픽 모델링 실습


9회차: 데이터 시각화 및 결과 공유

세부 주제: 텍스트 분석 결과 시각화하고 연구 데이터 공유 방법 알아보기

프로그램 예시: Matplotlib을 이용해 토픽별 단어 분포 시각화, GitHub에 코드 업로드


10회차: 디지털 인문사회과학 논문 작성법

세부 주제: 분석 결과를 논문 형식으로 작성하는 방법

프로그램 예시: Jupyter Notebook에서 보고서 형식으로 결과 작성 및 마크다운 활용


프로그램 개요

인문사회과학 전공 학생들을 위한 데이터 분석 역량 강화 프로그램입니다. 텍스트 마이닝 기법과 프로그래밍 스킬을 배워 연구 및 실무 능력을 향상시킬 수 있습니다.

프로그램 후기
  • 번호 프로그램명 프로그램 운영기간 주역량 작성자 작성일
  • 등록된 후기가 없습니다.
상세일정 및 신청하기
  • 프로그램 일정 마일리지 신청기간 신청현황
  • 파이썬을 활용한 텍스트마이닝

    ~

    2,000 부터
    까지

    7 명 / 무제한

    접수인원 제한없음