数据清洗——cleancc简介

  数据清洗——cleanccide

  cleancc函数

  快速清洗数据内容能够spa

  项目地址xml

  使用方法排序

  pip install cleanccip

  import cleancc字符串

  共有五个函数调用:pandas

  1.第一个函数为punct:it

  [pip

   去除标点并让全部字母小写

   :param pop_list:所要处理的的列表格式

   :param lower:是否转小写,默认是

   :return all_comment:处理后的结果-字符串格式

  ]

  2.第二个函数为statistics:

  [

   词频统计

   :param pop_list:所要处理的的列表格式

   :param symbol:是否去除标点,默认是

   :param lower:是否转小写,默认是

   :return wordCount_dict:统计结果-字典格式

  ]

  3.第三个函数为stop_words:

  [

   删除词频统计中的停顿词

   :param statis:是否选择词频清理

   :param pop_list:所要处理的的列表格式

   :param symbol:是否去除标点,默认是

   :param lower:是否转小写,默认是

   :param wordCount_dict:词频统计结果-字典

   :return wordCount_dict:清除后结果-字典格式

  ]

  4.第四个函数为Count_Sort:

  [

   字典排名数目排序

   :param wordCount_dict:词频统计结果-字典

   :param choices_number:返回前choices_number个字典个数

   :return keyword_list:出现的单词-列表格式

   :return value_list:单词对应的词频-列表格式

  ]郑州人流多少钱 http://www.hnmt120.com/

  5.第五个函数为word_all:

  [

   调用所有函数

   :param pop_list:所要处理的的列表格式

   :param choices_number:返回前choices_number个字典个数

   :param symbol:是否去除标点,默认是

   :param lower:是否转小写,默认是

   :return keyword_list:出现的单词-列表格式

   :return value_list:单词对应的词频-列表格式

  ]

  注意事项

  注意:处理数据参数类型为列表,须要pandas转换为列表后进行调用!

  使用示例:

  import pandas as pd

  from cleancc import clean

  from bs4 import BeautifulSoup

  df = pd.read_csv("label.csv",sep='\t', escapechar='\\')

  review_list = df['review'].tolist()

  comment_list = [BeautifulSoup(k,'lxml').text for k in review_list]

  print(comment_list)

  keyword_list, value_list = clean.word_all(comment_list,150)

  print(keyword_list, value_list)

相关文章
相关标签/搜索