课后习题答案
第一章
1.北京的小明给上海的丽丽发了一封邮件,分析邮件的传输过程中使用到了哪些本章 学习的内容?
答:邮件的传输过程中使用了本章学习的如下內容:
(1)TCP /IP协议,其中TCP协议负责保证传输的可靠,IP协议负责路由。
(2)SMTP协议是简单邮件传输协议。
(3)IP地址是每台上网的计算机都有的逻辑地址。
2.小明使用数码相机拍照,照片是模拟的?还是数字的?
答:小明使用数码相机的拍照是数字。
3.小明发现某杂志的封面特别漂亮,有哪些办法可以将封面存储到计算机中?在模数 转换过
程中,采样率和位深是如何体现的?
答:小明可以使用数码相机拍摄封面,也可以使用扫描仪扫描,均可以得到计算机可存 储的数字化文件。
在模数转换过程中,采样率就是图片的分辨率,位深描述了图片颜的等级。现在常见 的数码相机和扫描仪均可达到百万或千万级的分辨率,24位的颜位深,可以表示224 种不同的颜。
4.计算机中常见的存储单位有哪些,存储单位之间如何转换。
答:计算机中常见的存储单位有哪些包括KB、MB、GB、TB和PB等,转换关系如下。
存储单位前缀 | ||
前缀 | 含义 | 举例 |
K | 210 | 1KB = 2,0B = 1, 024 B |
M | 220 | 1MB = 220 B = 1, 024 KB |
G | 230 | 1GB = 230 B = 1, 024 MB |
T | 240 | 1TB = 210B = 1, 024 GB |
P | 250 | 1PB = 250 B = 1, 024 TB |
5.IPv6地址包含多少位整数?它比IPv4地址复杂又难记,为什么要使用它?
答:IPv6地址包含128位整数。使用IPv6替代IPv4的主要原因是2011年02 月,全球43亿个IPv4地址资源已经分配完毕。这意味着因特网发展晚的国家将面临 没有IP地址可用的问题,而且在因特网发展早期,欧、美和日本等国家分配了大量 的IPV4地址,导致地址分配不均。为更好的解决这个问题开始使用IPv6地址。IP v6 地址可分配的地址数量是3.4X10",意味着每个地球人可拥有的地址数量是5X10", 从根本上解决了 IP地址不够用的问题。
1.列举5个国内外常见的搜索引擎,说明搜索引擎的工作过程。
答:国内外常见的搜索引擎包含百度搜索、谷歌搜索、搜狗、、360搜索、必应搜索、 有道搜索、中国搜索等。
搜索引擎的工作过程分为如下三个步骤。
〈1〉抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider) „爬虫顺着 网页中的超链接,从一个网站爬到另一个网站,通过超链接分析,连续访问、抓取更多 网页。
〈2〉处理网页。搜索引擎抓到网页后要做大量的预处理工作,才能提供检索服务。其中 最重要的是提取关键词,建立索引库和索引,以及去除重复网页、分词(中文)、判断网 页类型、分析超链接、计算网页的重要度和丰富度等。
〈3〉提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中到匹配此关 键词的网页;为了用户便于判断,除了网页标题和URL,还会提供摘要和其他数据。
2.知识共享许可协议的四种选项是什么?六套主要的知识共享许可协议含义是什 么?
答:知识共享许可协议的四种选项见下表。
知识共享许可协议的四种选项
权利 | 符号 | 缩写 | 含义 |
署名 | BY | 允许他人对自己享有著作权的作品及演绎作品进行复制、发行、 展览、表演、放映、广播或通过数据网络向公众传播,但在这些 过程中对方必须保留作者对原作品的署名。 | |
非商业性使用 | NC | 允许他人对享有著作权的作品及演绎作品进行复制、发行、展览、 表演、放映、广播或通过数据网络向公众传播,但仅限于非商业 性目的。 | |
禁止演绎 | ND | 允许他人对作品原封不动地进行复制、发行、展览、表演、放映、 广播或通过数据网络向公众传播,但不得进行演绎创作。 | |
相同方式共享 | @@ | SA | 只有在他人对演绎作品使用与原作品相同的许可协议的情况下, 才允许他人发行其演绎作品。 |
六套主要的知识共享许可协议含义见下表。
知识共享许可协议
协议 | 符号 | 缩写 | 含义 |
署名一非商业 使用一禁止演 绎 | (D®® | BY-NC-ND | 允许重新传播,是六种主要许可协议中限制最为严 格的。只要注明著作者的姓名并建立链接,就下载 并与他人共享著作者的作品,但不能对作品做出任 何形式的修改或者进行商业性使用。 |
署名一非商业 性使用一相同 方式共享 | BY-NC-SA | 只要他人注明著作者的姓名并在以作品为基础创作 的新作品上适用同一类型的许可协议,他人就可基 于非商业目的对著作者的作品重新编排、节选或者 以作品为基础进行创作。 | |
署名一非商业 性使用 | (D® | BY-NC | 允许他人基于非商业目的对作品重新编排、节选或 者以作品为基础进行创作。 |
署名一禁止演 绎 | (D® | BY-ND | 只要他人完整使用作品,不改变作品并保留署名, 他人就可基于商业或者非商业目的,对作品进行再 传播。 |
署名一相同方 式共享 | BY-SA | 只要他人在其基于作品创作的新作品上注明著作者 的姓名并在新作品上适用相同类型的许可协议,就 可基于商业或非商业目的对作品重新编排、节选或 者以作品为基础进行创作。 | |
署名 | © | BY | 只要他人在原著上标明著作者的姓名,他人就可以 基于商业目的发行、重新编排、节选作品。 |
3.主动公开的数据来源有哪些?
答:主动公开的数据来源包含以下三种。
〈1〉政府数据。主要为国家级、各省市自治区直辖市均开始建立主动公开的开放数据网 站。
〈2〉国际组织主要涉及国家层面的数据。常见的组织包括联合国及其下各机构、世界经 贸组织、世界银行或者比较专业、有针对性的国际组织等
〈3〉科研机构及第三方数据。如很多科研机构和大学都建立了数据平台,百度数据开放 平台等,也包含提供收费数据服务的第三方数据公司。
4.常见的图片格式有哪些?
答:常见的图片格式如下:
<1>JPEG 文件
JPEG是联合图像专家组(Joint Photographic Experts Group)开发的一种图像文件 格式,该格式是有损压缩,且压缩比例是可调整的,常见的压缩比范围是10: 1〜40: 1,随着压缩比的增大图像品质会下降。
JPEG2000是JPEG的技术升级,其压缩比高于JPEG约30%,既支持有损压缩也支持无损 压缩。该技术具有渐进传输的特性,即先传输图像的轮廓,再逐步传输细节数据,不断 现实图像细节,提高图像质量。该技术还具有“感兴趣区域”特性,可以任意指定影像 上感兴趣区域的压缩质量,先解压缩感兴趣的区域。
<2>GIF文件
GIF是CompuServe公司在1987年开发一种图像文件格式,该格式是无损压缩,压缩比 2: 1左右,仅支持256图像,GIF分为静态GIF和动画GIF两种,一般用于简单图表、 动态图形或少量颜的图像。
<3>PNG文件
数据可视化是什么PNG格式提出的目的是替代GIF和TIFF文件格式,该格式是无损压缩,是一种位图存 储格式。
PNG格式体积小、支持256个透明层次、支持真彩和灰度级图像的Alpha通 道透明度。
<4>PSD文件
PSD是Adobe公司为图形设计软件Photoshop开发的一种专用图像文件格式。该格式没 有经过压缩,文件大,主要用于处理位图。
<5>AI文件
AI是Adobe Illustrator的文件扩展名,是一种矢量图形文件格式。
5.列举3个常用的音频编辑软件,并简述功能。
答:常用的音频编辑软件及其功能如下:
<l>Audition
Audition是由Adobe公司开发的专业级声音编辑软件。其前身是Cool Edit Pro, 2003 年被Adobe公司收购后,改名为Auditiono Audition功能强大,兼容性好。广泛应用 于广播、声音
后期制作等。可以安装到Windows系统和MAC系统。Audition最大的优 势是和Adobe公司开发的其他软件无缝结合。
<2>Audacity
Audacity是一款免费、跨平台的音频处理软件。操作界面简单,功能包含录音、编辑、 特效等。
<3>Sound Forge
Sound Forge是单轨音频编辑软件,主要是对声音的波形进行编辑。属于专业级软件, 功能强大,较复杂。
<4>Samplitude
Samplitude是由德国MAGIX开发的专业级音乐制作软件。功能强大,包含录音、MIDI 制作、缩混、母带处理等。
第三章
1.Pandas包共有几种数据结构?都是几维数据?
答:pandas包共有三种数据结构,但使用最广泛的是Series和DataFrame两种数据结 构。
Pandas包可以处理的三种数据结构
数据结构 | 维数 | 描述 |
系列(Series) | 1 | 均匀数组,大小不变。 |
数据帧(DataFrame) | 2 | 大小可变的表结构与潜在的异质类型的列。 |
面板(Panel) | 3 | 大小可变数组。 |
2.为什么要清洗数据格式?主要包括哪些具体工作?
答:人工收集、手工录入,或者来源不同的数据通常在格式和内容方面会存在一些问题, 如不同国家或地区的日期型数据格式可能是不同的,“2020-02-24”、“24-02-2020” 和“02-24-2020”均表示2020年2月24日;也可能存在全半角的问题,如“Beijing” 和“ B e i j i n g ”都表示同一个城市;也可能存在空格的问题,如“北京”和
“北 京”都表示同一个城市“北京”。虽然用户可以理解数据的这些格式和内容问题, 但计算机会将这类仅仅是格式不同内容相同的数据认为是内容不同的数据,在做分类汇 总等数据分析时出现错误。
具体工作包括删除字符串中的空格、转换大小写和更改数据格式等。
3.常见的数据逻辑错误有哪些?
答:逻辑错误就是不符合逻辑的数据问题,如重复记录、异常值和极端值(如工资高的 不符合常理,学生成绩出现过多的零分)等。尽早发现逻辑错误并清洗以防止数据分析 结果走偏。
4.多人合作同时进行数据清洗前需要完成哪些工作?
答:为提高数据的获取效率,多人同时合作是一种常见的获取数据方式。多人获取的列 数据需要通过数据合并操作组成一个完整的数据表,一般使用merge()方法和 combine_first()方法实现。分组是将原始数据按照某种标准划分成不同的组别,主要 目的是用于观察数据的分布特征,一般使用cut()方法实现。
第四章
1.为什么要做数据分析?
答:数据分析可帮助人们作出判断,以便采取适当的行动。数据分析首先可以进行现状 分析,描述当前发生了什么;其次,进行原因分析,解释为什么的问题;再次,可以进 行预测分析,尝试发现未来可能发生的问题;最后,根据上述三种分析进行指令型分析, 解决需要怎么做的问题。如地图APP帮助用户描述当前的路况,标注原因(如地铁停运、 临时封路等),预测从单位回家需要的时间,最后通过指令型分析,给出回家的最优路 线建议(如最短时间、最便宜、最少走路等)。
2.分析iloc[]和10机]定位的区别。
答:索引器订oc[]是针对位置的切片,而loc[]是针对标签的切片。因为索引值可以 设置为多种数据类型,所以索引器loci ]中方括号的值也是多种多样的。而iloc[] 是按照索引的位置来进行选取,所以iloc[]的方括号中只能是整型数值。需要注意的 是,无论首条记录的索引值是何种数据类型,具体值是多少,首条记录的位置一定是0, 并按步长是1逐步递增。
3.分析排名与排序的异同。
答:排名与排序类似,都是通过升序或降序记录发现数据的特征和规律。区别是排序修 改了记录的显示顺序,也可以通过参数设置彻底修改原数据的顺序。排名不改变记录的 显示顺序,只是增加了排名,显示每条记录的顺序排名。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论